69.2 Fit の概略 (fit beginners

69.2 Fit の概略 (fit beginners_guide)

fit は、与えられたデータ点を与えられたユーザ定義関数にもっとも良く当てはめるようなパラメータを見つけるのに使われます。その当てはめは、同じ場所での入力データ点と関数値との自乗誤差、あるいは残差 (SSR:Sum of the Squared Residuals) の和を基に判定されます。この量は通常χ(カイ) 自乗と呼ばれます。このアルゴリズムは SSR を最小化することをしようとします。もう少し詳しく言うと、データ誤差 (または 1.0) の重みつき残差の自乗和 (WSSR) の最小化を行っています。詳細は、以下参照:fit error_estimates (69.3)。

これが、(非線形) 最小自乗当てはめ法と呼ばれるゆえんです。非線形 が何を意味しているのかを見るための例を紹介しますが、その前にいくつかの仮定について述べておきます。ここでは簡単のため、1 変数のユーザー定義関数は z=f(x), 2 変数の関数は z=f(x,y) のようにし、いずれも従属変数として z を用いることにします。パラメータとは fit が調整して適切な値を決定するユーザ定義変数で、関数の定義式中の未知数です。ここで言う、線形性/非線形性とは、従属変数 z と fit が調整するパラメータとの関係に対するものであり、z と独立変数 x (または x と y) との関係のことではありません (数学的に述べると、線形最小自乗問題では、当てはめ関数のパラメータによる 2 階 (そして更に高階の) 導関数は 0、ということになります)。

線形最小自乗法 (LLS) では、ユーザ定義関数は単純な関数の和であり、それぞれは一つのパラメータの定数倍で他のパラメータを含まない項になります。非線形最小自乗法 (NLLS) ではより複雑な関数を扱い、パラメータは色んな使われ方をされます。フーリエ級数は線形と非線形の最小自乗法の違いを表す一つの例です。フーリエ級数では一つの項は

    z=a*sin(c*x) + b*cos(c*x).

のように表されます。もし、a と b が未知なパラメータで c は定数だとすればパラメータの評価は線形最小自乗問題になります。しかし、c が未知なパラメータならばそれは非線形問題になります。

線形の場合、パラメータの値は比較的簡単な線形代数の直接法によって決定できます。しかしそのような LLS は特殊な場合であり、'gnuplot' が使用する反復法は、もちろんそれも含めて、より一般的な NLLS 問題を解くことができます。fit は検索を行うことで最小値を探そうとします。反復の各ステップは、パラメータの新しい値の組に対して WSSR を計算します。Marquardt- Levenberg のアルゴリズムは次のステップのパラメータの値を選択します。そしてそれはあらかじめ与えた基準、すなわち、(1) 当てはめが "収束した" (WSSR の相対誤差がある限界値より小さくなった場合。以下参照:set fit limit (89.25))、または (2) あらかじめ設定された反復数の限界に達した場合 (以下参照: set fit maxiter (89.25))、のいずれかを満たすまで続けられます。キーボードからその当てはめの反復は中断できますし、それに続いて中止することもできます (以下参照: fit (69))。ユーザ変数 FIT_CONVERGED は、直前の fit コマンドが収束により終了した場合は 1 を持ち、それ以外の理由で中断した場合は 0 を持ちます。FIT_NITER は、直前の当てはめで行われた繰り返しの回数を持ちます。

当てはめに使われる関数はしばしばあるモデル (またはある理論) を元にしていて、それはデータの振舞を記述したり、あるいは予測しようとします。よって fit は、データがそのモデルにどれくらいうまく当てはまっているのかを決定するため、そして個々のパラメータの誤差の範囲を評価するために、モデルの自由なパラメータの値を求めるのに使われます。以下参照:fit error_estimates (69.3)。

そうでなければ、曲線による当てはめにおける関数は、モデルとは無関係に選ばれています (それは十分な表現力と最も少ない数のパラメータを持ち、データの傾向を記述しそうな関数として経験に基づいて選ばれるでしょう)。

しかし、もしあなたが全てのデータ点を通るような滑らかな曲線を欲しいなら fit ではなく、むしろ plot の smooth オプションでそれを行うべきでしょう。

竹野茂治＠新潟工科大学
2017年3月21日