27.2 Fit の概略 (fit beginners_guide)

fit は、与えられたデータ点を与えられたユーザ定義関数にもっとも良く 当てはめるようなパラメータを見つけるのに使われます。その当てはめは、 同じ場所での入力データ点と関数値との自乗誤差、あるいは残差 (SSR:Sum of the Squared Residuals) の和を基に判定されます。この量は通常χ(カイ) 自乗と呼ばれます。このアルゴリズムは SSR を 最小化することをしようと します。もう少し詳しく言うと、データ誤差 (または 1.0) の重みつき残差の 自乗和 (WSSR) の最小化を行っています。詳細は以下参照:fit error_estimates (p. [*])

これが、(非線形) 最小自乗当てはめ法と呼ばれるゆえんです。非線形 が 何を意味しているのかを見るための例を紹介しますが、その前にいくつかの 仮定について述べておきます。ここでは簡単のため、1 変数のユーザー定義 関数は z=f(x), 2 変数の関数は z=f(x,y) のようにし、いずれも従属変数と して z を用いることにします。パラメータとは fit が調整して適切な値を 決定するユーザ定義変数で、関数の定義式中の未知数です。ここで言う、線形 性/非線形性とは、従属変数 z と fit が調整するパラメータとの関係に対 するものであり、z と独立変数 x (または x と y) との関係のことではあり ません (数学的に述べると、線形最小自乗問題では、当てはめ関数のパラメー タによる 2 階 (そして更に高階の) 導関数は 0、ということになります)。

線形最小自乗法 (LLS) では、ユーザ定義関数は単純な関数の和であり、それ ぞれは一つのパラメータの定数倍で他のパラメータを含まない項になります。 非線形最小自乗法 (NLLS) ではより複雑な関数を扱い、パラメータは色んな 使われ方をされます。フーリエ級数は線形と非線形の最小自乗法の違いを表す 一つの例です。フーリエ級数では一つの項は

    z=a*sin(c*x) + b*cos(c*x).

のように表されます。もし、a と b が未知なパラメータで c は定数だとすれば パラメータの評価は線形最小自乗問題になります。しかし、c が未知なパラメー タならばそれは非線形問題になります。

線形の場合、パラメータの値は比較的簡単な線形代数の直接法によって決定で きます。しかしそのような LLS は特殊な場合であり、'gnuplot' が使用する 反復法は、もちろんそれも含めて、より一般的な NLLS 問題を解くことができ ます。fit は検索を行うことで最小値を探そうとします。反復の各ステップ は、パラメータの新しい値の組に対して WSSR を計算します。Marquardt- Levenberg のアルゴリズムは次のステップのパラメータの値を選択します。そ してそれはあらかじめ与えた基準、すなわち、(1) 当てはめが "収束した" (WSSR の相対誤差が FIT_LIMIT より小さくなった場合)、または (2) あらか じめ設定された反復数の限界 FIT_MAXITER (以下参照:fit control variables (p. [*])) に達した場合、のいずれかを満たすまで続けられ ます。キーボードからその当てはめの反復は中断できますし、それに続いて中 止することもできます (以下参照: fit (p. [*]))。ユーザ変数 FIT_CONVERGED は、 直前の fit コマンドが収束により終了した場合は 1 を含み、それ以外の理由で中断した場合は 0 を含みます。

当てはめに使われる関数はしばしばあるモデル (またはある理論) を元にして いて、それはデータの振舞を記述したり、あるいは予測しようとします。よっ て fit は、データがそのモデルにどれくらいうまく当てはまっているのかを 決定するため、そして個々のパラメータの誤差の範囲を評価するために、モデ ルの自由なパラメータの値を求めるのに使われます。以下参照:fit error_estimates (p. [*])

そうでなければ、曲線による当てはめにおける関数は、モデルとは無関係に選 ばれています (それは十分な表現力と最も少ない数のパラメータを持ち、デー タの傾向を記述しそうな関数として経験に基づいて選ばれるでしょう)。

しかし、もしあなたが全てのデータ点を通るような滑らかな曲線を欲しいなら fit ではなく、むしろ plotsmooth オプションでそれを行うべきで しょう。

竹野茂治@新潟工科大学
2008年9月29日