89 Fit

コマンド fit は、Marquardt-Levenberg 法による非線形最小自乗法 (NLLS) を用いて、データ点の集合にユーザが与える式を当てはめます。独立変数は 12 まで許されていて、従属変数は常に 1 つで、任意個数のパラメータを当て はめることができます。さらに追加で、データ点の重み付け用に誤差評価を入 力することも可能です。

fit の最も基本的な使用法は、以下の単純な例が示しています。ここで、フ ァイルから読み込む x と y の計測値 (measured) の集合は、関数 y = f(x) のモデル化に使います。


     f(x) = a + b*x + c*x**2
     fit f(x) 'measured.dat' using 1:2 via a,b,c
     plot 'measured.dat' u 1:2, f(x)

書式:


     fit {<ranges>} <expression>
         '<datafile>' {datafile-modifiers}
         {{unitweights} | {y|xy|z}error | errors <var1>{,<var2>,...}}
         via '<parameter file>' | <var1>{,<var2>,...}

範囲 (xrange, yrange 等) は、当てはめに使用するデータを制限する目的で 使うことができ、その範囲を超えたデータは無視します。その書式は plot コマンド同様


     [{dummy_variable=}{<min>}{:<max>}],

です。以下参照: plot ranges (100.6)

<expression> は、通常はあらかじめユーザ定義された f(x) または f(x,y) の形の関数ですが、gnuplot で有効などんな数式でも指定できます。ただし 実数値関数でなければいけません。 独立変数の名前は、コマンド set dummy で設定するか、fit の範囲指定部 分 (<rangse>) で設定します (以下を参照)。デフォルトでは、最初の 2 つは x, y となります。 さらに、その数式は、当てはめの作業により決定する値を持つ 1 つ以上の変 数 (パラメータ) に依存すべきです。

<datafile>plot コマンドと同様に扱われます。plot datafile の修 飾子 (using, every,...) は、smooth を除いて、全て fit に使うこ とができます。以下参照: plot datafile (100.3)

データファイルの内容は、plot コマンドに使用するのと同じ using 指定を 使うことで柔軟に解釈させることができます。例えば、独立変数 x を2 列目 と 3 列目の和として生成し、z の値を 6 列目から取り、重みを 1 としたい 場合は以下のようにします:


     fit ... using ($2+$3):6

using 指定がない場合、fit は暗黙に独立変数は 1 つだけと仮定します。 ファイル自身、または using 指定が 1 列だけのデータを持つ場合、その行番 号を独立変数値として使用します。 using 指定を与えた場合、最大 12 個 (指定してコンパイルしていればさら にそれ以上) の独立変数を利用できます。

オプション unitweights (これがデフォルト) は、すべてのデータ点が等し い重みを持つとみなします。これは、キーワード error を使用することで 変更でき、これはデータファイルから 1 つ以上の変数の誤差評価を読み込み、 その誤差評価を対応する変数値の標準偏差 s とみなし、各データに 1/s**2 の重みを計算するのに使用します。

独立変数の誤差評価において、その重みには、"有効分散法" (effective variance method; Jay Orear, Am. J. Phys., Vol. 50, 1982) に従って、さ らに当てはめ関数の微分係数をかけます。

キーワード errors には、その後ろに、入力がどの変数の誤差であるのかを 示すコンマ区切りの 1 つ以上の変数名のリストが付きます。従属変数 z は常 にその中になければいけませんが、独立変数は必須ではありません。 そのリストの各変数に対し、ファイルからその分の、各変数の誤差評価を持つ 追加の列を読み込みます。繰り返しになりますが、using 指定により柔軟な 解釈が可能になります。 よって、独立変数の数は暗黙に、using 指定内の列の数から 1 を引いて (従属変数分)、さらに errors 指定内の変数の個数を引いた数になることに 注意してください。

例として、2 つの独立変数があり、そして 1 つ目の独立変数と従属変数の誤 差データがある場合は、errors x,z 指定と 5 列の using 指定を使うこ とになりますが、それは x:y:z:sx:sz のように解釈されます (x, y は独立変 数、z が従属変数、sx, sz は x, z の標準偏差)。

errors 指定のちょっとした略記法も 2,3 用意されています: yerrors (独立変数が 1 列ある当てはめ用)、 zerrors (より一般の場合) は、いずれも errors z と同値で、1 列だけ 追加の従属変数用の誤差列があることを意味しています。

xyerrors は、独立変数は 1 列で、その独立変数と従属変数の両方の 2 列 の誤差列が追加されることを意味します。この場合、x と y の誤差は Orear の有効分散法 (effective variance method) で処理されます。

yerrorxyerror の形式および解釈は、それぞれ 2 次元描画スタイル の yerrorlinesxyerrorlines に同等であることに注意してください。

コマンド set fit v4 を使用すると、fit のコマンド書式は gnuplot バ ージョン 4 と互換の書式になります。その場合、using には、独立変数が 2 つ以上ならば、独立変数の数より 2 つ (z と s) 多い指定が必要で、 gnuplot は、using 指定で与えられた列の数に応じて、以下の書式に従い ます:


     z                           # 独立変数は 1 つ (行番号)
     x:z                         # 独立変数は 1 つ (第 1 列)
     x:z:s                       # 独立変数は 1 つ (全部で 3 列)
     x:y:z:s                     # 独立変数は 2 つ (全部で 4 列)
     x1:x2:x3:z:s                # 独立変数は 3 つ (全部で 5 列)
     x1:x2:x3:...:xN:z:s         # 独立変数は N 個 (全部で N+2 列)

これは、2 つ以上の独立変数で fit をする場合、z-誤差 s を与える必要があ ることを意味することに注意してください。重みを 1 にしたい場合は、それ を、例えば x:y:z:(1) のような書式を using に指定することで明示的に与え る必要があります。

仮変数名は、下で紹介するように範囲指定で指定することで変更できます。最 初の範囲は using 指定の最初のものに対応し、以下同様です。従属変数で ある z の範囲指定もできますが、それは、f(x,...) の値をその範囲外にして しまうようなデータ点が、残差を最小化することには寄与しない場合に有効で す。

複数のデータ集合も複数の 1 変数関数に同時に当てはめることも、y を '仮 変数' とすれば可能です。例えばデータ行番号を使い、2 変数関数への当ては め、とすればいいでしょう。以下参照: fit multi-branch (89.6)

via 指定子は、パラメータの最適化を、直接行うか、またはパラメータファ イルを参照することによって行うかを指定します。

例:


     f(x) = a*x**2 + b*x + c
     g(x,y) = a*x**2 + b*y**2 + c*x*y
     set fit limit 1e-6
     fit f(x) 'measured.dat' via 'start.par'
     fit f(x) 'measured.dat' using 3:($7-5) via 'start.par'
     fit f(x) './data/trash.dat' using 1:2:3 yerror via a, b, c
     fit g(x,y) 'surface.dat' using 1:2:3 via a, b, c
     fit a0 + a1*x/(1 + a2*x/(1 + a3*x)) 'measured.dat' via a0,a1,a2,a3
     fit a*x + b*y 'surface.dat' using 1:2:3 via a,b
     fit [*:*][yaks=*:*] a*x+b*yaks 'surface.dat' u 1:2:3 via a,b


     fit [][][t=*:*] a*x + b*y + c*t 'foo.dat' using 1:2:3:4 via a,b,c


     set dummy x1, x2, x3, x4, x5
     h(x1,x2,x3,x4,s5) = a*x1 + b*x2 + c*x3 + d*x4 + e*x5
     fit h(x1,x2,x3,x4,x5) 'foo.dat' using 1:2:3:4:5:6 via a,b,c,d,e

反復の個々のステップの後で、当てはめの現在の状態についての詳細な情報が 画面に表示されます。そし最初と最後の状態に関する同じ情報が "fit.log" というログファイルにも書き出されます。このファイルは前の当てはめの履歴 を消さないように常に追加されていきます。これは望むなら削除、あるいは別 な名前にできます。コマンド set fit logfile を使ってログファイルの名 前を変更することもできます。

set fit errorvariables を使用した場合、各当てはめパラメータの誤差は そのパラメータと似た名前 ("_err" が追加された名前) の変数に保存されま すので、その誤差をその後の計算の入力として使用することができます。

set fit prescale とした場合、当てはめパラメータを、それらの初期値か らスケール変換します。これにより、個々のパラメータの大きさにかなり違い があるような場合でも、Marquardt-Levenberg ルーチンがより早く、より信頼 性のある値に収束させられるようになります。

当てはめの反復は Ctrl-C (wgnuplot では Ctrl-Break) を押すことで中断で きます。現在の反復が正常に終了した後、以下のいずれかを選ぶことができま す: (1) 当てはめを止めて現在のパラメータの値を採用する (2) 当てはめを続行する (3) set fit script か、環境変数 FIT_SCRIPT で指定した gnuplot コ マンドを実行する。そのデフォルトは replot で、もしデータと当てはめ関 数を一つのグラフにあらかじめ描画してあれば、現在の当てはめの状態を表示 することができます。

fit が終了した後は、最後のパラメータの値を保存するのに save fit コ マンドを使います。その値は再びパラメータの値として使うことができます。 詳細は、以下参照: save fit (112)


Subsections
竹野茂治@新潟工科大学
2024-12-02