79 Fit

コマンド fit は、Marquardt-Levenberg 法による非線形最小自乗法 (NLLS) を用いて、データ点の集合にユーザが与える式を当てはめます。独立変数は 12 まで許されていて、従属変数は常に 1 つで、任意個数のパラメータを当てはめることができます。さらに追加で、データ点の重み付け用に誤差評価を入力することも可能です。

fit の最も基本的な使用法は、以下の単純な例が示しています:

     f(x) = a + b*x + c*x**2
     fit f(x) 'measured.dat' using 1:2 via a,b,c
     plot 'measured.dat' u 1:2, f(x)

書式:

     fit {<ranges>} <expression>
         '<datafile>' {datafile-modifiers}
         {{unitweights} | {y|xy|z}error | errors <var1>{,<var2>,...}}
         via '<parameter file>' | <var1>{,<var2>,...}

範囲 (xrange, yrange 等) は、当てはめに使用するデータを制限する目的で使うことができ、その範囲を超えたデータは無視します。その書式は plot コマンド同様

     [{dummy_variable=}{<min>}{:<max>}],

です。以下参照: plot ranges (p. )。

<expression> は、通常はあらかじめユーザ定義された f(x) または f(x,y) の形の関数ですが、gnuplot で有効などんな数式でも指定できます。ただし実数値関数でなければいけません。独立変数の名前は、コマンド set dummy で設定するか、fit の範囲指定部分 (<rangse>) で設定します (以下を参照)。デフォルトでは、最初の 2 つは x, y となります。さらに、その数式は、当てはめの作業により決定する値を持つ 1 つ以上の変数 (パラメータ) に依存すべきです。

<datafile> は plot コマンドと同様に扱われます。plot datafile の修飾子 (using, every,...) は、smooth を除いて、全て fit に使うことができます。以下参照:plot datafile (p. )。

データファイルの内容は、plot コマンドに使用するのと同じ using 指定を使うことで柔軟に解釈させることができます。例えば、独立変数 x を2 列目と 3 列目の和として生成し、z の値を 6 列目から取り、重みを 1 としたい場合は以下のようにします:

     fit ... using ($2+$3):6

using 指定がない場合、fit は暗黙に独立変数は 1 つだけと仮定します。ファイル自身、または using 指定が 1 列だけのデータを持つ場合、その行番号を独立変数値として使用します。 using 指定を与えた場合、最大 12 個 (指定してコンパイルしていればさらにそれ以上) の独立変数を利用できます。

オプション unitweights (これがデフォルト) は、すべてのデータ点が等しい重みを持つとみなします。これは、キーワード error を使用することで変更でき、これはデータファイルから 1 つ以上の変数の誤差評価を読み込み、その誤差評価を対応する変数値の標準偏差 s とみなし、各データに 1/s**2の重みを計算するのに使用します。

独立変数の誤差評価において、その重みには、"有効分散法" (effective variance method; Jay Orear, Am. J. Phys., Vol. 50, 1982) に従って、さらに当てはめ関数の微分係数をかけます。

キーワード errors には、その後ろに、入力がどの変数の誤差であるのかを示すコンマ区切りの 1 つ以上の変数名のリストが付きます。従属変数 z は常にその中になければいけませんが、独立変数は必須ではありません。そのリストの各変数に対し、ファイルからその分の、各変数の誤差評価を持つ追加の列を読み込みます。繰り返しになりますが、using 指定により柔軟な解釈が可能になります。よって、独立変数の数は暗黙に、using 指定内の列の数から 1 を引いて (従属変数分)、さらに errors 指定内の変数の個数を引いた数になることに注意してください。

例として、2 つの独立変数があり、そして 1 つ目の独立変数と従属変数の誤差データがある場合は、errors x,z 指定と 5 列の using 指定を使うことになりますが、それは x:y:z:sx:sz のように解釈されます (x, y は独立変数、z が従属変数、sx, sz は x, z の標準偏差)。

errors 指定のちょっとした略記法も 2,3 用意されています: yerrors (独立変数が 1 列ある当てはめ用)、 zerrors (より一般の場合) は、いずれも errors z と同値で、1 列だけ追加の従属変数用の誤差列があることを意味しています。

xyerrors は、独立変数は 1 列で、その独立変数と従属変数の両方の 2 列の誤差列が追加されることを意味します。この場合、x と y の誤差は Orear の有効分散法 (effective variance method) で処理されます。

yerror と xyerror の形式および解釈は、それぞれ 2 次元描画スタイルの yerrorlines と xyerrorlines に同等であることに注意してください。

コマンド set fit v4 を使用すると、fit のコマンド書式は gnuplot バージョン 4 と互換の書式になります。その場合、using には、独立変数が 2 つ以上ならば、独立変数の数より 2 つ (z と s) 多い指定が必要で、 gnuplot は、using 指定で与えられた列の数に応じて、以下の書式に従います:

     z                           # 独立変数は 1 つ (行番号)
     x:z                         # 独立変数は 1 つ (第 1 列)
     x:z:s                       # 独立変数は 1 つ (全部で 3 列)
     x:y:z:s                     # 独立変数は 2 つ (全部で 4 列)
     x1:x2:x3:z:s                # 独立変数は 3 つ (全部で 5 列)
     x1:x2:x3:...:xN:z:s         # 独立変数は N 個 (全部で N+2 列)

これは、2 つ以上の独立変数で fit をする場合、z-誤差 s を与える必要があることを意味することに注意してください。重みを 1 にしたい場合は、それを、例えば x:y:z:(1) のような書式を using に指定することで明示的に与える必要があります。

仮変数名は、下で紹介するように範囲指定で指定することで変更できます。最初の範囲は using 指定の最初のものに対応し、以下同様です。従属変数である z の範囲指定もできますが、それは、f(x,...) の値をその範囲外にしてしまうようなデータ点が、残差を最小化することには寄与しない場合に有効です。

複数のデータ集合も複数の 1 変数関数に同時に当てはめることも、y を '仮変数' とすれば可能です。例えばデータ行番号を使い、2 変数関数への当てはめ、とすればいいでしょう。以下参照: fit multi-branch (p. )。

via 指定子は、パラメータの最適化を、直接行うか、またはパラメータファイルを参照することによって行うかを指定します。

例:

     f(x) = a*x**2 + b*x + c
     g(x,y) = a*x**2 + b*y**2 + c*x*y
     set fit limit 1e-6
     fit f(x) 'measured.dat' via 'start.par'
     fit f(x) 'measured.dat' using 3:($7-5) via 'start.par'
     fit f(x) './data/trash.dat' using 1:2:3 yerror via a, b, c
     fit g(x,y) 'surface.dat' using 1:2:3 via a, b, c
     fit a0 + a1*x/(1 + a2*x/(1 + a3*x)) 'measured.dat' via a0,a1,a2,a3
     fit a*x + b*y 'surface.dat' using 1:2:3 via a,b
     fit [*:*][yaks=*:*] a*x+b*yaks 'surface.dat' u 1:2:3 via a,b

     fit [][][t=*:*] a*x + b*y + c*t 'foo.dat' using 1:2:3:4 via a,b,c

     set dummy x1, x2, x3, x4, x5
     h(x1,x2,x3,x4,s5) = a*x1 + b*x2 + c*x3 + d*x4 + e*x5
     fit h(x1,x2,x3,x4,x5) 'foo.dat' using 1:2:3:4:5:6 via a,b,c,d,e

反復の個々のステップの後で、当てはめの現在の状態についての詳細な情報が画面に表示されます。そし最初と最後の状態に関する同じ情報が "fit.log" というログファイルにも書き出されます。このファイルは前の当てはめの履歴を消さないように常に追加されていきます。これは望むなら削除、あるいは別な名前にできます。コマンド set fit logfile を使ってログファイルの名前を変更することもできます。

set fit errorvariables を使用した場合、各当てはめパラメータの誤差はそのパラメータと似た名前 ("_err" が追加された名前) の変数に保存されますので、その誤差をその後の計算の入力として使用することができます。

set fit prescale とした場合、当てはめパラメータを、それらの初期値からスケール変換します。これにより、個々のパラメータの大きさにかなり違いがあるような場合でも、Marquardt-Levenberg ルーチンがより早く、より信頼性のある値に収束させられるようになります。

当てはめの反復は Ctrl-C (wgnuplot では Ctrl-Break) を押すことで中断できます。現在の反復が正常に終了した後、以下のいずれかを選ぶことができます:(1) 当てはめを止めて現在のパラメータの値を採用する (2) 当てはめを続行する (3) set fit script か、環境変数 FIT_SCRIPT で指定した gnuplot コマンドを実行する。そのデフォルトは replot で、もしデータと当てはめ関数を一つのグラフにあらかじめ描画してあれば、現在の当てはめの状態を表示することができます。

fit が終了した後は、最後のパラメータの値を保存するのに save fit コマンドを使います。その値は再びパラメータの値として使うことができます。詳細は、以下参照: save fit (p. )。

Subsections

竹野茂治＠新潟工科大学
2020-07-21