69.3.2 実用的なガイドライン (practical guidelines)

個々のデータ点への重みづけの割り当ての基礎を知っているなら、それが測定結果に対するより詳しい情報を使用させようとするでしょう。例えば、幾つかの点は他の点より当てになるということを考慮に入れることが可能です。そして、それらは最終的なパラメータの値に影響します。

データの重み付けは、最後の反復後の fit の追加出力に対する解釈の基礎を与えます。各点に同等に重み付けを行なうにしても、重み 1 を使うことよりもむしろ平均標準偏差を評価することが、χ自乗が定義によりそうであるように、WSSR を無次元変数とすることになります。

当てはめ反復の各段階で、当てはめの進行の評価に使うことが出来る情報が表示されます ('*' はより小さい WSSR を見つけられなかったこと、そして再試行していることを意味します)。'sum of squares of residuals' (残差の自乗和) は、'chisquare' (χ自乗) とも呼ばれますが、これはデータと当てはめ関数との間の WSSR を意味していて、fit はこれを最小化しようとします。この段階で、重み付けされたデータによって、χ自乗の値は自由度 (= データ点の数 - パラメータの数) に近付くことが期待されます。WSSR は補正された χ自乗値 (WSSR/ndf; ndf = 自由度)、または当てはめ標準偏差 (stdfit = sqrt(WSSR/ndf)) を計算するのに使われます。それらは最終的な WSSR に対してレポートされます。

データが重み付けされていなければ、stdfit は、ユーザの単位での、データと当てはめ関数の偏差の RMS (自乗平均平方根) になります。

もし妥当なデータ誤差を与え、データ点が十分多く、モデルが正しければ、補正χ自乗値はほぼ 1 になります (詳細は、適当な統計学の本の 'χ自乗分布' の項を参照してください)。この場合、この概要に書かれていること以外に、モデルがデータにどれくらい良く当てまっているかを決定するための追加の試験方法がいくつかあります。

補正χ自乗が 1 よりはるかに大きくなったら、それは不正なデータ誤差評価、正規分布しないデータ誤差、システム上の測定誤差、孤立した標本値 (outliers)、または良くないモデル関数などのためでしょう。例えば plot 'datafile' using 1:($2-f($1)) などとして残差を描画することは、それらのシステム的な傾向を知るための手がかりとなります。データ点と関数の両者を描画することは、他のモデルを考えための手がかりとなるでしょう。

同様に、1.0 より小さい補正χ自乗は、WSSR が、正規分布する誤差を持つランダムなサンプルと関数に対して期待されるものよりも小さいことを意味します。データ誤差評価が大きすぎるのか、統計的な仮定が正しくないのか、またはモデル関数が一般的すぎて、内在的傾向に加えて特殊なサンプルによる変動の当てはめになっているのでしょう。最後の場合は、よりシンプルな関数にすればうまく行くでしょう。

当てはめの p-値は、自由度と結果のχ自乗値に対するχ自乗分布の累積分布関数値を 1 から引いた値です。これは、当てはめの良さのものさしを提供します。p-値の範囲は 0 から 1 までで、p-値がとても小さい、あるいはとても大きい場合は、モデルがデータとその誤差をちゃんと記述していないことを意味します。上で述べたように、これはデータに問題があるか、誤差かモデルに問題がある、またはそれらの組み合わせなのだろうと思います。p-値が小さいことは、誤差が過小評価されているので、よって最終的なパラメータ誤差をスケール変換すべきだろうということを意味するでしょう。以下も参照:set fit errorscaling (89.25)。

標準的なエラーを、パラメータの不確定性に関する、あるより現実的な評価に関係付けること、および相関行列の重要性を評価することができるようになる前に、あなたは fit と、それを適用しようとするある種の問題に慣れておく必要があるでしょう。

fit は、大抵の非線形最小自乗法の実装では共通して、距離の自乗 (y-f(x))**2 の重み付きの和を最小化しようとすることに注意してください。それは、x の値の "誤差" を計算に関してはどんな方法も与えてはおらず、単に y に関する評価のみです。また、"孤立点" (正規分布のモデルのから外れているデータ点) は常に解を悪化させる可能性があります。

竹野茂治＠新潟工科大学
2017年8月23日