75.3.2 実用的なガイドライン (practical guidelines)

個々のデータ点への重みづけの割り当ての基礎を知っているなら、それが測定 結果に対するより詳しい情報を使用させようとするでしょう。例えば、幾つか の点は他の点より当てになるということを考慮に入れることが可能です。そし て、それらは最終的なパラメータの値に影響します。

データの重み付けは、最後の反復後の fit の追加出力に対する解釈の基礎 を与えます。各点に同等に重み付けを行なうにしても、重み 1 を使うことよ りもむしろ平均標準偏差を評価することが、χ自乗が定義によりそうであるよ うに、WSSR を 無次元変数とすることになります。

当てはめ反復の各段階で、当てはめの進行の評価に使うことが出来る情報が表 示されます ('*' はより小さい WSSR を見つけられなかったこと、そして再試 行していることを意味します)。'sum of squares of residuals' (残差の自乗 和) は、'chisquare' (χ自乗) とも呼ばれますが、これはデータと当てはめ 関数との間の WSSR を意味していて、fit はこれを最小化しようとします。 この段階で、重み付けされたデータによって、χ自乗の値は自由度 (= データ 点の数 - パラメータの数) に近付くことが期待されます。WSSR は補正された χ自乗値 (WSSR/ndf; ndf = 自由度)、または当てはめ標準偏差 (stdfit = sqrt(WSSR/ndf)) を計算するのに使われます。それらは最終的な WSSR に対し てレポートされます。

データが重み付けされていなければ、stdfit は、ユーザの単位での、データ と当てはめ関数の偏差の RMS (自乗平均平方根) になります。

もし妥当なデータ誤差を与え、データ点が十分多く、モデルが正しければ、 補正χ自乗値はほぼ 1 になります (詳細は、適当な統計学の本の 'χ自乗分 布' の項を参照してください)。この場合、この概要に書かれていること以外に、モデルがデータにどれくらい良く当てまっているかを決定するための追加の試験方法がいくつかあります。

補正χ自乗が 1 よりはるかに大きくなったら、それは不正なデータ誤差評価、 正規分布しないデータ誤差、システム上の測定誤差、孤立した標本値 (outliers)、または良くないモデル関数などのためでしょう。例えば plot 'datafile' using 1:($2-f($1)) などとして残差を描画することは、 それらのシステム的な傾向を知るための手がかりとなります。データ点と関数 の両者を描画することは、他のモデルを考えための手がかりとなるでしょう。

同様に、1.0 より小さい補正χ自乗は、WSSR が、正規分布する誤差を持つラ ンダムなサンプルと関数に対して期待されるものよりも小さいことを意味しま す。データ誤差評価が大きすぎるのか、統計的な仮定が正しくないのか、また はモデル関数が一般的すぎて、内在的傾向に加えて特殊なサンプルによる変動 の当てはめになっているのでしょう。最後の場合は、よりシンプルな関数にす ればうまく行くでしょう。

当てはめの p-値は、自由度と結果のχ自乗値に対するχ自乗分布の累積分布 関数値を 1 から引いた値です。これは、当てはめの良さのものさしを提供し ます。p-値の範囲は 0 から 1 までで、p-値がとても小さい、あるいはとても 大きい場合は、モデルがデータとその誤差をちゃんと記述していないことを意 味します。上で述べたように、これはデータに問題があるか、誤差かモデルに 問題がある、またはそれらの組み合わせなのだろうと思います。p-値が小さい ことは、誤差が過小評価されているので、よって最終的なパラメータ誤差をス ケール変換すべきだろうということを意味するでしょう。以下も参照:set fit errorscaling (p. [*])

標準的なエラーを、パラメータの不確定性に関する、あるより現実的な評価に 関係付けること、および相関行列の重要性を評価することができるようになる 前に、あなたは fit と、それを適用しようとするある種の問題に慣れてお く必要があるでしょう。

fit は、大抵の非線形最小自乗法の実装では共通して、距離の自乗 (y-f(x))**2 の重み付きの和を最小化しようとすることに注意してください。 それは、x の値の "誤差" を計算に関してはどんな方法も与えてはおらず、単 に y に関する評価のみです。また、"孤立点" (正規分布のモデルのから外れ ているデータ点) は常に解を悪化させる可能性があります。

竹野茂治@新潟工科大学
2019-05-30