↑例題はこちらの参考書p14を参考にした。
◆繰返し数が等しくない場合の一元配置実験
例1.3:ディスクの表面粗さ
J機械工業では、研磨機を用いてディスクの研磨を行っている。ディスクの表面粗さを改善するために、ディスクの素材メーカーに新たな素材の開発を依頼し、現行の素材と比較することにした。ただし、現行素材A1は4つのサンプルを用意できたが、新素材A2,A3はともにサンプルが3つしか用意できなかった。
実験結果は以下の表であり、特性値(表面粗さ)は小さい方が良い。これを解析せよ。
◆「繰返し数等しくない」場合の考え方
一元配置実験(1要因の分散分析)で各水準内でサンプリングデータ数が異なっている場合の考え方について。
分散分析の計算は繰返し数が等しいか等しくないかに関わらず同様の過程だが、各水準の信頼区間や予測区間の推定だけが異なる。
区間推定の計算に繰返し数:rを用いるため、各水準によって推定した区間の幅が異なる。繰返し数(データ数)が少ないほど、粗い推定となる。
解析結果
では、今回の例題も実際にエクセルで計算してみる。まずはデータを散布図グラフにプロットする。
因子A(素材)による表面粗さの違いはありそうで、今回評価した中ではA3が最適水準である。
*今回の例題の特性値「表面粗さ」は値が小さいほど良い
グラフをぱっと見ただけでも主効果は十分にありそうなのだが、分散分析をして検定してみる。
まずは郡間/郡内の平方和をエクセルで計算する。
群間・・・各水準間の違い、ここでは素材による主効果
郡内・・・同水準内での違い、実験誤差(データのばらつき)
*群間/郡内の平方和の計算手順が分からない場合は、以下の記事を参照ください。
平方和の計算ができたので、次は分散分析表をつくる。
自由度について、私の場合は以下のステップで計算をしている。
最初に、全体の自由度=全データ数-1=10-1=9
次に群間の自由度=因子の水準数-1=3-1=2
最後に郡内の自由度=全体の自由度-群間の自由度=9-2=7
完成した分散分析表が以下となる。F値が69.77と非常に大きい。
F分布表から、今回のような事象(F=69.77)はどの程度の確率で起きることなのかを確認する。
分子の自由度2(因子A)、分母の自由度7(誤差)がクロスするところを読み取ると、有意水準1%でもFが9.55ある。よって、69.77 > 9.55となり検定の結果1%で有意である。
よって、ディスクの素材によって表面粗さは異なることがわかった。
・・・と、ここまでの流れは水準の繰返し数に関わらず同じである。
ここからが繰返し数が等しくない場合で、計算が微妙に変わる。
各水準の信頼区間と予測区間
各水準での母平均の95%信頼区間と、予測区間を推定する。
母平均の95%信頼区間は以下の式で計算する。
信頼区間=母平均の点推定値 ± t(φe,0.05) x
Ve・・・誤差分散
r・・・それぞれの水準での繰返し数
信頼区間のプラスマイナス幅の計算に「繰返し数:r」が含まれているため、各水準によって推定できる区間(=幅)が異なる。
具体的な計算では、まず t(φe, 0.05)=t(7, 0.05)=2.365で、誤差分散Veは分散分析表より5.14であるため、各水準の信頼区間は以下のような計算になる。
水準1の95%信頼区間
=89.00 ± 2.365 x √(5.14 / 4) = 89.00 ± 2.68
水準2の95%信頼区間
=92.00 ± 2.365 x √(5.14 / 3) = 92.00 ± 3.10
水準3の95%信頼区間
=72.00 ± 2.365 x √(5.14 / 3) = 72.00 ± 3.10
上記の計算式で赤字の部分が異なっている。繰返し数:rは分母になっているので、データ数が多いほど誤差は小さくなる(=より狭い範囲をピンポイントで推定できる)ということを示している。
予測区間についても考え方は同じである。予測区間は以下の式で計算する。
予測区間=母平均の点推定値 ± t(φe,0.05) x
水準1の予測区間
=89.00 ± 2.365 x √((1+1/4) x 5.14)=89.00 ± 6.00
水準2の予測区間
=92.00 ± 2.365 x √((1+1/3) x 5.14)=92.00 ± 6.19
水準3の予測区間
=72.00 ± 2.365 x √((1+1/3) x 5.14)=72.00 ± 6.19