◆繰り返し数が等しくない場合の一元配置実験(p14)
[例13:ディスクの表面粗さ]
J機械工業では、研磨機を用いてディスクの研磨を行っている。ディスクの表面粗さを改善するために、ディスクの素材メーカーに新たな素材の開発を依頼し、現行の素材と比較することにした。ただし、現行素材A1は4つのサンプルを用意できたが、新素材A2,A3はともにサンプルが3つしか用意できなかった。
実験結果は以下の表であり、特性値(表面粗さ)は小さい方が良い。これを解析せよ。
実験データ
この例題をStatWorks(スタットワークス)を使って解析する。
ちなみにエクセルのみで解析する場合は、下記の記事の通り。
エクセルだと、データプロット(散布図)の作成や、信頼区間や予測区間の数式を理解して計算をしないといけないが、スタットワークスだと実験データの入力の手間だけで、解析自体は一瞬のうちに完了する。
当然だが、どちらのパターンでも最終的に得られる結果はまったく同じである。
また”繰り返し数が等しくない場合”とは、一元配置実験(1要因の分散分析)で各水準内でサンプリングデータ数が異なっている場合のことである。
分散分析の計算自体は繰返しに関わらず同様の過程だが、各水準での信頼区間や予測区間の推定が異なる。区間推定の計算に繰り返し数:rを用いるため、各水準によって推定した区間の幅が異なる。
推定の幅は誤差分散が小さい、もしくは繰り返し数が多いほどより精密な(=範囲の小さい)推定ができる。
スタットワークス(StatWorks)による一元配置分散分析の解析手順
前置きが済んだので、それではスタットワークスで今回の例題を解析していく。
ソフトを起動して、新規のワークシートを立ち上げる。
実験データをワークシートに入力する。1列目のサンプル名は触らず、2列目に実験条件である因子A(素材の種類)、3列目に特性値の表面粗さを入力した。
今回はテキストの実験結果をスタットワークス上でワークシートに手入力したが、別でエクセルのCSVファイルなどある場合はインポートしても構わない。
2列目の実験条件を質的変数、3列目の特性値を量的変数にする。
デフォルトでは量的変数なので、質的変数に変えたいものだけ”変数属性”をクリックして変更する。
データの入力が済んだので、解析(分散分析)に入る。
上タブの「手法選択」→「実験計画法」→「一元配置分散分析」を選択する。
”変数の指定”ウィンドウが表示される。
左側の枠にワークシート上のデータ(最左列のサンプル名以外)が表示されているので、解析したい適当なものを選んで右側に移動させる。
今回の例題では右上の特性値に「表面粗さ」(量的変数)、右下の実験条件に「因子A:素材の種類」(質的変数)を反映させる。
Noはワークシートの列番号に対応している。
移動が完了したら、”次へ進む”ボタンをクリックで分散分析が実行される。
解析結果の「実験データ」→「実験データ」で、今回解析対象のデータ一覧について確認できる。素材はA1~A3で繰り返し数は水準によって異なっている。
「実験データ」→「データプロット」で散布図グラフのプロットを確認できる。
横軸:素材の種類(因子Aの各水準)、縦軸:表面粗さ(特性値)である。
グラフにおいて「×」は実験生データで、「○」は各水準での実験生データの平均値を示す。さらに各水準平均を線で結んでいる。赤線は全データ(今回の例ではn10)の平均値を示している。
データプロットから、素材の種類によって表面粗さの差はありそうであり、特性値としては値が低い方が望ましいので、A3が最適水準であることがわかる。
タブ「分散分析表」をクリックして、一元配置分散分析の結果を確認する。
”検定”欄に「**」表示があるので、因子Aは1%で有意であることがわかる。
分散比についても、F(2,7 ;0.01)=9.55 < 69.767であり非常に高い。
タブ「推定値」を選択をすると、各水準での母平均の点推定値、母平均の95%信頼区間、個々のデータの95%予測区間について一覧で確認できる。
”幅”とは、上限から下限の範囲のことであり、誤差分散は同じであるものの水準によって幅が異なるのは、データサンプル数が異なるためである。最もサンプルサイズの大きいA1水準が、より幅が小さくなっていることがわかる。
推定プロットを表示させる。横軸:素材の種類(因子A)、縦軸:表面粗さのグラフで、「○」が各水準での母平均の点推定値、縦方向の矢印が95%の推定範囲を示している。
デフォルトでは「母平均の95%信頼区間」が表示されるが、”オプション指定”の”区間表示”を変更することで、「個々のデータの95%予測区間」に切り替えることもできる。
例)推定値プロットを個々のデータの95%予測区間表示に変更
以上で一元配置分散分析の基本となる解析手順は完了だ。
残差とは
また、スタットワークスでは分散分析と推定値以外に「残差」についても確認することができるる。
残差とは、実測値から推定値を引いた値である。(言い換えると「個々の実験生データ」から「その水準での母平均の点推定値」を引いた値)
また残差t値は以下の式で計算できる。
Se:誤差eの平方和 / N:全データ数
t値は誤差の平均値である0からの離れ具合を見る指標である。
慣例的にこれが2.5を超える場合は、外れ値と見なし実験条件に誤りがなかったか等を確認する。
実際の例題の残差一覧表を確認する。まず「実測値」は実験データのことであり、「推定値」は因子A各水準での母平均の点推定値である。この場合の点推定値とは、繰り返し3回の実験生データの平均値を意味する。「残差」は実測値-推定値で計算される。
そして残差t値は、上記の計算式で
なので、「残差」を1.897で割った値が「残差t値」となる。
※36は分散分析表の誤差eの平方和(Se)にて確認できる。
「残差」→「正規確率プロット」では、t値の正規性を表示できる。
正規確率座標上にデータが右上がり45°で直線的にプロットされる時、データは正規分布であるとみなされる。
右側には基本統計量と正規性検定による検定統計量とP値が表示される。P値の値から解析対象の特性値が正規分布に従っているかを判断する。