Instant Engineering

エンジニアの仕事効率を上げる知識をシェアするブログ/QC統計手法/公差設計・解析/TPS(トヨタ生産方式)

【繰返しのある二元配置実験】エクセルのみで分散分析:樹脂成型部品の引っ張り強度

 

↑今回の例題は上記の参考書 p.29 例2.1:樹脂成型部品の繰返しのある二元配置法を参考にした。

このテキストは本来、統計解析ソフト「JUSE-StatWorks/V5(スタットワークス)」の使い方を指南する本であるが、今回はソフトを一切使わずエクセルで計算を実施した。当然であるが、解析ソフトを使ってもエクセルであっても最終のアウトプットは同じである。

解析ソフトの方が計算の過程を大幅に省略できるので、時間効率が圧倒的に高いが、反面その意味を理解していないと実験結果を正しく捉えることができない可能性があるので手順は多少面倒だがエクセルでの計算をチャレンジしてみた。

 

繰返しのある二元配置配置実験:エクセルで計算編

例2.1:樹脂成形部品の引っ張り強度

金属部品を樹脂成形部品で置き換え、コストダウンを図ることを計画している。この部品では引っ張り強度が重要な特性であり、樹脂成型品で十分な引っ張り強度が確保できるかどうかを実験で確認することにした。

樹脂成型時の射出圧力(因子A)と射出温度(因子B)を取り上げ、繰返しのある二元配置実験を行った結果が以下の表である。特性値は引っ張り強度(kg/cm^2)で高い方が良い。これを解析せよ。

 

◆解析

データ数は射出圧力(因子A)3水準x射出温度(因子B)4水準x繰返し数2回=24である。実験データを以下に示す。 

f:id:yuinomi:20200918155747p:plain

 

まずは散布図グラフでデータプロットを取る。一元配置実験では単独の因子を横軸とした一つのグラフのみであったが、二元配置実験では「因子A」「因子B」「交互作用」の3種類のグラフをプロットする。

 

プロット[A]・・・Aの水準を横軸に取り、生データと各A水準の平均値をプロット。因子Aの主効果を有無を把握するために活用する。平均値を結んだ線が平行であれば因子Aの主効果がないとみなす。

f:id:yuinomi:20200918162558p:plain

今回の例では、因子Aによる主効果がありそうである。

 

 プロット[B]・・・Bの水準を横軸に取り、生データと各B水準の平均値をプロット。因子Bの主効果を有無を把握するために活用する。平均値を結んだ線が平行であれば因子Aの主効果がないとみなす。

f:id:yuinomi:20200918162612p:plain

今回の例では、因子Bによる主効果もありそうである。

 

プロット[AxB]・・・因子Aの水準を横軸に取り、因子Bの各水準ごとに実験繰返しの平均値をプロット。交互作用(因子Aと因子Bの組み合わせによる効果)の有無をこの平均値を結んだそれぞれの線が平行か否かで判断する。実験は誤差と伴うので厳密に平行になることはないが、近い折れ線を示すかで判断する。

f:id:yuinomi:20200918162626p:plain

今回の例では、交互作用はほとんどなさそうである。また、スタットワークスで解析を実行すると上記グラフの[AxB]と、これを反対にした[BxA]も出てくるが活用目的は同じなのでエクセル計算ではスルーとした。

 

 さて、散布図にデータプロットをして傾向を感覚的に掴んだので、次は分散分析を行って因子A、因子B、交互作用が統計的に有意かどうか、最適水準の母平均の信頼区間などを確認していきたい。

スタットワークスでは「解析」実行をポチッとすれば、分散比(F値)とそれが5% or 1%で有意かどうかが瞬時に計算されるが、今はエクセル計算なので順を追って計算していく。

分散分析表の完成を目指すことになるが、二元配置実験の場合の「分散分析表」について軽くおさらいしておく。

 

二元配置実験の分散分析表

f:id:yuinomi:20200918170815p:plain

因子Aの主効果、因子Bの主効果、交互作用(因子Aと因子Bの組み合わせによる効果)、誤差の大きく4つに分けて考える。一元配置実験と同様に各平方和を自由度で割り、分散を比較する。

分散比は因子A、因子B、交互作用のそれぞれが誤差(残差)の分散(Ve)に対してどの程度大きいかで検定をする。

 

つまり、

・残差に対して、要因1による差が大きければ、主効果1が大きいことがわかる

・残差に対して、要因2による差が大きければ、主効果2が大きいことがわかる

・残差に対して、交互作用による差が大きければ、交互作用が大きいことがわかる

ということだ。

 

自由度は要因A(因子Aの水準数-1)、要因B(因子Bの水準数-1)、交互作用の自由度(要因Aの自由度x要因Bの自由度)、全体の自由度(全データ数-1)を先に求め、誤差eの自由度は、

誤差の自由度=全体の自由度-要因Aの自由度-要因Bの自由度-交互作用の自由度

というように計算するのが個人的には理解がしやすくてオススメだ。

 

分散分析表が完成すると、計算によって求めた分散比(F値)がF分布表からどの程度の確率で起きることなのかを確認し、検定をする。

 

◆注意

繰返しのある二元配置法において、分散分析後の推定の手順は、AとBの交互作用がある場合とない場合でまったく異なる。(スタットワークスでは交互作用AxBが有意か、有意でないかによって推定の方法は自動的に選択される。)

 

二元配置実験の分散分析表をつくっていく

それでは、実際にエクセル(OneDriveの無償版をMacで操作)を使って計算をしていく。今回の例題では、因子A:3水準x因子B:4水準=12通りの組み合わせがあり、それぞの組み合わせのn数は繰返し回数:rで示した2回である。

表にすると以下のようになる。

f:id:yuinomi:20200918182432p:plain

 12通りの組み合わせすべてについて、標本平均(AVERAGE関数)、標本分散(VAR.P関数)を計算した。平方和は標本分散xサンプルサイズで求めることができる。

 

次に、要因ごとにまとめて計算をする。

例えばA1のすべての実験データ(B1,B2,B3,B4というBの水準は無視)についての標本平均と標本分散、B1のすべての実験データ(A1,A2,A3というAの水準は無視)についての標本平均と標本分散について、因子A:3水準+因子B:4水準=計7通りを計算する。

計算結果を以下に示す。最右列は「全体」ですべてのデータの標本平均、標本分散を示した。

f:id:yuinomi:20200918182442p:plain

 

因子Aによる効果を計算する。以下の表で赤枠で示した部分の数値を使って計算する。

f:id:yuinomi:20200919084007p:plain

(因子Aの各水準ー全体平均)2xサンプルサイズの総和であるため、

因子Aによる効果=(28.75-29.89)2x8+(30.54-29.89)2x8+(30.38-29.89)2x8=15.63

因子Bによる効果はB1~B4の標本平均と全体平均29.89を使って、同じように計算し18.77となる。

 

次に交互作用による効果は、

各群(今回の例では12通りの組み合わせ)の平均の効果-因子Aによる効果-因子Bによる効果で計算できる。

「各群の平均の効果」とは、言葉だけでは少し分かりづらいので今回の例に沿うと、以下の表に赤枠で示した数値を使って計算する。

f:id:yuinomi:20200919084916p:plain

 

A1B1群(27.30-29.89)2x2+・・・でこれがA3B4群まで12個の組み合わせの総和が各群の平均の効果となる。

エクセルを使って計算すると、35.90となった。

よって、交互作用による効果は、

各群の平均の効果-因子Aによる効果-因子Bによる効果=35.90-15.63-18.77=1.50となる。

 

誤差(残差)は、A3水準xB4水準=12通りの組み合わせの平方和を足し合わせたものとなる。以下の表で赤枠部分の12個の総和をSUM関数を使って計算した。

f:id:yuinomi:20200919085615p:plain

 

これで分散分析表の「平方和」の部分はすべて求めることができた。

平方和だけをまず埋めてみる。

f:id:yuinomi:20200919090013p:plain

 

次は自由度を考えていく。どのような順番で計算していって良いが、私の場合は下記の順番で計算している。

【1】Aの自由度=因子Aの水準数-1=3-1=2

【2】Bの自由度=因子Bの水準数-1=4-1=3

【3】AxB(交互作用)の自由度=Aの自由度xBの自由度=2x3=6

【4】合計の自由度=全データ数-1=24-1=23

【5】誤差(残差)の自由度=合計の自由度-Aの自由度-Bの自由度-AxBの自由度=23-2-3-6=12

 

これで自由度がすべて計算できた。分散分析表に落とし込んで、ついでに分散と分散比(F値)も計算した。

f:id:yuinomi:20200919090018p:plain

これで計算の手順は多かったが、二元配置実験の分散分析表を完成できた。

 

因子A、因子B、交互作用AxBの分散比がF分布表から統計的に有意であるかを確認する

分散分析表が完成したので、次は因子A,B,交互作用AxBの分散比(F値)が統計的に有意であるかどうかを確認する。

検定はF分布表を用いる。

f:id:yuinomi:20200919115520p:plain

 

因子Aの検定:F(φA,φe; 0.01)=F(2,12; 0.01)=6.93 < 58.44(因子AのF値)で1%で有意。

因子Bの検定:F(φB,φe; 0.01)=F(3,12; 0.01)=5.95 < 46.78(因子BのF値)で1%で有意。

交互作用AxBの検定:F(φAxB,φe; 0.05)=F(6,12; 0.05)=3.00 > 1.87(AxBのF値)で有意水準5%で棄却域に入り、有意とはいえない。

 

これで検定は完了だ。最初にデータを散布図グラフにプロットした時の見た目の印象であった因子AとBは単独の主効果はありそう、交互作用はなさそう、が統計的にも同様の結果となって一安心だ。

 

検定は、一元配置の時と違って、二元配置の場合は各要因ごとに自由度が異なるので、F分布表を毎回参照する手間がある。スタットワークスなら自動解析なので何の問題もないが、エクセルで計算する場合は表を読み間違えないよう注意が必要だ。

 

分散分析後の”推定”は交互作用の有無によってガラリと変わる 

ここまででも解析としては十分なのだが、さらに踏み込んで解析を続ける。

実際の仕事のシーンに即してここまでの部分を振り返ると、樹脂成型の品質(引っ張り強度)に製造時の射出圧力(因子A)と射出温度(因子B)が影響を及ぼす、ということになるが、実際にものづくりで活用していくためにはこれだけの情報では不十分である。

「製造の最適条件は何か?」

「その時に期待される製品の品質はどのくらいと予想されるか?」

まで含めて解析で明らかにしなければいけない。

 

最適条件は母平均の点推定値が水準の中で最も高いものを意味し、その母平均がどの辺りにあるかを予測するのが信頼区間、最適水準で製品をさらに作った時の品質の範囲を予測区間として計算する。

 

二元配置実験におけるこれ以降の計算は、交互作用の有無によって、計算式が変わってしまうので、2つのパターンに分けて記述する。

 

*今回の例題では、分散分析の結果、交互作用は認められなかったので本来であれば交互作用を含めずにこれ以降の手順を実施していくのだが、どちらのパターンも手法を学習するためにあえて交互作用があったとした場合も計算をする。

では、先に交互作用が仮に有意であった場合の計算からしていく。

  

交互作用を含む場合の区間推定:信頼区間と予測区間 

推定するのは以下の3つだ。

①最適水準における母平均の点推定

②最適水準における母平均の95%信頼区間

③最適水準でデータをさらに取得した時に特性値が取り得る範囲(=予測区間)

 

◆①最適水準における母平均の点推定

f:id:yuinomi:20200918182432p:plain

これは因子A:3水準x因子B:4水準=12通りの組み合わせの中から、最も平均値が高いものがそのまま最適水準となり、その平均値が「母平均の点推定値」である。

今回の例では、繰返し回数が2回だけなので、n=2のデータ平均というのも違和感があるが、解析フローとしては問題なのでそのまま進めよう。

表からA3B4が最適水準であり、母平均の点推定値は31.75であることがわかる。

 

*補足

通常、二元配置実験を計画する場合、要因同士に交互作用があると予測されることが多く、交互作用が確実にないと事前に明らかな場合は稀であると思う。

交互作用がある(かもしれない)場合は、効果の加法性が成り立たないので、必ずすべての組み合わせの平均値から最適水準を探し出す必要がある。

つまり、要因Aの中での最適水準と、要因Bの中での最適水準を組み合わせたものが、全体の中での最適水準に一致する保証はないということだ。

  

◆②最適水準における母平均の95%信頼区間

95%の確率で母平均を含む区間(=範囲)を求める。

これを信頼率95%の信頼区間といい、計算式は以下となる。

 

 

信頼区間=母平均の点推定値 ± t(φe,0.05) × \sqrt{\dfrac{Ve}{r}} 

 

Ve・・・誤差分散 *分散分析表で計算済みの「誤差e(残差)」の分散値

r・・・実験の繰り返し回数

 

信頼区間

=母平均の点推定値 ± t(φe, 0.05) x  √(Ve/r)

=31.75 ± t(12, 0.05) x √(0.13/2)

=31.75 ± 2.179 x 0.26

=31.75 ± 0.56

=31.19 ~ 32.31の範囲に95%の確率で母平均があると推定される。

 

f:id:yuinomi:20200919122430p:plain

 

 

◆③最適水準でデータをさらに取得した時に特性値が取り得る範囲(=予測区間)

 

最適水準A3B4でさらに製造した時に、製品の特性値がどの範囲に入るかを予測区間といい、計算式は以下となる。

 

予測区間=母平均の点推定値 ± t(φe,0.05) x \sqrt{(1+\dfrac{1}{r})×Ve} 

 

 今回の例で計算すると、

=母平均の点推定値 ± t(φe, 0.05) x √( (1+1/r) x Ve )

=31.75 ± t(12, 0.05) x √( (1+1/2) x 0.13)

=31.75 ± 2.179 x 0.45

=31.75 ± 0.98

=30.77 ~ 32.73の範囲に入ると推定される。

 

交互作用を含まない場合の区間推定:信頼区間と予測区間

交互作用AxBが有意ではないということは、AとBの効果の加法性が成り立つということである。

Aの各水準の中で最適な条件とBの各水準の中で最適な条件を組み合わせたものが、全体における最適水準になるということだ。

では、先ほどの”交互作用を含む”パターンと同様、ステップ順に計算していく。

 

◆①最適水準における母平均の点推定

交互作用を含めない場合の最適水準は、因子A,Bごとに水準比較を行う。

先の分散分析を行う際に計算した要因ごとの表を再び使う。

f:id:yuinomi:20200920182814p:plain

 

因子AはA2が30.54で最適であり、因子BはB4が30.77で最適である。

視覚的にわかりやすくするために散布図グラフにプロットしたものを以下に示す。

f:id:yuinomi:20200920183253p:plain

こちらを見ても、A2とB4がそれぞれの因子における最適水準だとわかる。

そして交互作用を含めない場合はそのまま組み合わせたものが全ての組み合わせにおける最適条件になるので、「A2B4」が最適水準であることがわかった。

 

母平均の点推定値については、交互作用を含めた場合は実験データの標本平均がそのまま点推定値として扱っていたが、交互作用を含めない場合は少し異なるので注意が必要だ。

以下の式で計算する。

 

A2B4での母平均の点推定値

=全体平均+(A2水準の平均ー全体平均)+(B4水準の平均ー全体平均)

=29.89 + (30.54-29.89) + (30.77-29.89)

=31.42

  

◆②最適水準における母平均の95%信頼区間

交互作用を含めない場合の母平均の信頼区間は以下の式で計算する。

 

信頼区間=母平均の点推定値 ± t(φe,0.05) × \sqrt{\dfrac{Ve}{ne}} 

 

Ve・・・誤差分散 *分散分析表で計算済みの「誤差e(残差)」の分散値

ne・・・有効反復数 *点推定値が何個分のデータから計算されたものと等価かを示す

 

上記の式を見ると、交互作用を含む場合は「Ve/r(実験繰返し数)」であったものが、

交互作用を含まない場合は「Ve/ne」とこの部分だけが異なる。

そして、有効反復数neは以下の式で計算する。

 

ne=全データ数 ÷(1+推定に用いた要因の自由度の和)

 

neを計算する。今回の場合、推定に用いる要因はA,Bの2つであるので、

ne=24÷(1+2+3)=4となるので

 

信頼区間

=母平均の点推定値 ± t(φe, 0.05) x  √(Ve/ne)

=31.42 ± t(12, 0.05) x √(0.13/4)

=31.42 ± 2.179 x 0.18

=31.42 ± 0.40

=31.02 ~ 31.82の範囲

  

◆③最適水準でデータをさらに取得した時に特性値が取り得る範囲(=予測区間)

 

最適水準A2B4でさらに製造した時に、製品の特性値がどの範囲に入るかを予測区間といい、計算式は以下となる。

 

予測区間=母平均の点推定値 ± t(φe,0.05) x \sqrt{(1+\dfrac{1}{ne})×Ve} 

 

こちらも信頼区間と同じように、交互作用の有無によって変わったのは平方根の中で「r」から「ne」の部分だけである。

 

予測区間

=母平均の点推定値 ± t(φe, 0.05) x √( (1+1/r) x Ve )

=31.42 ± t(12, 0.05) x √( (1+1/4) x 0.13)

=31.42 ± 2.179 x 0.409

=31.42 ± 0.89

=30.53 ~ 32.31の範囲

 

以上で繰返しのある二元配置実験の交互作用の有無による分散分析と推定についてのエクセルを用いた解析はおしまいだ。 

 

*いよいよ二元配置実験まで来た。ここまで来ると、エクセル(OneDriveの無償版をMacで操作)で計算するのも一苦労である。まずはこの例題をエクセルのみを用いて解析できたので、次はスタットワークスを使って同じ結果になることを確認する。