↑勉強中のテキスト。第7章「新メニューで差をつけろ - 分散分析(2要因)」
*「統計学がわかる」テキストも最終章、ここからは2要因の分散分析を計算する。
題材はモグモグバーガーで発売するチキンの新メニューについて。
要因1 食感 水準1:クリスピー / 水準2:普通の衣
要因2 味付け 水準1:辛口 / 水準2:普通味
要因が2個、水準もそれぞれ2個ということで、2x2=4通りの組み合わせが考えられる。
つまり①クリスピーで辛口、②クリスピーで普通味、③普通の衣で辛口、④普通の衣で普通味の4つだ。これら4種類のチキンをそれぞれ15個作り、街の人に試食をしてもらって100点満点で採点をした。結果に以下に示す。
まずは、4つの水準それぞれの標本平均を計算してみる。
味の評価が最も高かったのは①クリスピーで辛口の79.67、逆に最も低かったのは②クリスピーで普通味の71.00で、差は①-②で8.67点であった。この差が有意であるかを検定する。
2要因の分散分析をする場合、ずれは以下のように考える。
全体の平均からのずれ=要因1によるずれ+要因2によるずれ+交互作用によるずれ+残りのずれ(残差)
要因1によるずれは、要因1の単独の効果(主効果)のことをいう。
要因2によるずれは、要因2の単独の効果(主効果)のことをいう。
交互作用によるずれは、2つの要因の組み合わせによって起こる効果。
そして残差は残りのずれのことで、1要因の分散分析では郡内のずれ(1つの母集団内での各標本が持つ母平均からのずれ)に相当する。
これを今回の題材によって、書き直すと以下のようになる。
全体の平均からのずれ=食感の要因によるずれ+味付けの要因によるずれ+食感の要因と味付けの要因の組み合わせによるずれ+残りのずれ(残差)
2要因の分散分析の考え方
全体の平均からのずれ=要因1によるずれ+要因2によるずれ+交互作用によるずれ+残りのずれ(残差)
ということなので、残りのずれ(残差)を基準にして、
要因1によるずれ、要因2によるずれ、交互作用によるずれの3つ大きさを検討する。
つまり、
・残差に対して、要因1によるずれが大きければ、主効果1が大きいことがわかる
・残差に対して、要因2によるずれが大きければ、主効果2が大きいことがわかる
・残差に対して、交互作用によるずれが大きければ、交互作用が大きいことがわかる
2要因の分散分析をする時、帰無仮説と対立仮説は以下のように設定する。
帰無仮説:「要因1による差がなく、要因2による差がなく、また交互作用による差もない」
対立仮説:「要因1による差があるか、要因2による差があるか、または、交互作用による差があるか、どれか1つが成り立つ」
実際に計算で確認してみる
2要因の分散分析の考え方について理解したので、テキストの題材を使って実際に計算をして確認していく。
組み合わせは以下は4つがあった。
①クリスピーで辛口、②クリスピーで普通味、③普通の衣で辛口、④普通の衣
これらについて標本平均、標本分散(VAR.P関数)、平方和(標本分散xサンプルサイズ)を計算した。結果をB20:F23セルに示す。
次に、要因ごとにまとめて計算をする。
たとえばH列には「クリスピー要因」(味付けは考慮しない)
J列には「辛口要因」(衣がクリスピーか普通の衣かは考慮しない)
サンプルサイズが30個になっていることに注意する。
エクセル計算の具体例を一つ示す。J列の「辛口要因」の標本平均についての計算では、AVERAGE関数でC列:クリスピーの辛口、E列:普通の衣の辛口を指定している。
エクセルの範囲指定で行や列を飛び越えて指定する場合は、
AVERAGE(C5:C19,E5:E19)のように間に「,」を挿入することで離れたブロック範囲を計算させることが可能だ。
2要因の分散分析の考え方を再掲する。
全体の平均からのずれ=要因1によるずれ+要因2によるずれ+交互作用によるずれ+残りのずれ(残差)
よって次は、要因1(食感)によるずれを計算していく。
食感についてなので、「クリスピー」と「普通の衣」の平均と全体の平均との差を求める。
クリスピーの平均はH21セル:75.33
普通の衣の平均はI21セル:73.50
全体の平均はL21セル:74.42 なので、計算の手順としては、
要因1(食感)によるずれ
=(75.33-74.42)2x30+(73.50-74.42)2x30=50.42
同じように要因2(味付け)も計算する
要因2(味付け)によるずれ
=(76.17-74.42)2x30+(72.67-74.42)2x30=183.75
まとめると、以下のようになった。(オレンジ色文字はセルに入力した計算式)
次は、交互作用によるずれを検討していく。
交互作用によるずれとは、要因1と要因2によってできる、全部の群における平均と全体の平均とのずれを計算し、そこから、要因1によるずれと要因2によるずれを引くことで求める。式で書くと以下のようになる。
交互作用によるずれ=各群の平均のずれー要因1によるずれー要因2によるずれ
要因1によるずれと要因2によるずれは既に求めているので、「各群の平均のずれ」を計算する。各群の平均のずれは、以下の太赤枠で囲ったところのセルで計算をする。
各群の平均のずれ
=(79.67-74.42)2x15 + (71.00-74.42)2x15 + (72.67-74.42)2x15 + (74.33-74.42)2x15 = 634.58
よって、交互作用のずれは、634.58-50.42-183.75=400.42である。
残りのずれ(残差)は、4つの組み合わせの平方和を足し合わせたものになる。
以下に示した太青枠のセルの合計だ。
残りのずれ(残差)=873.33+760.00+843.33+893.33=3370.00となった。
分散分析表をつくる
ここまで来たので、次は分散分析表を完成させていく。
まずは、既に計算してきた平方和を埋める。
「全体」の平方和はこれまでのところで出てこなかったが、これは単に要因1〜残差を足し合わせただけだ。
次は自由度についてだが、まず、要因1と2はそれぞれの水準数から1を引いたものとなる。例えば要因1(食感)の水準数は、クリスピーと普通の衣の2なので、2-1=1となる。要因2(味付け)の自由度も同じく1だ。
交互作用の自由度は、要因1の自由度 x 要因2の自由度だ。ここでは1x1=1となる。
全体の自由度は、全体のサンプルサイズから1を引いたものになり、ここでは60-1=59だ。
最後に残った残差については、全体の自由度から要因1、要因2、交互作用の自由度を引いたものになる。今回の例では、残差の自由度=59-1-1-1=56となる。
平均平方は、平方和÷自由度で計算する。オレンジ色文字でセルに入力した計算式を示した。
最後にF値を計算する。それぞれの平均平方を残差の平均平方で割ることで求める。
これで分散分析表が完成した。あとは分散分析表のF値をみて、統計学的に有意な差があるといえるかを検定する。
要因1のF値の計算は、要因1の平均平方÷残差の平均平方で計算をしたので、分子の自由度が1、分母の自由度が56となる。
F分布表に、分母の自由度56ぴったりがない場合は最も近い60を参照する。
分母の自由度60、分子の自由度1がクロスするところを読み取ると、5%有意水準(α=0.05)で、F値が4.00とあり、これが判定の基準である。
今回計算した要因1のF値は0.84であるため棄却域には入らない。よって、要因1(食感)による有意な差はないと結論付けられる。
また、要因2についてはF値が3.05であり、3.05<4.00でこちらも有意な差はないと結論付けられた。
一方、交互作用のF値は6.65であり、6.65>4.00となり5%有意水準で棄却域に入るため帰無仮説は棄却される。対立仮説が採択されるので、5%有意水準で交互作用による点数の差があると結論できる。