Instant Engineering

エンジニアの仕事効率を上げる知識をシェアするブログ/QC統計手法/公差設計・解析/TPS(トヨタ生産方式)

少ないサンプル数から母集団のデータ特性を推測:標本分散と不偏分散の違い

母集団と無作為抽出(ランダムサンプリング)

ある工場では1週間かけて10,000本の鉛筆を作った。出荷前に鉛筆の長さを調査したい。

この時、生産された10,000本の鉛筆すべてを母集団という。

鉛筆の長さの平均とは厳密にいえば10,000本すべてを測定し、計算できれば良いが数が多く現実的ではない。

そこで通常は、母集団の中から限られた数のデータを評価する。

 

こうした本来あるはずの大量のデータから一部を取ることを抽出(あるいはサンプリング)と呼ぶ。

また、母集団の中から抽出したデータを標本といい、そして標本のデータ数をサンプルサイズという。

標本を抽出する時には、無作為に(ランダムに)抽出することが重要だ。

 

例えば上の例でいえば、生産された10,000本の鉛筆の中から長さを測定するサンプルを、生産開始直後や終了直前に連続して取ったりすると特定の曜日や作業者の影響が意図せず計算結果に影響を与える可能性がある。

また、生産装置の調子や材料ロットの違い、天気による気温や湿度の影響といった因子も反映されてしまうかもしれない。

その他、結果に関係すると想像し得ない予期せぬものの影響を、ランダムにサンプルを取ることでキャンセル(無効化)することができる。

 

こうして、無作為に行われる抽出を無作為抽出(ランダムサンプリング)という。

ランダムサンプリングの概念は実験をする上で非常に重要なのでしっかり理解しておく。 

 

母集団からサンプルを抜き取り、母集団のデータ特性を推測する 

 

多くの場合、本当の意味で知りたいのは、工場で生産された鉛筆”すべて”についての長さの情報、つまり母集団の平均値と分散である。

しかし、それを実際に調査するのは困難なのでランダムサンプリングで母集団の中から抽出した特定のサンプルのみを測定をするのが通例だ。

 

例えば、10,000本の鉛筆の中から、ランダムサンプリングで10本(標本)を選び出し、測定をしたところ平均値10.4cm、分散0.6であったとする。

ここで調査した標本平均10.4cm、標本分散0.6は母集団の平均・分散と同じと考えて良いのだろうか?

 

10,000本の鉛筆の中からランダムに10本を取り出し、それらの平均と分散を測定した。

それを標本平均1・標本分散1と名付ける。

次にもう一度10,000本の鉛筆の中からランダムに10本取り、今度は標本平均2・標本分散2と名付ける。これを3,4…と繰り返したとする。

 

◆標本平均と母平均

このようにして複数の標本平均を集めると、それぞれ取り出したデータが異なるので標本平均自体は同じ値とはならないが、複数の標本平均を平均すると、数学的には母集団の平均(母平均 *来知りたかった情報)に限りなく近くなる。

 

◆標本分散と母分散

標本分散についても、母集団の分散に近くなると思いきや、実際にはなぜかそうならない。

標本分散の平均は、母分散よりも少し小さな値になる。

標本分散の平均と母分散のズレを埋めるために、母分散の推定値として次のようなものが考えられた。これを不偏分散という。

 

不偏分散=((データ - 平均値)2)の総和÷(サンプルサイズ-1)

この不偏分散を「母分散の推定値」として慣例的に使う。

 

ちなみに分散(標本分散)の計算は下記の式だった。 

分散=((データ-平均値)2)の総和÷(サンプルサイズ)

 

サンプルサイズ(データの数)をそのまま使うか、-1して使うかの差だけだ。

エクセルの分散を求める関数にVAR.PとVAR.Sのよく似た2種類があったが、それらはこれを意味している。

つまり、VAR.Pは標本分散で、VAR.Sは不偏分散となる。

それぞれの考えや計算結果が異なるのでここはよく考えて使い分けをしたい。

 

サンプルすべてを使って検討できる場合はVAR.P標本分散を使えば良いし、大量にデータが存在し、母集団が未知の場合は、VAP.S不偏分散で母分散を推定すれば良い。

 

VAR.P関数とVAR.S関数の使い分け

簡単な例題で、エクセル関数のVAR.PとVAR.Sを比較してみる。適当に入力した10個のデータについて標本分散と不偏分散を、平均との差の2乗の総和とサンプルサイズから求めた値とエクセル関数で計算した値が合うかを確認した。オレンジ色の文字でセルに入力した計算式を示す。

 

標本平均の計算(VAR.P関数と÷サンプルサイズの比較)

f:id:yuinomi:20200904112921p:plain

不偏分散の計算(VAR.S関数と÷サンプルサイズ-1の比較)

f:id:yuinomi:20200904112932p:plain

どちらについても面倒な手計算を順次実施して求めた値と、エクセル関数を使って一発で求めた値とがぴったり合致した。これでVAR.P関数とVAR.S関数の使い分けについて理解できた。

 

(これより下はオマケページ)

不偏分散の計算でサンプルサイズ-1をする理由

さて、先ほどの説明で不偏分散は以下の式で求めた。

不偏分散=((データ - 平均値)2)の総和÷(サンプルサイズ-1)

 

このサンプルサイズ-1をする理由が、母集団の分散(*本来知りたい値)に比べて抽出した標本の分散というのはどうしても数学的に小さくなってしまうためだったが、本当にそうなのか?いまいち納得できない。

 

そこで実際にエクセルで確かめてみることにする。まずは正規分布するデータを適当に作ってみる。便利なエクセル関数があって、簡単につくることができる。

NORMINV (RAND(), 平均値, 標準偏差) 関数 を使う。

試しに平均値が10、標準偏差3の正規分布に従うデータを500個作ってみた。

(データが多すぎるので掲載は省略)

 

この500個のデータが本当に正規分布に従っているのかを一応確認しておくため、階級ごとに分けて度数分布(ヒストグラム)を作ってみた。なお、度数は平均値±3σで1~19の範囲にデータがあると想定されるので、1からスタートとした。

f:id:yuinomi:20200904122049p:plain

ヒストグラムを確認すると、きれいな正規分布になっていそうなので一先ず安心。

さて、ここから標本平均vs母平均と標本分散vs母分散の関係を考えていこう。

最初に今回つくった500個のデータ全部で母集団ということにして、母平均と母分散を明らかにしておく。その結果、

母平均:9.95

母分散:8.67 となった。

 

500個のデータ(母集団)の中から乱数で決めた番号のデータを10個抜き出して、それら標本の平均と分散を求めるという作業を5回繰り返した。結果の表を以下に示す。

f:id:yuinomi:20200904130005p:plain

標本平均については、母集団の平均(真値で今回は9.95)に比べて抜き出したサンプルによって大きかったり小さかったしている。5つの標本平均を平均すると、10.08になり真の値9.95に近くなった。

標本分散についても同じように5つの標本分散を平均してみると、「7.22」となり確かに真に知りたい値である母集団の分散「8.67」に比べて少し小さい値となった。

抜き出した10個の標本から、不偏分散(サンプルサイズ-1)も計算してみたが、こちらだと不偏分散の平均が「8.03」となりより真値に近づいた。