Instant Engineering

エンジニアの仕事効率を上げる知識をシェアするWeb記事/機械設計/TPS/QC品質管理

散布図とは?相関の見方と作り方を図解

製造現場で「加工温度を上げたら寸法がばらつくようになった気がする」と感じたことはないでしょうか。

2つのデータの間に「関係がありそう」と直感で思っていても、数字の羅列を眺めているだけでは、その関係が本物なのか偶然なのかを見極めることはできません。

こうした疑問をたった1枚のグラフで可視化し、データ間の関係性を一目で浮かび上がらせるツールが「散布図」です。

散布図はQC7つ道具の一つであり、品質管理や工程改善の現場で最も直感的にデータを読み解ける強力な武器として広く活用されています。

本記事では、散布図の基本的な見方から、相関係数の計算方法、Excelでの作り方、そして実務で陥りやすい落とし穴まで、製造業エンジニアが知っておくべき知識を網羅的に解説します。

 

1. 散布図とは

散布図とは、2つの変数の関係を視覚的にとらえるためのグラフです。

横軸(x軸)に一方の変数、縦軸(y軸)にもう一方の変数をとり、対になったデータを1つずつ点(ドット)としてプロットします。

 

点の分布パターンを見るだけで、2つの変数の間に「正の相関」「負の相関」「無相関」のどれが存在するかを直感的に判断できます。

ヒストグラムが「1つの変数の分布」を可視化するのに対し、散布図は「2つの変数の関係性」を可視化する点が最大の違いです。

 

散布図はQC7つ道具の一つに数えられ、品質管理の現場では日常的に使用されています。

QC7つ道具とは、パレート図・特性要因図・管理図・ヒストグラム・チェックシート・散布図・層別(グラフ)の7つを指し、品質改善活動の基本ツールとして国際的に認知されています。

 

散布図の英語名は「Scatter Plot」または「Scatter Diagram」です。

JIS Z 8101-1(統計的品質管理用語)では、散布図を「対にした観測値を直交座標に打点した図」と定義しています。

この定義からわかるように、散布図の本質は「対になったデータを点として打つ」というシンプルな操作にあります。

 

たとえば、製造ラインで「加工速度」と「製品の表面粗さ」の関係を調べたいとします。

横軸に加工速度、縦軸に表面粗さをとって散布図を描けば、速度を上げると表面粗さがどう変化するかが一目瞭然になります。

データを数表で眺めるだけでは気づけなかった傾向が、グラフにした瞬間に浮かび上がってくるのが散布図の最大の強みです。

 

散布図が他のグラフより優れている点は、データの「全体像」と「個々のデータ点」の両方を同時に把握できることです。

棒グラフや折れ線グラフは集計された値を表示しますが、散布図は生のデータ点をすべて表示するため、外れ値や群の分離といった重要な情報を見落としません。

 

散布図が使われる場面

散布図は品質管理に限らず、幅広い場面で活用されます。

設計段階では「材料特性同士の関係」を確認するために使い、製造段階では「工程パラメータと製品特性の関係」を把握するために使います。

 

検査段階では「測定値同士の一致度」の確認に、改善活動では「原因と結果の仮説検証」にそれぞれ活用されます。

このように散布図は、製品ライフサイクルのあらゆる段階で登場する汎用性の高いツールです。

 

散布図と棒グラフの違い

散布図と棒グラフは見た目こそ大きく異なりますが、「どちらを使えばよいか」で迷う方は少なくありません。

棒グラフはカテゴリごとの「量の比較」に使い、散布図は「2つの連続変数の関係性」を見るために使います。

 

「月別の売上推移」なら棒グラフや折れ線グラフ、「気温と売上の関係」なら散布図が適切です。

判断の基準は、横軸が「カテゴリ(月、部署、製品名など)」か「連続的な数値(温度、圧力、速度など)」かで決まります。

 

散布図とヒストグラムの使い分け

どちらも点やバーでデータを可視化しますが、目的が異なります。

ヒストグラムは1つの変数のばらつき(分布の形状)を確認するためのツールです。

一方、散布図は2つの変数の「つながり」を探るためのツールです。

 

品質管理の現場では、まずヒストグラムで各変数の分布を確認し、異常がないことを確かめてから散布図で変数間の関係を分析する、という順序が推奨されます。

ヒストグラムで極端な外れ値や二峰性の分布が見つかった場合、そのまま散布図で相関分析に進むと誤った結論を導く恐れがあるためです。

 

散布図と管理図の違い

管理図も時系列データを点でプロットするグラフですが、目的は「工程が安定しているかどうかの監視」です。

横軸が常に時間(サンプル番号)に固定されている点が散布図との決定的な違いです。

 

散布図は横軸に任意の変数をとれるため、「温度と強度」「圧力と歩留まり」のように原因と結果の関係を自由に探索できます。

管理図で異常が検出された場合に、その原因を特定するためのツールとして散布図を使う、という使い分けが実務では一般的です。

 

関連記事

instant.engineer

 

2. 散布図の見方と相関の3パターン

散布図を読み解く最初のステップは、点の散らばり方から「相関の方向と強さ」を判断することです。

相関のパターンは大きく3つに分類されます。

 

正の相関

xが増えるとyも増える関係です。

点群が左下から右上に向かって分布し、直線的な傾向が強いほど「強い正の相関」と呼ばれます。

 

製造現場の代表例としては「金属材料の引張強さと硬さ」の関係が挙げられます。

一般に、材料が硬いほど引張強さも大きくなる傾向があり、これは結晶構造の転位運動が硬い材料ほど抑制されるメカニズムで説明できます。

 

もう一つの例は「焼入れ温度と硬さ」の関係です。

鋼材の焼入れでは、加熱温度を上げるとオーステナイトへの変態がより完全に進み、急冷後に得られるマルテンサイトの量が増えるため、硬さが上昇します。

ただし、一定温度を超えるとオーステナイト結晶粒が粗大化して逆に靭性が低下するため、散布図で最適温度帯を確認することが重要です。

 

負の相関

xが増えるとyが減る関係です。

点群が左上から右下に向かって分布します。

 

「切削速度と工具寿命」の関係がその代表例です。

速度を上げるほど切削点の温度が上昇し、工具の摩耗が加速するため寿命が短くなります。

この関係は工具寿命の経験則として知られるテイラーの式  VT^n = C でも定式化されています。

 

ここで  V は切削速度、 T は工具寿命、 n C は工具材質や被削材によって決まる定数です。

超硬工具で鋼材を切削する場合、nは0.2〜0.25程度の値をとるのが一般的です。

散布図に両対数軸(log-logスケール)でプロットすると、テイラーの式は直線として表現でき、定数nとCを視覚的に読み取ることができます。

 

他にも「研削砥石の番手(粒度)と表面粗さ」の関係も負の相関の典型例です。

砥石の番手が大きいほど砥粒が細かくなり、仕上がりの表面粗さは小さく(滑らかに)なります。

 

無相関

xとyの間に明確な直線的関係が見られない状態です。

点群がランダムに散らばり、特定の方向性を持ちません。

 

たとえば「製品のロット番号」と「引張強さ」をプロットしても、通常は無相関になります。

ただし、無相関に見えても「曲線的な関係」が隠れている場合があるため、必ず散布図を目視で確認してください。

U字型やS字型のパターンは、相関係数がゼロに近くても意味のある関係性が存在する典型例です。

 

製造現場では、完全な無相関が確認できた場合にも重要な意味があります。

たとえば「作業者の経験年数」と「製品の寸法精度」が無相関であれば、その工程は作業者の技量に依存しない安定したプロセスであることを意味します。

このように、無相関の確認は「人に依存しない工程設計ができている」ことの証拠にもなるのです。

 

また、「無相関」と「データ不足」を混同しないことも大切です。

サンプル数が5〜10組程度では、実際には相関があっても点群のばらつきで無相関に見えることがあります。

信頼性の高い判断をするには、最低でも30組、できれば50組以上のデータを収集することが推奨されます。

 

相関の強さの目安

散布図の点群がどれだけ直線に近いかで、相関の強さを視覚的に判断できます。

点がほぼ一直線に並べば「強い相関」、楕円状に広がれば「中程度の相関」、円状に散らばれば「無相関」です。

 

この視覚的な判断を数値化したものが、次のセクションで解説する相関係数rです。

相関係数を使えば、「なんとなく相関がありそう」という主観的な判断を、誰が見ても同じ結論に至る客観的な数値として表現できます。

 

実務で散布図を見る際は、まず全体の傾向(正・負・無相関)を把握し、次に「直線からのずれ方」に注目します。

ずれが均一であれば通常のばらつきですが、特定の範囲でずれが大きくなる場合は、その範囲に別の要因が働いている可能性があります。

 

3. 相関係数の求め方と判定基準

散布図で視覚的に読み取った相関の強さを、客観的な数値として表すのが相関係数r(ピアソンの積率相関係数)です。

相関係数は -1 から +1 の範囲をとり、絶対値が1に近いほど強い直線的関係があることを意味します。

 

r = +1 ならすべての点が右上がりの直線上に完全に並び、r = -1 ならすべての点が右下がりの直線上に並んでいる状態です。

r = 0 は直線的な関係が全くないことを示しますが、これは「まったく関係がない」ことを意味するわけではありません。

曲線的な関係が存在するケースではr = 0でも強い依存関係がある場合があります。

 

相関係数の計算式

n組のデータ  (x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n) が与えられたとき、相関係数rは次の式で求められます。

 

 r = \dfrac{\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\displaystyle\sum_{i=1}^{n}(y_i - \bar{y})^2}}

 

ここで  \bar{x} はxの平均値、 \bar{y} はyの平均値です。

分子は「xとyが平均からどれだけ同じ方向にずれているか」を表す共分散です。

分母はそれぞれの標準偏差の積であり、共分散を正規化して -1〜+1 の範囲に収めています。

 

この式の直感的な意味を理解するために、分子の共分散に注目してみましょう。

あるデータ点でxが平均より大きく、同時にyも平均より大きければ、偏差の積  (x_i - \bar{x})(y_i - \bar{y}) は正の値になります。

逆に、xが平均より小さくyも平均より小さい場合も、負×負で正の値です。

つまり、xとyが「同じ方向にずれる」傾向があれば共分散は大きな正の値となり、正の相関を示します。

 

共分散がそのままでは使いにくいのは、単位に依存するためです。

たとえば温度を℃で測っても°Fで測っても、相関係数の値は同じになります。

この「単位に依存しない」という性質が、相関係数が広く使われる理由の一つです。

 

相関係数の判定基準

品質管理の実務では、相関係数の絶対値に基づいて以下のように判定するのが一般的です。

 

相関係数の絶対値 相関の強さ 判断の目安
0.7 以上 強い相関 明確な直線的関係がある
0.4 〜 0.7 中程度の相関 傾向は見えるがばらつきも大きい
0.2 〜 0.4 弱い相関 関係があるとは断言しにくい
0.2 未満 ほぼ無相関 直線的な関係は認められない

 

ただし、この判定基準はあくまで目安にすぎません。

サンプルサイズが小さいと、偶然の偏りで相関係数が大きく出ることがあります。

統計的に意味のある相関かどうかを判定するには、無相関の検定(帰無仮説:母相関係数ρ=0)が必要です。

 

無相関の検定の考え方

無相関の検定では、検定統計量tを次の式で計算します。

 

 t = \dfrac{r\sqrt{n-2}}{\sqrt{1 - r^2}}

 

この値が自由度  n-2 のt分布の棄却域に入れば、「偶然ではなく、本当に相関がある」と統計的に判断できます。

有意水準は通常5%(α=0.05)を用います。

 

たとえば、n=30で r=0.4 の場合を考えてみましょう。

 

 t = \dfrac{0.4\sqrt{30-2}}{\sqrt{1 - 0.4^2}} = \dfrac{0.4 \times 5.292}{\sqrt{0.84}} = \dfrac{2.117}{0.917} \approx 2.31

 

自由度28のt分布における5%有意水準の臨界値は約2.048ですから、t=2.31はこれを上回ります。

したがって、「r=0.4は偶然ではなく統計的に有意な相関」と判定できます。

 

一方、同じ r=0.4 でも n=10 の場合は t≈1.31 となり、臨界値(約2.306)を下回るため「有意でない」と判定されます。

同じ相関係数でもサンプルサイズによって結論が変わる点は、品質管理の実務で非常に重要な知識です。

 

具体的な計算例

ある工程で「加工温度(℃)」と「製品の引張強さ(MPa)」を5回測定したデータで相関係数を求めてみましょう。

 

サンプル 加工温度 x(℃) 引張強さ y(MPa)
1 180 420
2 200 445
3 220 460
4 240 480
5 260 510

 

Step 1:平均値を求める

まず、xとyそれぞれの平均値を計算します。

 

 \bar{x} = \dfrac{180 + 200 + 220 + 240 + 260}{5} = 220 \text{ ℃}

 

 \bar{y} = \dfrac{420 + 445 + 460 + 480 + 510}{5} = 463 \text{ MPa}

 

Step 2:偏差の積の合計(分子)を求める

各データ点について、平均からの偏差の積を計算し、合計します。

 

 \sum(x_i - \bar{x})(y_i - \bar{y}) = (-40)(-43) + (-20)(-18) + (0)(-3) + (20)(17) + (40)(47)

 

 = 1720 + 360 + 0 + 340 + 1880 = 4300

 

すべての偏差の積が正の値になっている点に注目してください。

xが平均より大きいときにyも平均より大きく、xが平均より小さいときにyも平均より小さい、つまり「同じ方向にずれている」ことがわかります。

これが正の相関の本質です。

 

Step 3:偏差の二乗和(分母)を求める

x側とy側それぞれの偏差二乗和を計算します。

 

 \sum(x_i - \bar{x})^2 = (-40)^2 + (-20)^2 + 0^2 + 20^2 + 40^2 = 4000

 

 \sum(y_i - \bar{y})^2 = (-43)^2 + (-18)^2 + (-3)^2 + 17^2 + 47^2 = 4682

 

内訳を確認すると、 1849 + 324 + 9 + 289 + 2209 = 4680 です。

 

Step 4:相関係数を算出する

分子と分母を代入して相関係数rを求めます。

 

 r = \dfrac{4300}{\sqrt{4000} \times \sqrt{4680}} = \dfrac{4300}{63.25 \times 68.41} = \dfrac{4300}{4327.1} \approx 0.994

 

r ≈ 0.994 ですから、加工温度と引張強さの間には非常に強い正の相関があることが数値で確認できました。

温度を上げれば引張強さも上昇する、という現場の直感がデータで裏付けられた形です。

 

ただし、サンプルサイズがn=5と非常に少ないため、この結果だけで工程管理の意思決定を行うのは危険です。

実務では最低でもn=30以上のデータで相関を確認してから結論を出すことが推奨されます。

 

関連記事

instant.engineer

 

4. 散布図の作り方(手書きとExcel)

散布図は作り方がシンプルなため、手書きでもExcelでも短時間で作成できます。

ここでは、品質管理の実務で使える基本的な作成手順を解説します。

 

手書きで作る場合の手順

手順1:対になるデータを収集する

まず、調べたい2つの変数について、対になったデータを最低30組は集めます。

データ数が少なすぎると、偶然の偏りに引きずられて誤った結論を導く危険があります。

可能であれば50組以上のデータを集めると、より信頼性の高い分析ができます。

 

データを収集する際に最も注意すべき点は、2つの変数が「同じ条件・同じタイミング」で測定されていることです。

たとえば「午前に測定した温度」と「午後に測定した寸法」を対にしてしまうと、時間帯による変動が交絡因子となり、温度と寸法の本来の関係が見えなくなります。

 

手順2:横軸と縦軸を決める

一般に、原因と考えられる変数(説明変数)を横軸に、結果と考えられる変数(目的変数)を縦軸にとります。

たとえば「加工温度(原因)→ 製品硬さ(結果)」の場合、横軸が温度、縦軸が硬さです。

 

どちらが原因でどちらが結果か明確でない場合は、分析者の仮説に基づいて自由に配置して構いません。

軸の割り当ては相関係数の値には影響しないため、分析結果は同じになります。

 

手順3:スケールを決めてデータをプロットする

各軸の最小値と最大値を決め、目盛りを等間隔で振ります。

データの範囲よりやや広めにとると、全体像が見やすくなります。

目安として、データの最小値から最大値の範囲の10〜20%のマージンを外側に設けます。

 

1組のデータにつき1つの点を打ち、全データをプロットします。

同じ座標に複数のデータが重なる場合は、二重丸(◎)や点の近くに数字を添えて区別します。

重なったデータを見落とすと、特定の座標におけるデータの集中が見えなくなるため注意が必要です。

 

手順4:全体の傾向を読み取る

すべての点をプロットしたら、一歩引いて全体のパターンを眺めます。

点群の並び方から、正の相関・負の相関・無相関のどれに該当するかを判断します。

必要に応じて目視で直線を引き、大まかな傾きと散らばり具合を確認します。

 

手書きの散布図は、QCサークル活動や現場での即席分析に適しています。

方眼紙とペンがあれば5分程度で作成でき、関係者全員でその場で議論できる点が最大のメリットです。

 

Excelで作る場合の手順

Excelでは、わずか数クリックで見栄えのよい散布図を作成できます。

手書きよりも大量のデータを正確にプロットできるため、実務では圧倒的にExcelの利用が多いです。

 

手順1:データを2列に入力する

A列に横軸データ(説明変数)、B列に縦軸データ(目的変数)を入力します。

1行目にはヘッダー(変数名と単位)を入れておくと、グラフの軸ラベルに自動反映されて便利です。

単位は必ず記載しましょう。

「温度」だけでなく「温度(℃)」と書くことで、後から見返したときの混乱を防ぎます。

 

手順2:散布図を挿入する

データ範囲を選択し、「挿入」タブ →「グラフ」→「散布図(X, Y)」を選択します。

マーカーのみ(線なし)のタイプを選ぶのが基本です。

折れ線で点をつないでしまうと、データの順序に意味がないのに見かけ上の「流れ」が生まれてしまい、誤解の原因になります。

 

グラフタイトルと軸ラベルは必ず設定してください。

何のデータをプロットした散布図なのかが一目でわかるようにすることが、社内報告や品質記録として残す際の鉄則です。

 

手順3:近似曲線(回帰直線)を追加する

グラフ上のデータ点を右クリック →「近似曲線の追加」→「線形」を選びます。

「グラフにR-2乗値を表示する」にチェックを入れると、決定係数  R^2 が表示されます。

 R^2 は相関係数rを二乗した値で、データのばらつきのうち回帰直線で説明できる割合を示します。

 

「グラフに数式を表示する」にもチェックを入れると、回帰式  y = ax + b が表示されます。

この数式をそのまま工程管理の予測式として活用できるため、有効にしておくことを推奨します。

 

手順4:相関係数をセルで計算する

Excelの組み込み関数 CORREL を使えば、相関係数rをワンステップで算出できます。

任意のセルに =CORREL(A2:A31, B2:B31) と入力するだけです。

引数にはxの範囲とyの範囲を指定します。

 

なお、Excelには PEARSON 関数もありますが、計算結果は CORREL と完全に同じです。

どちらを使っても問題ありません。

 

決定係数  R^2 を直接求めたい場合は、=RSQ(A2:A31, B2:B31) が使えます。

あるいは =CORREL(A2:A31, B2:B31)^2 と入力しても同じ結果が得られます。

 

散布図作成時のよくある失敗

実務で散布図を作成する際に、よくある失敗パターンを把握しておくと精度の高い分析につながります。

 

最も多い失敗は「折れ線グラフと混同して線でつないでしまう」ことです。

散布図では点と点の間に順序の意味がないため、線でつなぐと存在しない関係を示唆してしまいます。

 

次に多いのが「軸ラベルや単位を記載しない」ことです。

散布図は後日見返す場面が多いため、「何のデータか」「単位は何か」が一目でわかるようにしておくことが重要です。

 

関連記事

instant.engineer

 

5. 散布図から回帰分析へ(データ予測への発展)

散布図で「2つの変数に相関がある」と確認できたら、次のステップとして回帰分析に進むことができます。

回帰分析とは、散布図上の点群に最もフィットする直線(回帰直線)を数学的に求め、一方の変数からもう一方の値を予測する手法です。

 

散布図が「関係があるかどうかを見る」ための道具であるのに対し、回帰分析は「その関係を使って未知のデータを予測する」ための道具です。

品質管理の現場では、工程パラメータの最適化や製品特性の予測に頻繁に活用されています。

 

たとえば、散布図で「加工温度と引張強さに強い正の相関がある」ことが確認できたとしましょう。

回帰分析を適用すれば、「温度を250℃に設定したときの引張強さはいくらになるか」を定量的に予測できるようになります。

これが「可視化ツール」から「予測ツール」への発展です。

 

単回帰分析の基本式

回帰直線は次の一次式で表されます。

 

 \hat{y} = a + bx

 

ここで  \hat{y} は予測値、aは切片(xが0のときのy値)、bは回帰係数(傾き)です。

回帰係数bは最小二乗法によって求められます。

最小二乗法とは、すべてのデータ点と回帰直線の距離(残差)の二乗和を最小にする直線を求める方法です。

 

数学的には、残差の二乗和  S = \displaystyle\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 を最小化する条件から、回帰係数bと切片aを導出します。

 S をaとbでそれぞれ偏微分してゼロとおく(正規方程式を解く)と、次の公式が得られます。

 

 b = \dfrac{\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2}

 

 a = \bar{y} - b\bar{x}

 

分子は相関係数の計算でも使った偏差の積の合計、分母はxの偏差二乗和です。

相関係数の計算過程で得られた値をそのまま流用できるため、散布図→相関係数→回帰分析の流れは非常にスムーズです。

 

Step 1:回帰係数bを求める

先ほどの加工温度と引張強さのデータを使って計算します。

前のセクションで求めた値を代入します。

 

 b = \dfrac{4300}{4000} = 1.075

 

この値は「加工温度が1℃上がると、引張強さが約1.075 MPa上昇する」ことを意味します。

回帰係数は単位を持つ点に注意してください。

この場合の単位は「MPa/℃」です。

 

Step 2:切片aを求める

 

 a = 463 - 1.075 \times 220 = 463 - 236.5 = 226.5

 

切片a=226.5の物理的な意味は「加工温度が0℃のときの引張強さの推定値」ですが、実際には0℃で加工することはないため、この値自体に実務的な意味はありません。

回帰式はデータが存在する範囲内での予測に使うものであり、データ範囲を大きく超えた外挿は避けるべきです。

 

Step 3:回帰直線を使って予測する

回帰式は  \hat{y} = 226.5 + 1.075x となります。

たとえば加工温度を250℃に設定した場合の引張強さを予測すると、次のようになります。

 

 \hat{y} = 226.5 + 1.075 \times 250 = 226.5 + 268.75 = 495.3 \text{ MPa}

 

このように、散布図で関係性を「見る」段階から、回帰分析で「予測する」段階へと発展させることが、データ駆動型の品質管理の基本的な流れです。

 

決定係数 R² の意味

回帰分析の精度を評価する指標が決定係数  R^2 です。

 

 R^2 = r^2

 

先ほどの例では  R^2 = 0.994^2 \approx 0.988 です。

これは「引張強さの全変動のうち約98.8%が加工温度で説明できる」ことを意味しています。

残りの約1.2%は、温度以外の要因(材料ロットのばらつき、測定誤差など)による変動です。

 

 R^2 が0.8以上であれば、実務上は回帰式の予測精度が十分に高いと判断される場合が多いです。

逆に  R^2 が0.5を下回る場合は、他の説明変数を追加した重回帰分析を検討する必要があります。

 

重回帰分析では  \hat{y} = a + b_1 x_1 + b_2 x_2 + \cdots + b_k x_k のように複数の説明変数を同時に扱います。

たとえば「温度」だけでなく「圧力」「速度」「材料ロット」なども考慮に入れることで、予測精度を向上させることができます。

 

ただし、回帰分析で求めた予測式はあくまで「データが存在する範囲内」での近似式です。

データ範囲を大きく超えた領域での予測(外挿)は、精度が保証されないため注意が必要です。

たとえば、180〜260℃のデータで求めた回帰式を使って400℃での引張強さを予測しても、材料の相転移や酸化反応など、モデルに含まれない現象が発生するため信頼できません。

予測式の適用範囲をデータの最小値〜最大値の範囲内に留めることが、回帰分析の鉄則です。

 

関連記事

instant.engineer

 

6. 散布図の注意点と落とし穴

散布図は直感的に使えるツールですが、誤った解釈に陥りやすい落とし穴がいくつか存在します。

品質管理の現場では、以下のポイントを必ず意識してください。

 

落とし穴1:相関と因果を混同しない

散布図で強い相関が見えても、それが「因果関係」であるとは限りません。

これは統計学で最も重要な原則の一つであり、品質管理の実務でも常に念頭に置くべきポイントです。

 

たとえば「アイスクリームの売上」と「熱中症の患者数」には強い正の相関がありますが、アイスが熱中症を引き起こしているわけではありません。

両者の背後に「気温の上昇」という共通の原因(交絡因子)が存在しているだけです。

このような見せかけの相関を疑似相関(Spurious Correlation)と呼びます。

 

製造現場でも疑似相関は頻繁に発生します。

たとえば、「金曜日の生産ロットは不良率が高い」という散布図の結果があったとします。

しかし、金曜日そのものが原因ではなく、「金曜日は経験の浅い交代要員が多い」「週末前で段取り替えが頻繁に入る」といった別の要因が真の原因かもしれません。

 

散布図が示すのはあくまで「相関(共変動)」であり、「AがBの原因である」と結論付けるには、実験計画法(DOE)による検証やメカニズムの物理的考察など追加の検証が不可欠です。

 

落とし穴2:外れ値の影響を見逃さない

散布図にたった1つの外れ値(異常値)が混ざるだけで、相関係数が大きく歪むことがあります。

本来は弱い相関しかないデータに1つだけ極端な値が加わると、見かけ上「強い相関あり」と判定されてしまう危険があります。

逆に、強い相関があるデータに外れ値が加わると、相関が弱まって見えることもあります。

 

対策としては、散布図を描いた後に点群から明らかに離れた点がないかを目視確認します。

外れ値が見つかった場合は、まずその発生原因を必ず調べてください。

測定ミスや記録エラーであれば除外が妥当ですが、異常な工程条件で発生した実データであれば、むしろ工程改善のヒントとなる貴重な情報かもしれません。

 

外れ値を含む場合と除外した場合の両方で相関係数を計算し、結果がどの程度変わるかを確認してから判断することが重要です。

外れ値の除外は「都合の良いデータだけ残す」ことではなく、明確な根拠に基づいて行うべき判断です。

 

落とし穴3:非線形の関係を見落とさない

相関係数rは「直線的な関係の強さ」のみを測る指標です。

放物線状(U字型)やS字カーブのような非線形の関係が存在する場合でも、相関係数はゼロに近い値を示すことがあります。

 

たとえば、射出成形における樹脂温度と寸法偏差の関係は、典型的なU字カーブを描きます。

温度が低すぎても高すぎても偏差が大きくなり、最適な温度帯で偏差が最小になります。

この関係を直線で近似しようとすると r ≈ 0 となり、「温度と偏差は無関係」という誤った結論に至ってしまいます。

 

必ず散布図のプロットを目で見て、「点群がカーブを描いていないか」を確認してください。

非線形の関係が疑われる場合は、変数を対数変換するか、多項式回帰(二次回帰  y = a + bx + cx^2 など)を適用する方法が有効です。

 

落とし穴4:層別せずに全データを混ぜない

製造ラインが複数ある場合や、ロットが異なる場合、全データを1つの散布図にまとめると、本来の傾向が見えなくなることがあります。

これをシンプソンのパラドックスと呼びます。

 

たとえば、ラインAとラインBそれぞれでは「温度を上げると硬さが上がる(正の相関)」が見えるのに、両ラインのデータを混ぜると「温度と硬さは無相関」に見えるケースが実際に起こり得ます。

原因は、ラインAとラインBで温度帯と硬さのベースラインが大きく異なるためです。

 

このような問題を防ぐには、ライン別・ロット別・材料別・シフト別などで層別してから散布図を描くことが鉄則です。

点の色やマーカーの形を変えて、層ごとの傾向を1つのグラフ上で視覚化するのが効果的です。

 

層別を行うと、無相関に見えていたデータの中に明確な相関が隠れていたり、逆に強い相関に見えていたものが実は層の違いによる見かけの相関だったりする発見が得られます。

散布図を描く前に「このデータにはどんな層が含まれているか」を考える習慣をつけることが、正確な分析への第一歩です。

 

落とし穴5:軸のスケールに惑わされない

同じデータでも、軸のスケール(縮尺)を変えると散布図の見た目が大きく変わります。

横軸を極端に圧縮すれば点群は縦長になり、強い相関があるように見せかけることができます。

逆に横軸を引き延ばせば、相関が弱く見えます。

 

散布図の見た目だけで判断せず、必ず相関係数rという数値で客観的に評価することが重要です。

報告書に散布図を掲載する際は、軸の目盛りを明記し、恣意的なスケーリングを避けましょう。

 

落とし穴6:サンプルサイズの不足に注意する

サンプルサイズが小さいと、たまたま偏ったデータだけで相関係数が計算されるため、結果の信頼性が著しく低下します。

n=5やn=10では、偶然による見せかけの相関が高い確率で出現します。

 

品質管理の実務では、散布図を使った分析にはn=30以上のデータを推奨します。

どうしてもデータが少ない場合は、相関係数の信頼区間を計算するか、前述の無相関の検定を必ず実施してください。

 

7. 散布図の製造現場での活用事例

散布図が実務でどのように使われているか、代表的な活用シーンを紹介します。

これらの事例を参考に、自社の工程改善に散布図を取り入れてみてください。

 

事例1:射出成形における温度と寸法精度の関係

プラスチック射出成形の現場では、「樹脂温度」と「製品の寸法ばらつき」の関係を散布図で分析することが一般的です。

横軸に樹脂温度、縦軸に寸法偏差をプロットすると、適正温度範囲が一目でわかります。

 

温度が低すぎるとショートショット(充填不足)が発生し寸法偏差が大きくなります。

逆に温度が高すぎるとバリや反りが生じて同様に偏差が増大します。

散布図を描くことで、寸法偏差が最小になる温度帯(最適条件)を視覚的に特定できます。

 

この場合、前述の通り直線的な関係ではなくU字型の曲線関係になるため、相関係数だけでなく必ず散布図を目視で確認することが重要です。

実務では、散布図の結果をもとに管理限界となる温度の上下限を設定し、日常的な工程管理に反映させます。

 

事例2:切削加工における送り速度と表面粗さの関係

旋盤やフライス盤での切削加工では、送り速度を変えると表面粗さ(Ra値)がどう変化するかを散布図で確認します。

理論的には、表面粗さRaと送り速度fの関係は次の近似式で表されます。

 

 Ra \approx \dfrac{f^2}{32R}

 

ここでRは工具の先端半径(ノーズR)です。

この式からわかるように、送り速度fと表面粗さRaの関係は二次関数的です。

散布図を描くことで、この理論式が実際の加工データでも成り立つかどうかを確認できます。

 

もし理論式から大きくずれたデータ点が見つかれば、工具の摩耗やびびり振動など、別の要因が働いている可能性を示唆する重要なシグナルです。

このように、散布図は理論と実測の乖離を検出するツールとしても有用です。

 

事例3:工程能力指数の経時変化の監視

日々の製造データから「測定日(経過日数)」と「Cpk値」の散布図を描き、時系列的な傾向を監視する使い方もあります。

横軸に日数、縦軸にCpkをプロットすることで、工程能力が時間の経過とともにどう変化しているかを可視化できます。

 

Cpkが徐々に低下している傾向(負の相関)が見えれば、工具の摩耗や設備の劣化が進行している可能性があります。

管理図では見逃しやすい「ゆるやかなドリフト」を散布図で早期に発見でき、予防保全のタイミング判断に活用できます。

 

たとえば、Cpkの低下速度を回帰分析で定量化すれば、「あと何日でCpkが管理下限を割るか」を予測でき、計画的な工具交換や設備メンテナンスのスケジュールを立てられます。

この手法は、自動車部品や航空宇宙部品など、高い工程能力が求められる分野で特に重要視されています。

 

事例4:測定システム解析(MSA)での活用

ゲージR&Rの予備分析として、「基準値」と「測定者Aの測定値」の散布図を描く方法があります。

理想的な測定器であれば、すべての点が45度の直線(y=x)上に並びます。

直線から大きくずれた点があれば、その寸法域で測定器が正しく機能していない可能性を示しています。

 

この方法は、測定器のリニアリティ(直線性)を簡易的に評価するスクリーニング手法として実務で重宝されています。

本格的なゲージR&R分析に進む前に散布図で大まかな傾向を確認することで、測定システムの問題点を早期に発見できます。

 

事例5:受入検査における材料特性の確認

受入検査で「ミルシート(材料証明書)に記載された硬さ」と「自社で測定した硬さ」を散布図にプロットする方法があります。

サプライヤーの報告値と自社測定値が一致していれば、点群はy=x上に集まります。

 

もし系統的なずれ(バイアス)が見つかれば、サプライヤーの測定方法との差異や測定器の校正状態を確認する必要があります。

散布図は、取引先との品質コミュニケーションにおいても客観的な根拠資料として機能します。

 

関連記事

instant.engineer

 

8. まとめ

散布図は、2つの変数の関係性を1枚のグラフで可視化する、QC7つ道具の一つです。

点の散らばり方を見るだけで、正の相関・負の相関・無相関を直感的に判断でき、相関係数rを計算すれば、その強さを客観的な数値として表現できます。

 

散布図を正しく活用するためのポイントを整理します。

  • データは30組以上集めることで、信頼性の高い分析が可能になります。可能であれば50組以上が理想的です
  • 相関と因果は別物です。散布図が示すのは共変動であり、因果関係の証明には実験計画法などの追加検証が不可欠です
  • 外れ値と層別に注意し、データを鵜呑みにせず必ず散布図を目視で確認しましょう。シンプソンのパラドックスを防ぐため、層別は必須です
  • 非線形の関係にも注意が必要です。相関係数がゼロに近くても、U字型やS字型の意味のある関係が隠れている場合があります
  • 相関が確認できたら回帰分析へ進み、データ予測に活用することで品質管理の精度が飛躍的に向上します

 

散布図は作り方がシンプルでありながら、工程改善の糸口を掴むための強力な武器です。

「なんとなく関係がありそう」という直感を、目に見える証拠として提示できる散布図を、ぜひ日々の品質管理に取り入れてみてください。