データの世界には、たくさんの数値を分かりやすくまとめようとする時に使う「中央値」と「平均値」という二つの大切な考え方があります。この二つは、似ているようでいて、実は異なる特徴を持っています。今回は、この「中央値と平均値の違い」を、皆さんがスッキリ理解できるように、具体的な例を交えながら解説していきます。

中央値と平均値、どう違うの?

「中央値と平均値の違い」を理解することは、データの性質を正しく把握するためにとても重要です。平均値は、すべての数値を足し合わせて、その個数で割ることで求められます。これは、データの「全体的な大きさ」や「平均的な値」を知りたいときに便利です。例えば、クラスのテストの点数があったら、全員の点数を合計して人数で割れば、クラス全体の平均点が分かります。

一方、中央値は、データを小さい順(または大きい順)に並べたときに、ちょうど真ん中にくる値のことです。もしデータの個数が奇数なら、真ん中の値がそのまま中央値になります。もしデータの個数が偶数なら、真ん中の二つの値の平均が中央値となります。この中央値は、データの中に極端に大きい値や小さい値(外れ値)があっても、その影響を受けにくいという特徴があります。

なぜ「中央値と平均値の違い」を意識する必要があるのでしょうか?それは、データの特性によって、どちらの指標がより実態を表しているかが変わってくるからです。例えば、ある地域の年収データがあったとします。もし、ごく一部の非常に高額な年収の人たちがいると、平均値は高く計算されてしまいますが、中央値はより多くの人たちの年収に近い値を示すことが多いのです。

  • 平均値: 全てのデータの合計 ÷ データの個数
  • 中央値: データを小さい順に並べたときの真ん中の値

外れ値に強い中央値

「中央値と平均値の違い」を考える上で、外れ値の存在は非常に大きなポイントです。外れ値とは、他のデータと比べて極端に大きい値、または極端に小さい値のことを指します。例えば、あるクラスのテストの点数が、100点満点中、50点、60点、70点、80点、そして一人だけ10点だったとしましょう。

この場合の平均値は (50+60+70+80+10) ÷ 5 = 270 ÷ 5 = 54点となります。しかし、この54点という平均値は、ほとんどの生徒の点数(50点〜80点)から離れてしまっています。これは、10点という極端に低い値が平均値を大きく引き下げてしまったためです。

一方、中央値を求めてみましょう。データを小さい順に並べると、10点、50点、60点、70点、80点となります。真ん中にくる値は60点です。この60点という中央値は、クラスの多くの生徒の点数に近い値を示しており、より実態を反映していると言えます。

  1. データを小さい順に並べる。
  2. データの個数が奇数なら、真ん中の値が中央値。
  3. データの個数が偶数なら、真ん中の二つの値の平均が中央値。

どのような場面でどちらを使う?

「中央値と平均値の違い」を理解したら、次に「どのような場面でどちらを使うのが適切か?」ということを考えてみましょう。これは、分析したいデータの性質や、伝えたいメッセージによって異なります。

平均値は、データ全体が均等に分布している場合や、各データが同じように重要である場合に有効です。例えば、製品の重さのばらつきや、ある一定期間の平均気温などを知りたいときには、平均値が適しています。また、数学的な計算や統計的な推論を進める上でも、平均値はよく使われます。

しかし、先ほども触れたように、所得や住宅価格のように、一部の極端な値が全体の平均を大きく歪めてしまうようなデータ(偏った分布を持つデータ)では、平均値だけでは実態を正確に表せないことがあります。このような場合には、中央値を使うことで、より多くのデータポイントに近い代表値を得ることができます。

データの特徴 適している指標 理由
均等に分布している、外れ値が少ない 平均値 全体的な傾向を捉えやすい
極端に大きい値や小さい値(外れ値)がある 中央値 外れ値の影響を受けにくく、代表的な値を捉えやすい

代表的な例:不動産価格

「中央値と平均値の違い」を最も分かりやすく実感できる例の一つに、不動産価格があります。ある地域で、いくつかの住宅の価格を調査したとしましょう。

  • 住宅A:2,000万円
  • 住宅B:3,000万円
  • 住宅C:4,000万円
  • 住宅D:5,000万円
  • 住宅E:5億円(高級マンション)

これらの住宅価格の平均値を計算すると、(2,000 + 3,000 + 4,000 + 5,000 + 50,000) ÷ 5 = 64,000 ÷ 5 = 12,800万円(1億2,800万円)となります。この平均値は、ほとんどの住宅価格(2,000万円〜5,000万円)から大きく離れており、この地域全体の住宅価格の「感覚」を掴むには少し不向きです。

一方、中央値を求めると、データを小さい順に並べたときの真ん中の値は4,000万円となります。この4,000万円という中央値は、多くの住宅価格に近い値であり、この地域の「一般的な」住宅価格の目安として、より実態に近いと言えるでしょう。このように、不動産価格のように一部の超高額物件が平均値を押し上げるようなケースでは、中央値がより有用な情報を提供します。

代表的な例:収入データ

収入データも、「中央値と平均値の違い」が顕著に現れる典型的な例です。ある国の国民の年収を調査したと仮定しましょう。仮に、多くの国民の年収が300万円から700万円の間に集中しているとします。しかし、ごく一部に、数十億円、数百億円といった超高額所得者が存在すると、話は変わってきます。

これらの超高額所得者がいると、年収の平均値はそれらの人々の収入に大きく引き上げられ、平均値は数千万円、あるいはそれ以上になることもあります。しかし、この平均値は、大多数の国民が実際に受け取っている年収とはかけ離れたものになってしまいます。平均年収が1,000万円を超えていても、多くの人が300万円〜700万円程度しか稼いでいない、という状況は十分にあり得るのです。

このような場合、中央値を確認することが重要です。中央値は、所得の分布が偏っていても、その中間の値を示すため、国民の「典型的な」年収をより正確に反映します。もし、年収の中央値が500万円であれば、それは国民の半数が500万円以下、半数が500万円以上を稼いでいることを意味し、より多くの人にとって身近な指標となります。

収入のようなデータでは、中央値の方が「平均的な生活水準」を理解する上で、より本質的な情報を提供してくれることが多いのです。

代表的な例:テストの点数(外れ値あり)

「中央値と平均値の違い」を、テストの点数という身近な例でさらに深掘りしてみましょう。あるクラスの生徒たちが、ある科目のテストを受けた結果が以下の通りだったとします。

  1. 15点
  2. 65点
  3. 70点
  4. 75点
  5. 80点
  6. 85点
  7. 90点

このテストの点数の平均値を計算すると、(15+65+70+75+80+85+90) ÷ 7 = 480 ÷ 7 ≈ 68.6点となります。この平均値は、クラスの点数の傾向をある程度表していますが、15点という極端に低い点数の影響を受けて、やや低めに出ています。

一方、中央値を求めてみましょう。データを小さい順に並べると、15点、65点、70点、 75点 、80点、85点、90点となります。真ん中の値、つまり中央値は75点です。

この場合、平均値は68.6点ですが、中央値は75点です。どちらがクラスの「典型的な」点数を表しているでしょうか? 15点という点数が一人いるだけで、平均値は大きく下がってしまいますが、中央値は他の生徒の点数に近い75点を示しています。このことから、このクラスでは75点あたりがより多くの生徒にとっての「標準的な」成績であると推測できます。

代表的な例:Webサイトのアクセス数

「中央値と平均値の違い」は、ビジネスやITの分野でも非常に重要です。例えば、あるWebサイトの「1日のユニークユーザー数」を1週間集計したとしましょう。

  • 月曜日:1,000人
  • 火曜日:1,200人
  • 水曜日:1,100人
  • 木曜日:1,300人
  • 金曜日:1,500人
  • 土曜日:5,000人(イベント開催)
  • 日曜日:1,300人

この1週間の平均ユニークユーザー数は、(1000+1200+1100+1300+1500+5000+1300) ÷ 7 = 12,400 ÷ 7 ≈ 1,771人となります。しかし、この平均値は、土曜日のイベント開催による一時的なアクセス数の急増(5,000人)に大きく引っ張られて、普段のアクセス状況を正確に表していない可能性があります。

中央値を求めてみましょう。データを小さい順に並べると、1,000人、1,100人、1,200人、 1,300人 、1,500人、5,000人となります(※データが7つなので、真ん中は4番目の値です。もし6つなら真ん中の2つの平均です)。中央値は1,300人です。

この場合、平均値は約1,771人ですが、中央値は1,300人です。この中央値である1,300人の方が、普段のWebサイトのアクセス状況をよりよく示していると言えます。イベントのような特別な日を除いた「通常の」アクセス状況を知りたい場合には、中央値がより有用な指標となります。

代表的な例:アンケートの回答

「中央値と平均値の違い」は、アンケート調査の結果を分析する際にも役立ちます。例えば、ある商品に対する満足度を5段階評価(1:非常に不満、5:非常に満足)で尋ねたアンケート結果があったとします。

回答者A:5 回答者B:5 回答者C:4 回答者D:4 回答者E:4 回答者F:3 回答者G:2

この満足度の平均値を計算すると、(5+5+4+4+4+3+2) ÷ 7 = 27 ÷ 7 ≈ 3.86となります。この平均値は、全体として「やや満足」という傾向を示していると言えます。

次に中央値を求めてみましょう。データを小さい順に並べると、2、3、4、 4 、4、5、5となります。中央値は4です。

この場合、平均値は約3.86ですが、中央値は4です。中央値が4ということは、回答者の半数が4か5(満足または非常に満足)を、半数が4以下の評価をしていることを意味します。どちらの指標も役立ちますが、もし「最も多くの人がどのレベルの満足度を感じているか?」を知りたいのであれば、中央値がより直感的かもしれません。一方で、全体的な平均的な満足度を知りたいなら平均値が適しています。

このように、アンケートの回答のような ordinal scale(順序尺度)のデータでは、中央値がその中心的な傾向を捉えるのに適している場合が多いです。

「中央値と平均値の違い」を理解することは、データから本当に知りたい情報を引き出すための第一歩です。どちらの指標がより適切かは、データの性質と、あなたが何を知りたいのかによって変わってきます。今回解説した内容を参考に、ぜひ色々なデータの分析に活かしてみてください。

Related Articles: