統計分析とは、既存のデータを統計学の理論をベースに様々な視点から検証することです。統計解析を大きく分けると、次の2種類があります。
1-1:記述統計とは
記述統計とは、既存のデータをまとめて、データの特徴を記述する統計のことです。
たとえば、1000人分の数学の得点をそのまま見せられても、膨大な数字の並びに圧倒されてしまいます。
そこで、得られたデータをまとめて、「このデータの特徴は○○ですよ」と記述することで、そのデータの性質や特徴を説明します。
1-2:記述統計の具体例
データにどんな特徴があるかを観察します。
具体的には、得られたデータから「平均値は○○でした」「中央値は○○でした」「標準偏差は○○でした」「○○の割合は□□%でした」などをまとめる作業のことです。
平均値とは、データの値の平均のことです。
たとえば、5人の生徒A-E君が数学のテストを受けたとします。
そして、それぞれの得点はA君が60点、B君が49点、C君が42点、D君が29点、E君が50点だったとしましょう。
平均値はすべてのデータの値を足して、それをデータの個数で割ります(今回はデータが5個だから、5で割ります)。
したがって、今回の平均値は、
(60+49+42+29+50)÷5
=230÷5
=46
よって、平均値は46点となります。このように、得られたデータにどんな特徴があるかを観察するのが記述統計です。

2-1:推測統計とは
推測統計とは、既存のデータ以外のデータについての特徴を教えてくれる統計のことです。
たとえば、男子高校生5人、女子高校生5人の数学得点データの記述統計から、女子高校生よりも男子高校生の方が数学得点が高いという結論が導かれたとします。
しかし、「既存の数学得点データが、たまたま偏っていただけではないか」と納得がいかない人もいると思います。
そこで、「一般的にはどうなのか」ということが重視されます。
「一般」といった場合、手元にあるデータの背後にある大きな世界を想定しています。
具体的には、「男子高校生5人」の背後には「日本全国の男子高校生」という世界を、「女子高校生5人」の背後には「日本全国の女子高校生」という世界を、それぞれ想定しています。
理想的には、「日本全国の男子、女子高校生」全員の数学得点データを得られればはっきりするわけですが、実際はとても困難です。
そこで、手元にある限られたデータを用いて、背後に広がる大きな世界を推測しようと考えるわけです。
そして、そのようなアプローチを推測統計と言います。
2-2:推測統計の具体例
既存のデータから、そのデータの背後にある大きな世界を推測します。
推測統計では、既存のデータ、つまり実際に調査や実験を実施した集団のことを標本と呼びます。
また、背後にある大きな世界、つまり関心のある対象全体のことを母集団と呼びます。
具体的には、得られたデータから「AとBの平均値には差があるor差がない(t検定)」「AとBには相関関係があるor相関関係がない(相関分析)」「AからBが予測できるor予測できない(回帰分析)」などをまとめる作業のことです。
t検定とは、平均値に対する検定のことです。
たとえば、新薬群とプラセボ群の患者さんの身長の違いを知りたい場合などに用います。
新薬群のデータとプラセボ群のそれぞれから得た2種類の身長データがあることになりますが、このようなt検定を対応のないt検定と呼びます。
一方、同じ集団から2種類のデータを得た場合は、対応のあるt検定と呼びます。
基本的には、データを収集し、データを加工し、SPSS、R、Pythonでデータを移して分析します。
そして、その分析結果を理解し、活用していくことになります。
oonishi
(5 months, 1 week ago)