統計は、たとえ初歩的な内容であっても解説するのが大変なのでどうしても後回しにしてしまいますね。
統計については、数字の計算などをできなくてもいいのですが、概念的なことをしっかりと覚えておくことが求められます。
ある統計概念がどういうときに用いられるものなのか、ということをしっかりと理解しておくことです。
解答のポイント
2変数の記述統計について概説ができる。
2変数の記述統計について
心理統計(心理に限らないかもしれないけど)では、2つの変数の関係を考えていくことがある。
ストレス量と社交性の関係や、性差と好きなお酒の種類の関係など。
前者は両方とも量的変数、後者は両方とも質的変数です。
まずはこれらの違いをしっかりと把握しておくことが大切です。
【量的変数と量的変数の場合】
ストレス量と社交性のように、量的変数と量的変数の関係について考える場合、その関係のことを「相関」と呼びます。量的変数とは、数字に置き換えるなどして、その大小関係を問題にできる変数です。
相関では、その様子を視覚的に把握するために「散布図」を用いることが一般的です。
以下のようなものになります。
その後、この図を数値化していくことになり、この際の代表的な指標が「相関係数」になります。
相関係数にもいろいろ種類があり、最も使われるのがピアソンの「積率相関係数」です(他にも順位相関係数(ケンドールやスピアマン)などがある)。
本問では相関は関係が無いので、このくらいに。
【質的変数と質的変数の場合】
性差と好きなお酒の種類のように、質的変数と質的変数の関係について考える場合、その関係のことを「連関」と呼びます。質的変数とは、性別(男性・女性)のように対象を分類する変数のことを指します。
質的変数と質的変数の関係(連関)について把握する際、しばしば用いられるのが「クロス集計表」になります。
以下のようなものになります(「心理学検定 基本キーワード」に載っていました)。
この表を1つの値に集約する指標として「クラメールの連関係数」「φ(ファイ)係数」などがあります。
「φ係数」は2×2のクロス集計に、「クラメールの連関係数」については2×2やそれ以上のクロス集計表にも用いることが可能です。
詳しい説明はさておき、これらの指標では示された数値に連関があるかどうかを数字で示すわけですが、いずれも0~1の数字で表記され、2つの変数にまったく関係がない場合は0になります。
本問を解くにあたって知っておかねばならないのは、「クラメールの連関係数」「φ(ファイ)係数」などを算出するにあたって「カイ2乗値」を求めることが必要であるということです。
上記をまとめた表が以下の通りです(こちらも「心理学検定 基本キーワード」に載っていました)。
これらを踏まえて、選択肢の解説に入っていきます。
選択肢の解説
『①F分布』
F分布は分散分析においてF値を求めるときに用いるものです。分散分析は「分散」すなわちバラつきをバラして分析する手法です。
分散分析ではバラつきを以下のように分けます。
- 全体平方和:データ全体のバラつき
- 群間平方和:平均値の違いで説明できるバラつき
- 郡内平方和:平均値の違いでは説明できないバラつき
これだけでは分かりづらいと思うので、過去に作った資料の一部を示します。
こちらは睡眠薬と偽薬、その睡眠量を例にとったので、そういうことが書いてあります。
この中でどこを見ればよいのかを知っておくことが大切です。
当然ですが「群の違いによって説明できるバラつき」>「誤差によって生じるバラつき」である必要があるので、この2つを比較検討を行っていくわけです。
この比較検討の結果、F値(統計量F)が算出されます。
一般にF値とは、2つの群の標準偏差の比であって、両群とも正規分布に従う場合にはF値はF分布に従うことになります。
F分布表とは以下のようなものになります(有意確率5%のみ示しています)。
算出されたF値が、所定の数字を超えていたならば「有意である(5%水準で)」と言えるわけです。
このようにF分布は分散分析を通して使われるものであり、本問の「クロス集計表の連関の検定で利用される確率分布」としては適切でないと言えます。
よって、選択肢①は誤りと判断できます。
『②t分布』
t分布はt検定においてt値を求めるときに用いるものです。t検定では、従属変数が間隔尺度もしくは比率尺度、統計量は平均値、独立変数が1で2条件の場合に用いられる統計手法です(対応の有無については省略します)。
ざっくりと、「平均値の差が有意であるか否かを判断するもの」と覚えておいてもいいかもしれません。
その計算の結果、t値が示されます。
選択肢①のF値と同じように、それをt分布表を見て有意か否かを判断することになります。
自由度の数を基に、有意確率の各数字をt値が超えているか否かで判断します。
超えていれば「有意である」と言えるわけですね。
このようにt分布はt検定を通して使われるものであり、本問の「クロス集計表の連関の検定で利用される確率分布」としては適切でないと言えます。
よって、選択肢②は誤りと判断できます。
『③2項分布』
「コインを投げたときに表が出るか裏が出るか」のように、何かを行ったときに起こる結果が2つしかない試行のことを「ベルヌーイ試行」といいます。ベルヌーイ試行を実施し、独立にn回行ったときの成功回数を確率変数とする離散確率分布のことを「2項分布」と呼びます。
上記のようなものですね。
単純に言えば、ベルヌーイ試行をn回行ったときに、ある事象が何回起こるかの確率分布のことを2項分布と言うわけです。
例えば、「コインを5回投げた時に表2回出る確率」「対戦ゲームで90%の確率で当たる技を10回中8回当てる確率」などを表した確率分布です。
これらより、選択肢③は誤りと判断できます。
『④正規分布』
正規分布とは統計・統計学を理解する上で一番大切な確率分布です。正規曲線自体を発見したのはピエール=シモン・ラプラス(1749-1827)で、これを統計学的に展開することに成功したのがカール・フリードリヒ・ガウス(1777-1855)でした。
ガウスが18世紀末に「正規曲線」という言葉を導入し、ゴルトンは「誤差曲線」という言葉を使い、その後研究論文で「誤差曲線」を「正規曲線」と名付けたという経緯があります。
ガウス曲線は実はラプラスが発見したことがわかったので、ラプラス・ガウス曲線と呼ぶことも提唱しましたが、どちらが先かという論争が国を超えて広がるのを避けるため(ラプラスさんとガウスさんは出身国が違った)に「正規分布」と呼ぶことになっています。
今でも「誤差分布」「ガウス分布」という表現もなされますね。
一般には下の図のような左右対称のグラフになります。
正規分布の大まかな特徴として…
- 左右対称(歪度=0)
- 中央に山が一つ
- 両裾がなだらかに広がっている(尖度=3)
が挙げられます。
多くの検定では、変数同士が正規分布を成しているか否かでその手法が変わってくるなど、正規分布は重要な指標となります。
言ってみれば正規分布は各統計手法の前提であり、特定の統計手法によって算出された指標を評価判断するために使うものではありません。
今回の問題の「クロス集計表の連関の検定で利用される確率分布」という捉え方とは、まったく次元が異なることがわかりますね。
よって、選択肢④は誤りと判断することができます。
『⑤カイ2乗分布』
すでに述べたとおり、本問を解くにあたって知っておかねばならないのは、「クラメールの連関係数」「φ(ファイ)係数」などを算出するにあたって「カイ2乗値」を求めることが必要であるということです。ピアソンは1896年の末頃に、生物学者や経済学者が遭遇する比対称分布の検定に興味を持ち、1900年にカイ2乗検定が誕生しました。
カイ2乗検定は「正規分布に依存しないことで、新しい知見の解釈が行える」という点で重要な検定と言えます。
「正規分布に依存しない」とは、すなわち「母集団についての特定の分布を仮定しない検定法」を指します。
このような検定法をノンパラメトリック検定と言い、「名義尺度」や「順序尺度」(カイ2乗検定は名義尺度)を扱うときには、母集団の分布に関しての仮定を置かずにデータの処理が可能な「ノンパラメトリック検定」が用いられます。
カイ2乗検定は、このノンパラメトリック検定の一つになります。
他のノンパラメトリック検定については以下の通りです。
詳しい計算法は割愛しますが、カイ2乗検定によって算出されたカイ2乗値(χ2値)をもとにカイ2乗分布を確認します。
ちなみにカイ2乗分布表は、1900年にピアソンとその弟子アリスリー(1858-1939)が作成し、その1年後に別の弟子ウィリアム・ペイリン・エルダートン(1877-1962)が改良を加えました。
こうして算出されたカイ2乗値をもとにクラメールの連関係数を算出していきます。
計算方法としては、算出されたカイ2乗値を、総度数×(行列と列数の小さい方の数-1)で割り、全体の平方根を取ったものが「クラメールの連関係数」となります。
この詳しい計算方法についてはわからなくても、以下のことを覚えておきましょう。
- クロス集計表は、質的変数と質的変数の関係(連関)について把握する際に用いられる。
- クロス集計表を1つの値に集約する指標として「クラメールの連関係数」「φ(ファイ)係数」などがある。
- 「クラメールの連関係数」「φ(ファイ)係数」などを算出するにあたって「カイ2乗値」を求めることが必要になる。
- 「カイ2乗値」はカイ2乗分布に従う検定統計量である。
これらが概念的な理解になるかと思います。
数字の計算はさておき、試験においては概念的な理解をしておくことが重要です。
以上より、選択肢⑤が正しいと判断できます。
0 件のコメント
コメントを投稿