仕事で、サーベイを作っています。30個ぐらいアンケートの質問があるとして、その30個の質問の間の関係性を調べるために、EXPLORATORY FACTOR ANALYSISを使いますが、昨日、統計学をしていない同僚に、アイテムがHANG WITH EACH OTHERとは、どういう意味と聞かれましたので、以下の例を考えてみました。
さて、常識で考えまして、HeightとweightはHANG WITH EACH OTHERですね。身長と体重です。身長が高い人は、ま、体重も重くなりますね。そして、テストスコアも二つありますが、これらも一つのグループを構成すると考えられます(HANG WITH EACH OTHERなわけです)。
Name | Height | Weight | Math test score | Science test score |
John | 180 | 80 | 90 | 100 |
Mary | 150 | 60 | 20 | 10 |
Ed | 170 | 70 | 50 | 50 |
Susan | 145 | 65 | 40 | 35 |
上の例は4つの変数があって、常識を使って、アイテム(項目)を二つにグループに分けたわけです。さて、以下では、変数の名前を知らないふりをしてみましょう。
Name | X1 | X2 | X3 | X4 |
John | 180 | 80 | 90 | 100 |
Mary | 150 | 60 | 20 | 10 |
Ed | 170 | 70 | 50 | 50 |
Susan | 145 | 65 | 40 | 35 |
これだと、どの項目がどの項目と同じグループに属するのかが分かりません。
そこでアルゴリズムを使って、アイテム間に存在するグループを特定するという発想が生まれます。
これがEXPLORATORYファクター分析だということができるでしょう(実際は、上の例は、あくまで、例であり、アイテム数が4個で、データ数が4つというのは無理があります)。
EXPLORATORYというのは、よく分からんが、ま、やってみて、なにかパターンを見つけよう、、と言う時に使います。
(結果はこうなるに違いないが、それが正しいかどうか知りたい、、場合はConfirmatoryモデルを使います。)
上へは、変数の名前、意味が全然分からないふりをしてみましたが、実際は、分かっているわけですけどね。EXPLORATORYとはいえ、ある程度、グループはこうなるだろうという期待は少しはあるのですが、ま、どうなるのか、やってみようという気持ちなわけです。
なぜグループを特定することが必要なのかというと、複数のアンケート質問によって、指数を作りますが、どの質問を使ったらいいかというのを決定するのに役立ちます。例えば、生徒の、やる気度を示す尺度をつくりたいとすれば、過去の研究に基づいて、質問項目を10個ぐらい集めておいて、実際にデータをとってみます(パイロットスタディーと言います)。100人の生徒に答えてもらったとしましょう。すると、データに基づいて、その10個のアイテムの間の関係を理解したいですね。
どのアイテムとアイテムが密接に関連しあって、グループを構成しているかを見ると、本番の調査では、どのアイテムを捨てたらいいのかが分かります。
10個の質問というのは多すぎるので、その数を半分にしたいとすれば、同じグループに属するアイテムだけを使いたい、、となりますね。
あるいは10個の質問を使って二つの尺度を作りたいということであれば、どのアイテムで一つの尺度を作り、どのアイテムでもう一つの尺度を作ったらいいかが分かります。
とても大雑把ですが、以上です。
今回はExploratoryモデルを紹介しましたが、Confirmatoryというのもあります。またいつか。