自分は評価の仕事をしています。
何かのプログラムに効果があるかを調べるのですが、英語喉の評価などもできるでしょうね。
二つの評価方法があります。一つは有名なRCTです。
これはワクチンの効果を調べたり、薬の効果を調べるのと同じ方法です。
Randomized Controlled Trial
ですが、例えば、人をまず500人集めておいて、その人たちを無作為に(ランダムに)、二つのグループに分けます。
そして、片方のグループだけに、薬を飲んでもらい、もう一つもグループには、薬のように見えるけど、実は、何でもないアメみたいなものを飲んでもらいます。
そして、二つのグループの結果(薬が効いたかどうか)を比べます。
私が評価するのは生徒、学生の大学進学とか、テストスコアとかのことが多いです。
だいたい、統計モデルを使い、実験が始まる前のスコアを考慮に入れた上で、結果となるものを比べます。
RCTは実際にするのが難しいです。
そこで、その代わりとしてQEDというのをやります。
Quasi-experimental design
と言う意味ですが、私が良くするのは、matchingというテクニックを使うものです。
例えば、ある県の高校、20校で英語喉を使って英語を指導するとしますね(これは例です)。
同じ県から、その20高に似た高校をcomparison schoolsとして選びます。その際に、実験校と似た特徴を持った学校を統計モデルを使って選ぶのです。
そして、もう一回、マッチングをします。
英語喉を使う学校の生徒と、使わない高校の生徒をマッチングさせるのですが、それは、実験開始前の英語実力テストのスコアなどを使うのですが、例えば、実験校の生徒たちと同じ特徴を持った生徒たちを、comparison schoolの学校から選びます。これは統計メソッドを使ってやります。
propensity score matchingというモデルを使います。
このようにマッチングのモデルを使って、実験校(treatment school)の生徒とcoparison schoolのグループを二つ作りますが、二つのグループは、実験前のテストスコアで似ているようにしたわけです。
そして、英語喉を使って英語教育をし、1年後に英語テストをして、二つのグループを比べるのです。
この比較をするときに、multivariate regression modelを使います(呼び方が色々あるのでややこしいです)。
(RCTであれば、別にmultivariate じゃなくてもいいんですけどね。)
こういう評価をするときに、色々なアルゴリズムを使うのです。例えば、実験前のテストスコアを二つのグループでだいたい同じにするといっても、どのくらい近かったら同じと見なすのか、、はアルゴリズムを使います。
以下はたまたま昨日、書いたコードです。SASという統計ソフトを使いました。エクセルでもできます。
mean_dif=(Mean_Yes-Mean_No);
/Standardized effects/
g1=((N_Yes-1)(StdDev_Yes*StdDev_Yes)) +((N_No-1)(StdDev_No*StdDev_No));
g2=N_Yes + N_No -2;
g3=sqrt(g1/g2);
standardized_difference=mean_dif/g3;
standardized_differenceというのが、0.05より小さければ、二つのグループの違いは同じだと考えてもいい、、というような判断をします。
え?なぜ0.05なの?というのは、他のリサーチャーが、研究をして、0.05ぐらいでいいでしょ、、と結論づけているので、それを使っているのです。
なぜg1, g2, g3と分けてコードを書いたの?と言う点ですが、そうしたほうが、間違いに気が付きやすい、QCがしやすいのです。
これも経験に基づいた判断です。
こういうアルゴリズムは、暗記をしているわけではないのですが、だいたい、感覚的には分かり、コードを書きたいときは、もう書いたものを、使うか、ネット検索をして、アルゴリズムを確認しておいて、書きます。
このアルゴリズムには、サンプル数が小さいときに、ある修正をする必要があるのですが、私のデータではサンプル数は小さくないので、それはアルゴリズムに加える必要はないと判断しました。
そのようなことを経験や知識で判断しながら、仕事をしています。
色々な判断をしないといけません。そして、どのような判断をしたかを記録しておきます。
アメリカであれば、こういうことの基本的な部分(実験の仕方など)は、心理学、社会学、経済学などで学ぶことになります。
ですが、細かい部分は経験です。
データ分析に興味があるかたは
まずR STUDIOというのをインストールしてみてください。