英語喉、英語喉と連日言っていますが、本職はデータサイエンティストです。でも、データサイエンティストと名乗ったのは、マイクロソフト社の友人(同じ社会学)の中国人の友人が、そう呼んだほうがいいよと言ったので、そう呼んでいます。
朝は、先日、やったクラスター分析の一部の説明をレポートに足しました。使った変数を値をwinsorize したので、それを書いて、同僚に、どう思う?とメールで聞きました。ちょこっとしたことで、よく同僚と意見を交換します。その同僚が書いたコードを月曜までにレビューします。その同僚は、実験のために、参加者をランダマイズするコードをrで書きました。
私の経験では、クラスター分析はあまり使いません。おそらく、マーケット分析ではよく使うのでしょう。
違うプロジェクトで、休みの多い生徒を助けるためのものがあり、そのデータベースに出て来る生徒のデータをもらうためには、その生徒のリストを使わないといけませんので、そのリストを作成しました。これはSASを使ってやりました。
SASを使うのが苦痛です。なぜかというともう25年ぐらい使っているので、飽きました。
Rを使うのが楽しいです。まだ分からないことがあるので、チャレンジ感があるのです。
個人名が出ますので、セキュリティーに気を付けます。間違ったらいけないので、元々のデータベースと、自分が作ったリストを比べて、間違っていないかをチェック。
いわゆるA/Bテストをするのが目的です。生徒によって、プログラムに参加した生徒と、しなかった生徒がいます。その二つのグループを比較するのです。ただ、厳密な実験ではありません(RCTではありません)。
こういうデータベースは毎年、もらうのですが、だいたい、経験上、こういうデータはaccumulativeで、去年もらったデータと今年もらったデータを比べると、古い部分は同じです。念のため、そのことを確認しました。
長年やっているので、間違いがないかを調べるポイントが分かります。元々のデータでは、100人分の情報だったのに、自分が処理したあとは97人になっていた、、となると、どうして3人減ったのかなどを調べます。
意味不明ですか、なぜか同じ人の情報が2回、入力されていたりするんです。
データがエクセルで、統計ソフトがSASだと、読み込んだ時に、自動的に「日にち」が正しくなるとは限らないので、元々のデータで2000年1月1日が、私が処理した後でも、同じ2000年1月1日になっているかを確認します。
今日はとても忙しいです。新しいプロジェクトの研究デザインで、パワー分析をすることで、データをどれだけ集めたらいいかを提案してくれと言われているのです。この仕事は、学区レベルで、インターベンションを行います。つまり、あるプログラムをしてみる学区と、そうでない学区の2つのグループを作ります(A/Bテストですね)。
学区がレベルの場合、学区数が多くないと、統計的なパワーが強くなりません。これが悩ましいところです。
これが学校レベルのインターベンションとかだと統計的パワーが得やすいです。
自分の業界では個人がインタベーンションのレベルになる研究はまれです。
パワー分析にはPowerUP!というエクセルベースのプログラムを使います。
今日は忙しくて、同時に違う同僚が、データ分析してくれと言ってきて、データの説明を受けました。これもA/Bテストみたいなものです。私の業界では実験とか、準実験と呼びます。これも、よくあるのですが、データが、アクセスデータで、リレーショナルなデータで、クリックすると、たくさんのテーブルが入っています。
この業界では、データを集めるのは別のIT会社であることが多く、自分の勤める会社は、どちかかというと分析をします。
自分のやっていることで、楽しいと感じるのは、
自分で最初からやる作業です。
楽しくないのは、人がやったことを確認するで、上で言うと同僚のRコードを確認するのは、とても苦痛です。
ただし、Rの勉強になるので、その部分は楽しめると思います。
米国での就職というと、IT系が儲かるわけですが、社会学や心理学、経済学、人類学などでも、私がやっているような仕事があるので、チェックしてみてください。
経済学は心配しなくても就職がありますね。人類学も自分の業界だと仕事があります。インタビューをしたり、観察をして、それを解釈する作業がいるからです。
私がやっている分野はPROGRAM EVALUATIONと呼ばれています。実際のところ、社会科学などでの最も大きな雇用主のセクターだと思います。学会はAmerican Evaluation Association です。
ところで、この業界にしばらくいて、それからマーケット分析のほうに移る人もいます。と言うのは、手法自体は同じだから応用できるのです。
後、なんやかんや言っても、全てがA/Bテストです。A/Bテストという言い方はしていませんでしたが、2年前にインスタグラム社(フェースブック)と面接をしてもらうのに、面接準備をしていたら、その言葉が良く使われていることを知りました。自分の分野では、treatment groupとcontrol groupと呼ぶことが普通です(後者はcomparison groupと呼ぶこともあります)。