September 2022

Uncategorized
社会学からデータサイエンティストになった場合の一日のルーティン

英語喉、英語喉と連日言っていますが、本職はデータサイエンティストです。でも、データサイエンティストと名乗ったのは、マイクロソフト社の友人(同じ社会学)の中国人の友人が、そう呼んだほうがいいよと言ったので、そう呼んでいます。 朝は、先日、やったクラスター分析の一部の説明をレポートに足しました。使った変数を値をwinsorize したので、それを書いて、同僚に、どう思う?とメールで聞きました。ちょこっとしたことで、よく同僚と意見を交換します。その同僚が書いたコードを月曜までにレビューします。その同僚は、実験のために、参加者をランダマイズするコードをrで書きました。 私の経験では、クラスター分析はあまり使いません。おそらく、マーケット分析ではよく使うのでしょう。 違うプロジェクトで、休みの多い生徒を助けるためのものがあり、そのデータベースに出て来る生徒のデータをもらうためには、その生徒のリストを使わないといけませんので、そのリストを作成しました。これはSASを使ってやりました。 SASを使うのが苦痛です。なぜかというともう25年ぐらい使っているので、飽きました。 Rを使うのが楽しいです。まだ分からないことがあるので、チャレンジ感があるのです。 個人名が出ますので、セキュリティーに気を付けます。間違ったらいけないので、元々のデータベースと、自分が作ったリストを比べて、間違っていないかをチェック。 いわゆるA/Bテストをするのが目的です。生徒によって、プログラムに参加した生徒と、しなかった生徒がいます。その二つのグループを比較するのです。ただ、厳密な実験ではありません(RCTではありません)。 こういうデータベースは毎年、もらうのですが、だいたい、経験上、こういうデータはaccumulativeで、去年もらったデータと今年もらったデータを比べると、古い部分は同じです。念のため、そのことを確認しました。 長年やっているので、間違いがないかを調べるポイントが分かります。元々のデータでは、100人分の情報だったのに、自分が処理したあとは97人になっていた、、となると、どうして3人減ったのかなどを調べます。 意味不明ですか、なぜか同じ人の情報が2回、入力されていたりするんです。 データがエクセルで、統計ソフトがSASだと、読み込んだ時に、自動的に「日にち」が正しくなるとは限らないので、元々のデータで2000年1月1日が、私が処理した後でも、同じ2000年1月1日になっているかを確認します。 今日はとても忙しいです。新しいプロジェクトの研究デザインで、パワー分析をすることで、データをどれだけ集めたらいいかを提案してくれと言われているのです。この仕事は、学区レベルで、インターベンションを行います。つまり、あるプログラムをしてみる学区と、そうでない学区の2つのグループを作ります(A/Bテストですね)。 学区がレベルの場合、学区数が多くないと、統計的なパワーが強くなりません。これが悩ましいところです。 これが学校レベルのインターベンションとかだと統計的パワーが得やすいです。 自分の業界では個人がインタベーンションのレベルになる研究はまれです。 パワー分析にはPowerUP!というエクセルベースのプログラムを使います。 今日は忙しくて、同時に違う同僚が、データ分析してくれと言ってきて、データの説明を受けました。これもA/Bテストみたいなものです。私の業界では実験とか、準実験と呼びます。これも、よくあるのですが、データが、アクセスデータで、リレーショナルなデータで、クリックすると、たくさんのテーブルが入っています。 この業界では、データを集めるのは別のIT会社であることが多く、自分の勤める会社は、どちかかというと分析をします。 自分のやっていることで、楽しいと感じるのは、 自分で最初からやる作業です。 楽しくないのは、人がやったことを確認するで、上で言うと同僚のRコードを確認するのは、とても苦痛です。 ただし、Rの勉強になるので、その部分は楽しめると思います。 米国での就職というと、IT系が儲かるわけですが、社会学や心理学、経済学、人類学などでも、私がやっているような仕事があるので、チェックしてみてください。 経済学は心配しなくても就職がありますね。人類学も自分の業界だと仕事があります。インタビューをしたり、観察をして、それを解釈する作業がいるからです。 私がやっている分野はPROGRAM EVALUATIONと呼ばれています。実際のところ、社会科学などでの最も大きな雇用主のセクターだと思います。学会はAmerican Evaluation Association です。 ところで、この業界にしばらくいて、それからマーケット分析のほうに移る人もいます。と言うのは、手法自体は同じだから応用できるのです。 後、なんやかんや言っても、全てがA/Bテストです。A/Bテストという言い方はしていませんでしたが、2年前にインスタグラム社(フェースブック)と面接をしてもらうのに、面接準備をしていたら、その言葉が良く使われていることを知りました。自分の分野では、treatment groupとcontrol groupと呼ぶことが普通です(後者はcomparison groupと呼ぶこともあります)。

Read more
Uncategorized
日本語話者が圧倒的に語学で不利な理由がこれ(音節数)

Read more
Uncategorized
冠詞の使いかた

英語の勘1の考えで説明できると思うので、考えてみました。以下をご覧ください。。 aはone of many だと説明しましたが、たくさんある中で、別にこれだ!という思い入れがない場合です。例えば、ニューヨークにきたら、レストランで食事でもしませんかと言う時に、別に、このレストランで!というこだわりがなければ、Let's eat at a restaurantとなります。 It's worth a tryと言うと、これに当たりますね。 さて、当たり前のように見えるものの、なぜ、これが日本人に分かりにくいかというと I met a guy. His name is John.となるとすると最初のところでaですから、別にこの人というわけではなくて、一人の人だと言ったのに、その名前がジョンさんって、とても具体的じゃないか?と、学習者は思ってしまいます。が、話者がI met a guyを言った瞬間は、そんなに具体的に特定化したくなかったと理解しましょう。その直後に、ジョンだ、、と特定して紹介したい気持ちに話者がなったのです。 状況は一瞬、一瞬で変化するのです。テストを重んじる日本の学習法では、まるで、単語と単語の関係ががちっと強く関連していないといけない気持ちになってしまいますので、気を付けてください。 以上の説明は根本的なものではないので、ぜひ英語の勘1を読んでみてください。 根本的でない理由はa tryを理解するには、aとtryを分けて考える必要があります。上の書き方では、スペースの関係上、厳密な説明はしませんでした。 もうちょっと書いときます。実際はIt's worth the tryも可能ではあるんです。ですが、そこまで必死になって、theをつけて特定化するほどのことかよ、、となり、あっさりIt's worth a tryとなります(詳しくは英語の勘1)。 次に、It's worth the waitですが、これは英語の勘1的には、 the waitじゃないモノもその部分に入りうると想定すると It's worth the money It's worth the visit It's worth the conversation などと色々可能性はありますが、そういうことではなくてthe […]

Read more