自分は大型の米国民間コンサルティング会社で12年?13年?ぐらい働いています。
会社が大きいので、色んなグループに分かれていますが、自分は教育関連の評価を行うグループですが、以前から、なぜか、色んなグループのプロジェクトに参加しています。
人によっては100%、一つのプロジェクトで働いている人がいて、これは心配が少ないです。なぜかというと5年ぐらいのプロジェクトなので、ずっと仕事があるからです。
私の場合は、教育省から仕事をもらってくることが多いのですが、教育プログラム評価関連の仕事は一つ一つが小規模なので、複数のプロジェクトに関わることになり、いつもそのプロジェクトが忙しいわけではないので、暇になることがありますが、暇になるのはいいことではありません。
去年は、暇になりすぎて、9月ごろからパートタイムになってしまいました。12月にフルタイムに戻りました。人事課の人情で戻してもらった感じです。頼んだわけではないのですが、仕事があるから、フルタイムに戻って来てと言われました。
今年になって、新しいプロジェクトが違うグループで見つかったので、それで、救われました。5年間のプロジェクトなので、仕事があるか、ないかに関して心配せずに取り組むことができます。
グループというのは部門と言う意味です。
グループをよく見ると、分かれている理由の一つは買収された元の会社が、ごそっとその部門になっている場合があり、私の場合もそうです。
なぜ前から色んなグループのプロジェクトに参加しているかというと(あ、繰り返しになりますが)、仕事が暇になるのでグループを超えて仕事を探すことになり、いつのまにか、自分たちのグループ以外の仕事をしていました(でも年に一回の評価では、グループ内の私のボスがするので、グループ外の仕事の評価をどうするのかな?とふと思います。ま、いいですけど。)
私がグループ外に顔を出しているので、グループ内で仕事が少なくなった人に、私が発掘した仕事の情報がいって、助かることがありました。
仕事の例なんですけど、例えば、連邦政府の法律で、全ての州から、政策上の理由でデータを集めないといけないとすると、ITに強い会社が、データを集めるわけですが、それを分析可能なデータ形式にもっていき、報告をする、、これが一つの仕事です。
メンタルヘルス関係のサービスのデータを扱っています。
過去には、米軍のチャイルドケアのデータを扱う仕事もありました。ちゃんと軍の親の子供たちが、リクエストしたら、敏速にチャイルドケアを受けられているかをチェックする仕事でした。
使われているデータツールですが、私たちにデータが来た時は、
SAS
SPSS
などが使われます。グラフ化する場合は、タブローとかが使われます。
時代はRやPythonなわけですが、社会政策系、福祉系では、知らない人が多いです。
自分は一人でやっていればいいデータ分析ではRを使っています。
SASとかSPSSというと、ちょっと年配の人が使っているというイメージがあるかもしれませんが、私の世代のリサーチャーは大学院のときにSASとかSPSSを使っていたので、今でも使っているということもあるし、クライアントも、年配なので(???知らんけど???)、それを指定してくることがあるのです。
全米の例えば50州からデータを集めるとすると色々と問題が出てくるんです。それをつきとめて、解決するというのも仕事の一つです。
そして、最終的には、ウェブサイトなどからダウンロードできるような形でデータを提供し、そのデータに基づいてレポートを作成するのです。
このようなデータの仕事は、データをクリーンする、形を分析可能な形にする、、の後に使う統計分析の方法は、単純なものが多いです(ただ単に平均とかパーセントとか)。
データに間違いがあったら絶対だめですので、色々と工夫します。
根性、精神力、細かいことに対する執着心が大切です。
チームワークも大切です。皆でデータを見るからです。
マイクロソフトに勤める大学院時代の友人は、データサイエンティストですが、話をしていると、仕事の大半がデータクリーニングだと言っていました。データに間違いがあったら、話にならないからです。
実際、大学院で勉強したような統計モデルを使う仕事の場合も、その部分が一番、簡単な感じです。
大変なのは、データを分析可能な形にもっていく作業です。でも、これが一番大切だと言えます。データに問題があると、どんな統計モデルを使っても答えが間違うからです。
こういうプロジェクトからたまに論文を出せることがあります。自分は最近、教育プログラム評価のプロジェクトが終わったので、論文を提出しまして、現在、査読してもらっているところです。