データサイエンスについて

本日は自分がしているデータサイエンスについて書いてみます。

自分がデータサイエンティストをしていると言い出したのは、２年前に、コロナの影響で、会社が３か月パートタイムになったことがあり、転職活動のために、リンクトインのタイトルをデータサイエンティストに変えたのがきっかけです。マイクロソフト社の友人が、アドバイスしてくれました。彼女はマイクロソフト社のデータサイエンティストですが、私としている内容がそんなに違いませんでした。

A/Bテストと呼ばれていますが、自分の分野では大きく分けて、RCTとQEDがあります。RCTはrandomized controlled trialでQEDはQuasi-experimental designと言います。前者のほうが、厳密な実験です。後者は実験できないときに、使うメソッドで、厳密性が少し下がります（英語ではrigorが落ちると言います）。

ツイッターなどでは、まるでデータサイエンスをするには、数学がいると言われていますけど、色々で、これは、調べたわけではありませんが、おそらく、仕事の大部分がデータをいじることの場合が多いのではないかと思います。

データは分析できる形でもらえなくて、自分で色々とエディットします。これが色々と大変で、やっているうちに仕事の８０％はこれになります。数学はいりません。

面倒な理由は私の分野では、分析は自分達が担当ですが、データを集めるのはIT系の会社がやります。SQLを使うので、データが複雑になり、複雑な形で、ポイっと渡されるわけです。しかし、複雑な形のままでは（relational tables）、分析ができません。

分析自体は、仕事の半分ぐらいは確かに統計モデルを使うので、統計モデルの知識がいります。しかし、統計モデルを使うという観点で考えると厳密な数学ではないと思います。数学は、統計モデルのアルゴリズムの正当化のために使われていると思うのですが、それはすでに、証明されていることなので、使う場面には、数学を使いません。

ソフトウェアを使うことが多いのですが、実際に、コーディングっぽいことをして、統計テストをすることがあります。そっちのほうが早い場合があるからです。その場合は、アルゴリズムをコードで自分で書きます。例えば、二つのグループを比べて、その二つの何かの平均がだいたい同じかどうかを判断するということがあるのですが、これは、適当に使えるソフトウェアがないので、自分で書きます。厳密には、前に書いたものを再利用します。

どうやって書いたかというと、アルゴリズムを探してきて、それを書くのです。

自分で書いたものは不安なので、何回も何回も正しいかどうかを確認します。

この部分はなんとなく、数学っぽいものを応用している感じですが、統計的なことで、確かに大学院で勉強したようなモデルを使うのですが（自分の場合は、multilevel modeling）、多くのプロジェクトでは％や単なる平均を使うことが多いのです。

というわけで、実際の仕事の世界ではデータサイエンスと言っても、泥臭い仕事が多くて、そのために数学がいるということではありません。

いるのは、絶対に間違わないぞという気合じゃないかと思います。

実際に社会に存在するデータサイエンティストの仕事をこなすために何が必要かと考えますと、まず無料のR-studio（とr）を自分のPCに入れて、いじるといいと思います。

でも自分は流行りのマシーンラーニングとか知りません。それをするのに数学がいるのかなと思いますが、よく知りません。