データサイエンスについて
本日は自分がしているデータサイエンスについて書いてみます。 自分がデータサイエンティストをしていると言い出したのは、2年前に、コロナの影響で、会社が3か月パートタイムになったことがあり、転職活動のために、リンクトインのタイトルをデータサイエンティストに変えたのがきっかけです。マイクロソフト社の友人が、アドバイスしてくれました。彼女はマイクロソフト社のデータサイエンティストですが、私としている内容がそんなに違いませんでした。 A/Bテストと呼ばれていますが、自分の分野では大きく分けて、RCTとQEDがあります。RCTはrandomized controlled trialでQEDはQuasi-experimental designと言います。前者のほうが、厳密な実験です。後者は実験できないときに、使うメソッドで、厳密性が少し下がります(英語ではrigorが落ちると言います)。 ツイッターなどでは、まるでデータサイエンスをするには、数学がいると言われていますけど、色々で、これは、調べたわけではありませんが、おそらく、仕事の大部分がデータをいじることの場合が多いのではないかと思います。 データは分析できる形でもらえなくて、自分で色々とエディットします。これが色々と大変で、やっているうちに仕事の80%はこれになります。数学はいりません。 面倒な理由は私の分野では、分析は自分達が担当ですが、データを集めるのはIT系の会社がやります。SQLを使うので、データが複雑になり、複雑な形で、ポイっと渡されるわけです。しかし、複雑な形のままでは(relational tables)、分析ができません。 分析自体は、仕事の半分ぐらいは確かに統計モデルを使うので、統計モデルの知識がいります。しかし、統計モデルを使うという観点で考えると厳密な数学ではないと思います。数学は、統計モデルのアルゴリズムの正当化のために使われていると思うのですが、それはすでに、証明されていることなので、使う場面には、数学を使いません。 ソフトウェアを使うことが多いのですが、実際に、コーディングっぽいことをして、統計テストをすることがあります。そっちのほうが早い場合があるからです。その場合は、アルゴリズムをコードで自分で書きます。例えば、二つのグループを比べて、その二つの何かの平均がだいたい同じかどうかを判断するということがあるのですが、これは、適当に使えるソフトウェアがないので、自分で書きます。厳密には、前に書いたものを再利用します。 どうやって書いたかというと、アルゴリズムを探してきて、それを書くのです。 自分で書いたものは不安なので、何回も何回も正しいかどうかを確認します。 この部分はなんとなく、数学っぽいものを応用している感じですが、統計的なことで、確かに大学院で勉強したようなモデルを使うのですが(自分の場合は、multilevel modeling)、多くのプロジェクトでは%や単なる平均を使うことが多いのです。 というわけで、実際の仕事の世界ではデータサイエンスと言っても、泥臭い仕事が多くて、そのために数学がいるということではありません。 いるのは、絶対に間違わないぞという気合じゃないかと思います。 実際に社会に存在するデータサイエンティストの仕事をこなすために何が必要かと考えますと、まず無料のR-studio(とr)を自分のPCに入れて、いじるといいと思います。 でも自分は流行りのマシーンラーニングとか知りません。それをするのに数学がいるのかなと思いますが、よく知りません。
スペイン語について
ディズニーに行ってました。今住んでいる場所から1時間ちょっとです。 ホテルは、スタッフがスペイン語を話していました。朝食の場所では、ベネズエラ出身のスタッフが多かったようです。 ふと、周りを見て、目につくものをスペイン語にできるかを考えてみました。 壁とか。イスとか、テーブルとか。 顔も考えてみました。目とか、口とか。 すると、イスと耳を覚えていないことに気が付きました。イスは聞いたら分かると思います。よく忘れる単語という感じ。 しかし、なぜ自分はイスという単語と耳を知らなくても、スペイン語が分かるのだろうかと考えてみました。 耳と言う場面があるでしょうか? 「耳が悪いんです」と言うとすると、きっと自分なら no puedo oír (聞こえません)と言うことだと思います。 つまり、耳と言う単語を知らなくてもいいのです。 イスにしても、知らなくても とりあえず、座るもの、、みたいに言えば良いのです。 英語だとsomething to sit onですね。 聞くときはなんとなくわかるのです。日本語でも漢字が書けなくても見たら分かる感じです。 皆さんも英語を勉強する際に、完璧主義にせずに、ゆるく、適当に、感覚的に覚えていくといいと思います。