2009/12/22

統計の世紀

数年前から、「統計の世紀」ということを考えている。

おととい、Googleが日本語入力エンジンを公開していることを知って、興味を抑えきれずに、ついついインストールしてしまった。

入力中、カーソルの下に変換候補が表示されるのだが、これが面白い。
たとえば、「がんだ」と入れると、「ガンダム」「ガンダムクロニクルバトライン」「ガンダーラ」が表示される。いまどきのFEPであれば「ガンダム」くらい入っていてもおかしくはないが、「がんだ」に対して「ガンダムクロニクルバトライン」はないだろう。なんだそれは。ゲームなのか。流行っているのか。思わずぐぐってしまいたくなる。

考えてみれば、Googleの検索ボックスほど“生の日本語”が打ち込まれる場所はないだろう。Google Suggestの検索語を打ち込むそばから候補を表示してくれる機能は、基づくデータベースが異なるだけで、要するに予測変換そのものだ。もう辞書はいらない。データベースがあればいい。

英語学習の世界では、これまた膨大な「生きた英語」を分解して分析して生成した「コーパス」が流行っている。言葉と言葉の結びつきを統計的に処理して、効率よく英語を学べるようにする学習法だ(と思う)。計量言語学なんて分野もきっとあるだろう。「朝日新聞における『、』『。』の使用頻度の変遷」なんて論文も、たぶんあるだろう。

話は全然変わるが、先日薬局に行って処方箋を示したら、面白いことを言われた。たまたま行きつけではない薬局を利用したのだが、薬剤師に「処方はここ半年変わっていない」ことを説明すると、「副作用の一覧表はお付けしますか? いつもの処方ということなら不要かと思いますが、一応、1000人中5人に出る副作用はお知らせすることになってますんでね」と言う。一応プリントアウトをお願いしたのだが、行きつけの薬局でもらったものと同じ文章だった。薬局用のデータベースがパッケージ売りでもされているのだろう。「眠くなることがあるので車を運転するな」とか、そういった類である。

面白いなと思ったのは、それが5/1000という確率、つまり0.5%を境目に、それ以上の確率なら副作用として明示する、と定められている(らしい)ことだ。副作用が出ても、それ以上なら副作用、それ以下なら不幸な事故、というわけだ。リタリンだったか、人によっては自殺念慮が出たりするらしくて問題になっていたような気がする。自殺は「眠くなる」とはちょっと副作用のレベルが違うので同じ枠組みで論じてはいけないのかもしれないが、それでもまあ、「80%には有効、「19.51%には作用なし」「0.49%には自殺念慮が出る」ということであれば、副作用一覧データベースには登録されないのかもしれない。

で、私も長く患っている持病があって、日常的にいろいろ困ったことも起きるし、治る見通しもあまり立っていなくてどうしたものかと日々思案しているわけだが、病気自体は非常にありふれているので、医者にしてみれば「ああまた来たか」というようなものだろう。当然治療法も確立していて、まず80%の患者に有効とされているこの薬を飲ませて、効かないようだったら残り20%のうちの80%に効くこの薬を飲ませて……を繰り返していけば、そのうち何か当たるに違いない。

患者本人にとっては一生の大事であっても、医者にとってみれば一日にさばく患者の半分がその病気だったりして、体質やらなにやら個性もあろうが、捨象してしまえばみな「●●病」でひとくくりである。医療の現場では、本質的に、患者は確率的操作の対象なのだ。

話がすっかり長くなっておりますが、結論としては、20世紀が科学と演繹の時代なら、21世紀は統計と帰納法の世紀になる。科学と演繹は金融工学を生んだが、統計と帰納法はGoogleを生んだ。

また戻る。

Googleが翻訳サービスを提供しているが、これも恐ろしいものだ。Google translator tool kitのhelpから引用しよう。

どのようにGoogleの翻訳とは異なる?人間の翻訳者からの介入なしにGoogleの翻訳'を提供し、自動翻訳'純粋な技術によって製造。対照的に、Googleの翻訳ツールキット人間の翻訳者はより速く、より正確には、Google翻訳のような技術で支援することができます。

まさにこのhelp自体、英語のhelpから日本語に自動翻訳されたものであり、上の文章を読めば翻訳のレベルがどの程度のものか知れてしまうので恐ろしさも半減だが、その発想自体は恐ろしい。

原理としては、たとえば日本語のドキュメントと、その英訳をGoogleに食わせる。似たような文書をどんどん食わせることで、日本語文に「ゴジラ」という6バイトの文字が出てくる時、英語文に「Gozzila」という単語が出てくることが多いようだという推測をさせるわけだ。この方式なら、日本語文を文法的に分析し、それを英語文として再構築し……なんて七面倒臭いことをする必要はない。食べれば食べるほど賢く育つわけだ。

どんどん思い出すなあ。筑波大学の研究者だったか、過去数年分の倒産した企業の財務諸表としていない企業の財務諸表をコンピュータに流し込み、人工知能に解析させて、倒産予測の方程式を作ったのだという。実際その式を見たことがあるが、財務諸表の特定の項目を変数に取り、それにわけのわからない定数(「0.002458」みたいな)で重み付けをしてあるという、まさに機械知性が生み出したに違いないグロテスクな式だった。もちろんその的中率は、公認会計士より高い(んじゃないかと思っているんですが、そんなことはないですか?)。

いい加減長いので、このへんでおやすみしますが、結論再掲。21世紀は統計と帰納法の世紀です。

0 件のコメント:

コメントを投稿