仮説なきデータマイニングが陥る落とし穴「ファインマン・トラップ」


▼ページ最下部
001 2019/04/11(木) 16:59:50 ID:weJnUceeCo
〈先入観も予備知識もない状態からビッグデータを解析し、そこに相関関係を発見する。そんな仮説なきデータマイニングには、誤った結果や意味のない結果を生み出してしまう危険が常に潜んでいる。「ファインマン・トラップ」と呼ばれるこの現象について、いま改めて考えるべきではないか──。経済学者のゲアリー・スミスによる考察。〉

1965年にノーベル賞を受賞した物理学者のリチャード・ファインマンは、ある日カリフォルニア工科大学の学生たちにこんな問題を出した。「いま教室を出て駐車場に行ったとき、最初に目にするクルマのナンバープレートが特定のもの、仮に『6ZNA74』である確率を求めよ」

数字とアルファベットの出現確率はすべて同等かつ独立して決まるという仮定のもと、学生たちは「確率は1,700万分の1以下である」と推定した。ところが、ファインマンは計算を終えた学生たちに、正しい確率は「1」であると明かした。ファインマンは授業に来るときに、そのナンバープレートを目にしていたのだ。

極めてまれなことも、すでに起きている場合はまれではないのである。

◆データマイニングのアキレス腱に

この「ファインマン・トラップ」、つまり、何を求めればよいのかという予備知識がゼロの状態からデータを漁ってパターンを探すことは、データマイニングに基づく研究の“アキレス腱”と言える。

異常なことや驚くようなことを、その事象が起きたあとに“発見”したとしても、実際それは異常でも驚くべきことでもない。パターンは必ず見つかるが、誤解を招いたり、不合理だったり、それよりひどい結果に終わったりすることが往々にしてあるのだ。いくつか例を見ていこう。

https://wired.jp/2019/04/09/exaggerated-promise...

返信する

002 2019/04/11(木) 17:02:20 ID:weJnUceeCo
(ソースから例の一つを抜粋)

◆死んだサケの脳活動にもパターンがある?

神経科学のスタンダードな実験のなかに、MRI内のヴォランティアにさまざまな画像を見せたり、その画像について質問したりして、脳活動の反応を見るものがある。しかしこの測定は、脳の部位の違いによる脂肪組織の密度のばらつきや、周辺環境から拾う磁気信号によるノイズが出やすい。脳の活動を見逃すこともあるし、脳の活動がないのにあるのではないかとされることもある。

ダートマス大学の研究を例に挙げよう。同大学の大学院生がMRIに魚のサケを入れ、写真を見せたり質問したりすることでサケの脳活動を研究した。

ただし、この研究のポイントは、これがサケの調査である点ではなく、「死んだサケ」の調査である点にある。そう、地元の市場で購入した死んだサケをMRIに入れて、いくつかのパターンを発見したのだ。パターンは必然的に存在したが、これもまた意味のないパターンだった。

18年、エール大学の経済学教授と大学院生は、ビットコイン価格の変動とほか多数の金融指標との相関を調査した。ビットコインの値段は、消費財およびヘルスケア業界の株利益と正の相関関係にあり、加工製品と金属鉱業業界の株利益と負の相関関係にあると、ふたりは発見した。

「説明はしません。この事象を記録するだけです」と、この教授は述べた。つまり、「ビットコインの値段」と「大量の電話番号のリスト」の相関を調べて、最も高い相関を報告したのと変わらない話なのだ。

返信する

003 2019/04/12(金) 23:22:30 ID:Aaieu4q3P.
いったい何を言いたいのか・・・
もしかして物理学も経済学も勉強する価値が無いということか。

返信する

004 2019/04/13(土) 00:30:15 ID:dVwJBIouws
これは重要な話。でも偽りの相関でも見つらないよりはいい。
それが真の相関かどうかは人間が確かめればいい。
見落としていた物が見つかる、煩雑な作業から解放されるのがすばらしい。

返信する


▲ページ最上部

ログサイズ:5 KB 有効レス数:4 削除レス数:0





ニュースIT・科学掲示板に戻る 全部 次100 最新50

スレッドタイトル:仮説なきデータマイニングが陥る落とし穴「ファインマン・トラップ」

レス投稿

未ログイン (ログイン

↑画像ファイル(jpg,gif,png)