ビッグデータが8日、失態を演じた。米国で最も賢明なデータサイエンティストの手中にある最も洗練された技術は、米大統
領選の開票が進む中で明確になったものを見落とした。民主党候補ヒラリー・クリントン氏の圧勝を予想した世論調査の間
違いを検証しているデータ分析の専門家は、データ群の幅の狭さ、欠陥のあるアルゴリズム、そして人間は誤りうるという
点を指摘している。これらの点は、企業が独自のデータ分析や予測を行う方法に影響を与える可能性がある。
米バブソン大学のIT・経営学教授、トーマス・ダベンポート氏は「分析に使用しているモデルは、使えないことが分かるま
で悪いモデルだと気付かないことが多い」と述べた。
正確な予測をするには、過去のパターンについて信頼できるデータをアルゴリズムに取り込む必要がある。クリントン氏と
共和党候補ドナルド・トランプ氏の選挙戦は、感情的な言葉の応酬が多く、政策スタンスの比較に割く時間が比較的短かっ
たため、過去のひな型、ひいては多くのアルゴリズムが使えなかった。
企業も適切な質問をして正確なデータを集める上で同様の課題に直面している。ニューヨーク大学スターン経営大学院と
データ・サイエンス・センターの教授、バサント・ダール氏は、人間はすでに知っている事柄を裏付けるデータに頼る傾向
があり、このことが、組織が適切な戦略的判断を下すのを妨げる可能性があると指摘した。
今回の大統領選は、企業の日々の意思決定では問題にならないかもしれないことをデータサイエンティストらに突き付け
た。例えば、予測モデルに当てはめられる過去のデータが十分ではなかった。これに対し、小売業者は過去の購買行動に関
して膨大なデータを持っていると考えられる。
IBMの分析事業部門の製品開発担当副社長、ロブ・トーマス氏は「明らかにデータはアルゴリズムに勝る」とし、「包括的
なデータがなければ、包括的ではない予測になりがちだ」と指摘した。
未知、未収集ないし未使用のデータ、つまりトーマス氏が言うところの「ダークデータ」は、予測を誤った方向に導くこと
がある。ある企業幹部が使えるデータを全て使っても、「その周辺の事柄について考えなければ、関連データの大部分を無
視したことになる」と同氏は説明している。
大統領選投票日の8日夜は、そうした「周辺の事柄」がトランプ氏への投票となって現れた。トランプ氏の当選は大半の世論
調査で予想されていなかった。民主党地盤だったミシガン州とウィスコンシン州が共和党支持に変わることも見込まれてい
なかった。
以下ソース
http://jp.wsj.com/articles/SB1019224625177552381...
返信する