データ、解析ソフト、人間:どれも本当に信頼できるの? (BBC-Science & Environment, Feb 16, 2019)
「当たるときもある」とは天気予報。それでも、天気予報担当者は、予報の的中率が高いと主張する。ただし、こんな予報で、当たっているとがんばられては困る。『あすの天気は晴れ、のち曇り。ところによっては雨。』
なぜ、天気予報は外れるのか。それを語るには、どのようなデータを、どのようにして測定し、どのような解析をした上で、どのような根拠に基づいて、予報を決断しているかを知る必要がある。
予報が当たらなければ、データの測定方法や解析アルゴリズなどの見直しが必要なことは言うまでもない。
ところで、データと言えば、厚生労働省が不法に「毎月勤労統計調査」データを改ざんしたことが明るみになって、マスコミでは連日のように、データ、データと騒がれるようになった。
確かに、ものごとの判断には正確な情報・データが欠かせない。
身近な例で、血圧。これが高い、低いと言う前に、どのような状態で、いつ、誰が測定した値であるかが重要だ。
また、今後の医療対策に役立てる目的で、数十年前のある地区住民の血圧値を男女別、職業別、世代別に分析するとしよう。膨大なデータを統計的にあるいは「machine learning (機械学習ソフト)」で解析し、その結果を揺るぎないものと研究者は発表しがちだ。
しかし、そこには危うさがある。
・個々のデータの信頼性が確保されているか。
・データ解析に使用した「algpolithms (アルゴリズム)」の問題点を検証したか。
・解析結果に「reproducibility (再現性)」があるか。
・データは過去のもの。数十年間の社会変化をどのように考慮するか。
研究者がどんなに「データベースは膨大」と胸を張っても、所詮、限られた範囲、条件下におけるデータに過ぎない。データの集団が違う、あるいはこれを解析するアルゴリズムが違うと、結果が違うのは当然。限られたデーから引き出された結果を、「真理」とは呼べないのだ。
さて、Rice大学の Dr Genevera Allenは、「The American Association for the Advancement of Science (米国科学振興協会AAAS)」にて発表した研究の中で、多くの研究者が膨大なデータベースを「machine learning」ソフトで解析し、その結果が正しいと信じてしまうことに警鐘を鳴らしている。
解析結果は、限られたデータを一定のアルゴリズムで解析した値に過ぎない。そもそも、データベース自体があやしい。それに、時間軸と空間軸を無視できる情報 (測定値)は少ない。「biomedical (生物医学)」にしろ、「astronomy (天文学)」にしろ、個々のデータを一律に処理することに危うさがある。
Dr Allenによると、生物医学に関してこれまで発表された世界中の研究論文の85%は、再現性に欠けた「wasted effort (むだ骨)」。
科学の発展には、条件を的確に設定した実験 (experiments)が基本にあり、これを解析するアルゴリズムを明確にした上で、結論を引き出す。当たり前のことだ。実験に時間、手間ひまが掛かりすぎて面倒とばかり、既製の解析ソフトを使って、個々のデータの素性も知れない膨大なデータベースを解析しても、そこには「reproducibility (再現性)」も「principles (原理原則)」もあるはずがない。
Dr Allenはこれを「science crisis (科学の危機)」と呼ぶ。
まとめ:科学者が研究の内容よりも論文数を重視すると、手っ取り早いコンピュータ解析やシミュレーションがもてはやされるようになる。それらの研究で、アルゴリズムの議論・検証に触れた論文を見たことがない。
(写真は添付のBBC Newsから引用)