AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由 - 渋谷駅前で働くデータサイエンティストのブログ

渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由

先日のことですが、こんなことを放言したら思いの外伸びてしまいました。

これはデータサイエンス実務に長年関わる身としてはごくごく当たり前の事情を述べたに過ぎなかったつもりだったのですが、意外性をもって受け止めた人も多ければ、一方で「あるある」として受け止めた人も多かったようです。


基本的に、社会においてある技術が流行って定着するかどうかは「ユーザーから見て好ましいかどうか・便利であるかどうか」に依存すると思われます。その意味でいうと、データ分析技術にとっての「ユーザー」とは大抵の場合は非専門家かつそれぞれのビジネスにおける意思決定者もしくはステークホルダーのことを指しており*1、その文脈に沿えば「ビジネスにおける意思決定者にとってはAIや機械学習の方が好ましく見えている一方で、統計分析やデータ可視化は必ずしもそうでもない」ということになるのでしょう。これは割と残酷な現実である一方で、昨今のデータサイエンスブームの中では見過ごされている観点でもあるように見受けられます。


そんなわけで、このブログもめっきり与太話記事ばかり増えてきている中で恐縮ではありますが、この記事ではその辺の事情をもう少し掘り下げて考察してみようと思います。なお、ここで「統計分析」といった場合は以前の記事に対して指摘があったような統計的品質管理業界のそれではなく、どちらかというと経営管理マーケティングといった業界における意思決定などに使われるものを指す点ご了承ください。

AIや機械学習は「ストレートに答えを出してくれる」もの


冒頭で「AIや機械学習はビジネスにおける意思決定者からは好ましく見えている」と述べましたが、その理由は本質的にはこの図の通りだと思います。即ち、ユーザーからは「課題とデータさえ与えれば中身はブラックボックスで良く分からなくてもアウトプット(大抵は0 or 1のラベルなど白黒つけてくれるもの)を出してくれる」ものだと見えていることが多い、ということですね。


勿論、現場ことにAIや機械学習に対するユーザーからの信頼度は異なると思いますが、押し並べてどこの現場でもAIや機械学習は「ストレートに答えを出してくれる」ものだとみなされているのではないでしょうか。それがプロダクトに組み込まれて生活者に対してアウトプットが提示されるのか、それとも社内サービスとして個々の現場の担当者に対してアウトプットが提示されるのかはまちまちだと思いますが、「アウトプットがそのまま使える」という点に利便性を感じるユーザーは多いのではないかと考えられます。


統計分析やデータ可視化は「エビデンスを提示して残りは自分で考えさせる」もの


一方で「統計分析やデータ可視化はビジネスにおける意思決定者からは好ましくは見えていない」理由については、この図のような構図ではないかと個人的には考えています。これは前者とは似て非なる構成になっていて、要は分析したアウトプットの先にもう一つ「ユーザーが自分自身でドメイン知識に基づき解釈して考えて意思決定するプロセス」が求められているんですね。つまり「アウトプットはそのままでは使えない」というわけです。


なおここでは一旦統計分析を念頭におきましたが、データ可視化については冒頭に挙げた僕の放言の元になったこちらのコメントの方が端的で分かりやすいかと思います。

結局のところ、考えるための材料だけ沢山並べられても意思決定のサポートとなる何かがない限りは、むしろ混乱のもとになるだけなのでしょう。場合によっては「アウトプットはそのままでは使えない」を通り越して「多過ぎる選択肢を提示してくるアウトプットのせいでさらに混乱させられる」可能性すらあり得るように見受けられます。


世の中の人たちの大半は、自分の頭で考えるのは面倒だと思っている


というわけで、ここまで意思決定者から見た「AIやMLの見え方」と「統計分析やデータ可視化の見え方」を論ってきたわけですが、前者が好まれる一方で後者があまり好まれないのは、端的にいえば世の中には「自分の頭で考えるのは面倒」だという人が多いということなんですね。


この点については、TokyoRでもお世話になった大城さんのコメントが秀逸だと思われます。特にビジネスにおける意思決定者の場合、色々な事情があり得ますが一般には「出来るだけ楽をしたい」人の方が多数派でしょう*2。そうなると、分かりやすい御託宣をパッと出してくれるAIや機械学習の方が好ましく見え、アウトプットをもとに改めてヒトが考えて意思決定しなければならない統計分析やデータ可視化は煩わしい……という向きが多いのも納得がいくかと思います。


本質的には、プロセスのどこに「ドメイン知識をもとにヒトが考える」パートを入れるかという問題


しかし、データ分析を生業としている方々であれば、以上の議論には抜け落ちている点があることにお気付きでしょう。「AIや機械学習にだってヒトが考えさせるプロセスは含まれているはずなのでは?」と。実際、上の方で示したAI・機械学習の構図を、正確に書き直すと以下のようになるはずです。

現実には、ブラックボックスで隠蔽されているかのように見える「ヒトが考えさせられる」プロセスが、AI・機械学習システムの前に必ず入っているはずなんですよね。そこを忘れている、あるいは上手く運用されているせいで見落としているユーザーが多いのではないでしょうか。となれば、統計分析・データ可視化においても同じことが言えるのではないかと思われます。

即ち、最後の分析アウトプットの前にきちんとヒトがドメイン知識に基づいて解釈し方向性を定めた上で、ユーザー(ここではヒトの意思決定者)に渡すという形にすれば、広く受け入れられやすいのではないでしょうか。言い方を変えると、統計分析でもデータ可視化でも「ある程度以上踏み込んでユーザー自身が考えなければならない分量を減らす」努力が、データ分析職の側に求められているのでしょう。


コメントなど


長々と論ってきましたが、統計分析・データ可視化にとっては先述したような論点こそが「データサイエンティストにはデータ分析力だけでなくビジネス力(と称される何か)も必要」と盛んに言われる真の理由なのだと思われます。つまり、意思決定者たるユーザーに分析アウトプットを丸投げするのではなく、ユーザーが意思決定しやすいように、尚且つデータ分析結果を捻じ曲げないように気をつけつつ、上手く解釈を加えてまとめて方向性を与えて、渡す……それが出来てこその、データサイエンティストということなんですね。


言うまでもないことですが、だからと言ってビジネス力さえあればOKというわけではありません。あくまでも、データ分析によってエビデンスを見出したならば、それが非専門家のユーザーであっても活用しやすいように上手く整形することが大事、ということなのだと思っています。


ちなみに個人的な話をすると、MMM (Media/Marketing Mix Modeling)を手掛ける際には事前に綿密にステークホルダーヒアリングを行ってドメイン知識や背景情報、さらには「どういう意思決定がしたいか」という目的意識まですり合わせた上で、データを集めて統計モデリングと最適化計算を行い、その二者の生のアウトプットに対して事前に得た情報をベースにして可能な限り目的意識に沿った形になるように注釈を加えてから、ステークホルダーに最終的なアウトプットを提示しています。その際には、事後に実施するマーケティング実験の提案なども付して、actionableなアウトプットになるように留意しています*3。ご参考までに。

*1:生活者のような末端の「ユーザー」の話題ではない点に注意

*2:経営者として意思決定することをメインの仕事としている以上、着るものなどのために毎日意思決定するのは面倒だからとクローゼットに同じ服だけ揃えていたスティーブ・ジョブズの逸話を思い出してください

*3:詳細はこちら→マーケティングデータ分析で成果を挙げるには「統計分析(MMMなど)+A/Bテスト」のコンビネーションが有用 - 渋谷駅前で働くデータサイエンティストのブログ