データサイエンス「超」入門でデータサイエンス入門 - karaage. [からあげ]

データサイエンス「超」入門でデータサイエンス入門

f:id:karaage:20180930172633j:plain:w640

データサイエンス「超」入門を献本いただきました

 作者の松本さんより献本いただき、データサイエンス「超」入門という本を読みました。

 松本さんの本は、以下で書評を書いた「誤解だらけの人工知能」に続き2冊目です。

データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい

データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい

誤解だらけの人工知能?ディープラーニングの限界と可能性? (光文社新書)

誤解だらけの人工知能?ディープラーニングの限界と可能性? (光文社新書)

 松本さんは、WebメディアにもAI(人工知能)関係のインタビュー記事などをよく書かれています。最近だと東大 松尾先生にインタビューしたものです。

 AI関係のネット記事は、よく分かってない人が想像で書いているトンチンカンなものや、結論ありきで適当に取材しているものが多いなと感じるなか、松本さんはしっかりとした記事や本を書いているといつも感じるので信頼しています。

データサイエンス「超」入門感想

 色々目から鱗な内容でした。基本的に、この本はニュース等でよくみる統計データ、グラフの見方を解説している本です。超入門ということで、数式などはほとんど出てこず、題材として「アベノミクスで景気は良くなったのか?」「若者の○○離れは本当か?」などの疑問をデータをもとに読み解くといった内容となっています。

 その中でも自分にとって面白かったところや、気づきを箇条書きしておきます。

  • 実はGDPは(今となっては)あまり意味のない指標かもしれない
  • 平均値と中央値をどう使い分けるか
  • 日本はアメリカに次いで貧困の格差が大きい国(という見方もできる)
  • データを見る限り、若者の○○離れは嘘(単に若者が減っているだけ)

 詳しくは本を読んでいただくとして、結構データって多くの人が読み取れてないなということを改めて感じますし。政治家も都合よくデータ使っている可能性がある(単純に勘違いしている可能性もありますが)ことがよくわかります。自分の身を守るためにもデータリテラシーは重要ですね。

 本を読むと、普段見ている身近なグラフに対する見方が変わること間違いないです。特に、何かと目的だったり、前提だったりと疑い深くなると思います(笑)

データの可視化は重要

 個人的には、何でもデータでみるということは大切だと思っています。結構人間の主観って適当なんですよね。

 以前も、「ドラえもんはのび太よりエロいのではないか?」という仮説を立てて、データ分析をしてみたことがあります。

 データだけを見ると、全然そんなことは無いのですよね(のび太の方がエロい)。でも『データサイエンス「超」入門』を読むと、ドラえもんは、のび太視点で描かれているというバイアスがやはり重要だなと改めて考えさせられます。結局完璧なデータだったり、データ分析なんて存在しないのですよね。少しでも正しくデータを読み取ろうとする姿勢こそが大切ですし、真のデータリテラシーなのだと思います。

 上記の分析の場合、ドラえもんはフィクションなので、実際にドラえもんやのび太にインタビューに行ったり、データを違った視点で取得することはできませんが、現実世界ではやろうと思えば自分でオープンデータを分析することも、極論自分でデータを集めることだってできるかもしれません。

 この本でデータのリテラシを高めたら、次は自身で分析にチャレンジしてみると良さそうだなと感じました。そのときは、くれぐれも本を悪用して読み手にわざと誤解させるようなグラフを描かないように気をつけましょう(笑)

データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい

データサイエンス「超」入門 嘘をウソと見抜けなければ、データを扱うのは難しい

関連記事