2015-01-01から1年間の記事一覧
(Photo via VisualHunt.com) 僕も会員になってるData Science Central*1に、こんな面白い論説が載っているのを見つけました。 Data science and statistical modeling will be further automated, with better black-box products Frontiers between data sc…
(Photo credit: Team Lane via Visual hunt / CC BY-ND) 私事ですが、本日をもって2年半勤めてきた株式会社リクルートコミュニケーションズ(RCO)を退職しました。また同時にリクルートグループからも離れることになりました*1。正式には12月31日大晦日が退職…
(Photo via VisualHunt) 追記2017年3月現在の最新書籍リストはこちらです。 最近になってまた色々とデータサイエンティストを目指す人向けのお薦め書籍リストとか資料リストとかが出てきてるんですが、個人的には何かと思うところがあるので僕も適当にまとめ…
本日の輪読会で僕が担当した論文のメモランダムということで、置いときます。 概要 Gradient Boosted Feature Selection (Xu, Huang, Weinberger and Zheng, KDD 2014)タイトルが示すように特徴量選択をやりたいというのが第一のモチベーションで、これをgra…
先日閉幕したNIPS2015ですが*1、そう言えばサイト上に全論文のタイトル&著者一覧があるなと思い出したのでした。 ということで、これまでの4回のグラフ・ネットワーク分析特集で学んだことをこの著者一覧に応用してみようかと思います。やったことはごくご…
ネットワーク全体指標はあまりビジネス的に扱うことが多くないので、代わりに今回はコミュニティ検出(要はグラフ構造内でのクラスタリング)について取り上げます。ただし前回まで参考にしていた『ネットワーク分析』はあまりコミュニティ検出についてそこ…
ビジネス的に重要度が高いのがこの辺の話題ではないかな?ということで、今回は中心性(centrality)の話題を取り上げてみようと思います。参考文献はいつも通りこちら。 ネットワーク分析 (Rで学ぶデータサイエンス 8)作者: 鈴木努,金明哲出版社/メーカー: 共…
先日こちらの学生データ分析コンペの表彰式に、プレゼンター&解説者として登壇してまいりました。正直言って、データを提供して下さったData Stadium社の皆様からも「これほどまでの結果になるとは」という感嘆の声が上がるほどハイレベルな戦いぶりで、参…
ちょっと前に「ワインの味わいとデータサイエンス」というお題で話してきたわけですが。 実は「単変量モデルという名の還元主義」vs.「多変量モデルに基づくデータサイエンス」というテーマを一貫して置いていたのですが、あまりそこにスポットライトが当た…
前回の記事に引き続き主に{igraph}の各関数で遊びながらグラフ理論・ネットワーク分析を学ぶこのシリーズですが、今回は様々なノード間の特徴量について見てみます。もちろん今回も参考文献はこちら。 ネットワーク分析 (Rで学ぶデータサイエンス 8)作者: 鈴…
ちょっと前に話題になってたんですが、何でもCRANに確率的勾配降下法(Stochastic Gradient Descent)を実装した{sgd}というパッケージが公開されているそうで。JSS掲載予定のVignetteもあるみたいです。 CRAN - Package sgd Stochastic gradient decent metho…
ちょっと興味が湧いてきたので、今後しばらくグラフ理論・ネットワーク分析に力を入れてみようかなと思ってます。ということで『レ・ミゼラブル』の時同様にオープンデータセットを取ってきましょう。 Network data 今回使うのは"Neural network"。これは(…
Taste of Wine vs. Data Science from Takashi J OZAKI 先日、とある勉強会で話してきた内容がこちらです。ネタとしてはもう皆さんお分かりでしょうが、以前書いた記事の続きみたいなものです。 ある程度自動的にテイスティング・スコアが付けられれば、世の…
岩波データサイエンス Vol.1作者: 岩波データサイエンス刊行委員会出版社/メーカー: 岩波書店発売日: 2015/10/08メディア: 単行本(ソフトカバー)この商品を含むブログ (4件) を見る 実はこの刊行委員会に昨年の秋頃?に招かれまして、ずっと水面下であれや…
去年も同じ趣旨の学生データサイエンティスト日本一決定戦のPR記事書きましたが、今年も懲りずに書きます。 去年は日本のプロ野球のデータセットを使いましたが、今年はJリーグのデータセットを使います。今年も3位までの入賞者には総額18万円の賞金が出ると…
先日、とあるデータ分析フレームワーク*1の営業をうちのチームの人たちが受けたそうで、後で色々話を聞きました。 何でもそのプロダクトは名立たる国際データ分析コンペ*2上位入賞者という猛者たちが作った代物だそうで、宣伝文句やデモによれば「データの前…
本当は今週はとあるリクエストをいただいた関係でdoc2vecの記事でも書こうかと思っていたんですが、予想以上に前処理に難儀して間に合いそうもないので今回は別の話題でお茶を濁します(笑)。 それは、ワインとデータ分析との関係について。というのも、シ…
何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなん…
タイトルを読んで字の如しですが、前作同様に*1技評さんから正式発売日より前に見本冊子をご恵贈いただきました。 データサイエンティスト養成読本 機械学習入門編 (Software Design plus)作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤…
今日のうちのチームの輪読会で"A Safe Screening Rule for Sparse Logistic Regression" (Wang et al., NIPS2014)を読んできた*1ので、その時の資料をついでにこちらにもupしておきます。 なお、この論文の筆者のGitHubとかに実装上がってないかなーと思って…
ということで先週分(隔週1回)のブログ更新をスキップして行ってまいりました、夢の都パリ。僕にとっては初めてのヨーロッパで、なおかつここ最近では久しぶりの完全プライベートでの海外旅行だったので*1、だいぶ満喫してまいりました。 (ノートルダム大…
ということで今週分はお休みです。また再来週。なお1枚目はヴェルサイユ宮殿の鏡の間、2枚目はサン=ジェルマン・デ・プレで見かけたその名も『モンドリアン』という名のカフェです(笑)。
本日8月6日に駒場で開かれた日本生態学会関東地区会公開シンポジウム「非ガウス性/非線形性/非対称性からの因果推論手法:その使いどころ・原理・実装を学ぶ」通称因果フェスにて、Granger因果について話してきました。 ちなみに事前に林岳彦(id:takehiko-…
先日ask.fmでこんな質問をいただいたのでやってみました。 不均衡データの分類についてブログを拝見しました。 不躾な質問で恐縮ですが、正例の少ない不均衡データをRandomforestで2値分類を行う際に、ウェイトを使うのであれば、単純にProbで出力される「正…
みんなのR ?データ分析と統計解析の新しい教科書?作者: Jared P. Lander,Tokyo.R(協力),高柳慎一,牧山幸史,簑田高志出版社/メーカー: マイナビ発売日: 2015/06/30メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る ということで、訳者の…
データ分析プロセス (シリーズ Useful R 2)作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (1件) を見る 著者の福島さんからご恵贈いただきました。ということで、早速書評させていただきます。
このシリーズ、前回はUCIリポジトリではないデータセットを使ってしまって本義に悖る内容になってしまったので(笑)、今回はUCIのデータセットを使ってみることにします。そのデータがこちら。 Credit Approval Data Set Data set descriptionを見ると、こ…
「データサイエンティストはつらいよ」、注目職種も求人が多くない理由 なかなか刺激的な翻訳記事が出ていたようで。ちなみに本家版の原典記事はこちら。 Data science jobs not as plentiful as all the hype indicates 大体こういう話をするとよく炎上する…
今やKaggleやKDD cup以下名だたる機械学習コンペで絶大な人気を誇る分類器、Xgboost (eXtreme Gradient Boosting)。特にKaggleのHiggs Boson Machine Learning Challengeの優勝チームが駆使したことで有名になった感があるようで。 その実装ですが、C++ベー…
ここ数日KaggleのOttoを暇潰しにやってみたりした都合で{xgboost}も初挑戦してみたんですが、そのインストールの際に猛烈にトラブったケースが幾つかあったので備忘録的に記事に書き起こしておきます。実は英語圏でもあまりまとまった記事がないというか、元…