YJTC18 D-4 AnnexML: 近似最近傍検索を⽤いたextreme multi-label分類の⾼速化 | PPT | Free Download
Submit Search
YJTC18 D-4 AnnexML: 近似最近傍検索を⽤いたextreme multi-label分類の⾼速化
•
Download as PPTX, PDF
•
4 likes
•
2,485 views
Yahoo!デベロッパーネットワーク
Follow
Yahoo! JAPAN Tech Conference 2018 D-4 セッションのスライドです。
Read less
Read more
1 of 22
Download now
More Related Content
YJTC18 D-4 AnnexML: 近似最近傍検索を⽤いたextreme multi-label分類の⾼速化
1.
AnnexML: 近似最近傍検索を用いた Extreme Multi-label分類の高速化 田頭
幸浩
2.
自己紹介 • 田頭 幸浩(たがみ
ゆきひろ) • 機械学習技術の実サービス適用 およびそのための技術開発
3.
取り組む問題とその背景
4.
背景 • ヤフーのサービスの様々な場所で、機械学習技術を用いた レコメンデーションやランキングが行われている レコメンドされたニュース記事 例:スマホ版トップページ インフィード広告
5.
背景 • ユーザー体験を損なわないように、限られた時間の中で、 大量の候補の中からユーザーにマッチしたアイテムを選択すること が求められる 各リクエストに対し 10〜100ミリ秒程度で 応答 アイテムの候補数は 1000万から数億にも 幅広い層の ユーザー集合
6.
よく用いられるシステム構成 • 学習済みモデルと検索インデックスを組み合わせることで、 膨大な候補の中から予測スコアが高い少数のアイテムを 高速に取得可能 高速な応答が可能な レコメンドエンジン レコメンドモデルの学習 検索インデックスの構築
7.
よく用いられるシステム構成の課題 • 2段階の最適化で、精度と速度を担保しているので、 どちらの点でもベストとは言えない レコメンドモデルの学習 検索インデックスの構築
高速な応答が可能な レコメンドエンジン 最適化1(精度) 最適化2(速度)
8.
より良いシステム構成 • 予測モデルの学習と検索インデックスの構築を同時に行う ことで、精度と速度のさらなる最適化が行えるようにしたい 学習と構築を同時に行う さらに高精度かつ高速な レコメンドエンジン 統合された最適化
9.
Extreme Multi-label分類と AnnexML
10.
Extreme Multi-label分類 • Extreme
multi-label分類は、膨大な候補の中から 当てはまるものを選択する問題 • レコメンデーションやランキングもこの問題と見なすことができる ので、以降はレコメンデーションの例で説明 • Machine learning • Cybernetics • Learning 例:Wikipediaのページにカテゴリを付与 数十万の候補
11.
AnnexML • AnnexMLはk近傍法によるextreme multi-label分類器 •
Approximate Nearest Neighbor Search for Extreme Multi-label Classification 探索 レコメンド対象の ユーザー 興味が既知のユーザーの中で 行動履歴が似ているユーザー(k=3の例) 推定
12.
AnnexML • 既存手法のSLEECをベースに、学習および予測時に グラフ構造を用いることで予測精度と速度の両方を改善 探索 レコメンド対象の ユーザー 興味が既知のユーザーの中で 行動履歴が似ているユーザー(k=3の例) 推定
13.
予測速度と精度の比較 予測精度の向上予測速度の向上 58倍の高速化+30%の精度向上
14.
AnnexMLの構造 • Coarse Partitionerを用いて クエリが含まれるpartitionを判定 •
Treeインデックスを用いて 近似的に近傍点を獲得 • Graphインデックスを用いて 近似精度を高める(局所探索) Coarse Partitioner Tree Graph Tree Graph Tree Graph
15.
学習方針 • 行動履歴をもとに計算される類似度関数の値が、 似た興味を持つユーザー間で高くなるようにしたい 類似度高 類似度高 推定 学習
予測
16.
学習方法の概要 • Coarse Partitionerの学習 •
興味が似たユーザーが同じpartitionに入るようにしたい • 特徴量空間上でのグラフカット問題として定式化 • FTRL-Proximalアルゴリズムでマルチクラス分類器を学習 • 各partition内での学習 • 似た興味を持つユーザーの類似度が高くなるようにしたい • グラフ構造上でのランキング問題として定式化 • AdaGrad+SGDで類似度関数内の射影行列を学習
17.
実験結果:予測精度の比較
18.
実験結果:予測速度の比較
19.
手法と実験結果の詳細は論文にて https://dl.acm.org/citation.cfm?id=3097987
20.
OSSとしてコードを公開 https://github.com/yahoojapan/AnnexML
21.
まとめ • ユーザー体験向上のために、高速かつ高精度な レコメンデーションやランキング技術が不可欠 • 機械学習モデルの学習と検索インデックスの構築を統合した AnnexMLを開発した •
既存手法のSLEECと比較して、 速度で58倍、精度で+30%程度の性能向上を達成した
Download