NIIの大規模言語モデル研究開発センター、プレビュー版「LLM-jp-3 172B beta1」を公開|CodeZine(コードジン)
SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZineニュース

NIIの大規模言語モデル研究開発センター、プレビュー版「LLM-jp-3 172B beta1」を公開

  • X ポスト
  • このエントリーをはてなブックマークに追加

  • X ポスト
  • このエントリーをはてなブックマークに追加

 情報・システム研究機構 国立情報学研究所(NII)における大規模言語モデル研究開発センター(LLMC)は、プレビュー版「LLM-jp-3 172B beta1」を9月17日に公開した。

 プレビュー版「LLM-jp-3 172B beta1」は、同センターの主宰するLLM勉強会(LLM-jp)の成果として、これまでのデータ活用社会創成プラットフォーム「mdx」での130億パラメータモデルの学習、産業技術総合研究所の「第2回大規模言語モデル構築支援プログラム」によるAI橋渡しクラウド(ABCI)での1750億パラメータモデルの学習トライアルの成果を踏まえて、パラメータ数約1720億(GPT-3級)の大規模言語モデル(LLM)のフルスクラッチ学習を行ったもので、学習データを含めすべてオープンにしたモデルとしては、世界最大となる。

 経済産業省・NEDOのGENIACプロジェクトの支援によるクラウド計算資源(グーグル・クラウド・ジャパン)を利用して、約0.4兆トークンまでの事前学習を実施するとともに、文部科学省の補助金によって調達したクラウド計算資源(さくらインターネット)を利用して、約0.7兆トークンまでの事前学習およびチューニングを実施した。

 WebアーカイブCommon Crawl(CC)全量から抽出・フィルタリングした日本語テキスト、国立国会図書館インターネット資料収集保存事業(WARP)で収集されたWebサイトのURL(当該URLリストは同館から提供)を基にクロールしたデータ、日本語Wikipedia、KAKEN(科学研究費助成事業データベース)における各研究課題の概要テキストで構成される日本語約5920億トークンをはじめ、英語約9500億トークン、その他の言語約10億トークン、プログラムコード約1140億トークンの約1.7兆トークンに加えて、日本語コーパスのうち約0.4兆トークンは2回学習することで合計約2.1兆トークンでの学習が行われている。

 さらに、日本語インストラクションデータおよび英語インストラクションデータの和訳データ13種類を用いたチューニングが実施され、既存の日本語言語資源に基づく22種類の評価データを用いて横断的な評価を行うフレームワーク「llm-jp-eval v1.3.1」(LLM-jp開発)による評価では、今回公開する0.7兆トークン学習時点の事前学習モデルは0.548を達成した。また、GENIAC事業にて性能評価に用いられるフレームワーク「llm-leaderboard(g-leaderboardブランチ)」による評価では0.529を達成している。

 なお、今回公開されたモデルは、安全性の観点に基づくチューニングを行ったものではあるもののプレビュー段階であり、そのまま実用的なサービスに用いることが想定されていない。プレビュー版は、利用申請者に限定的なライセンスのもと提供される。

関連リンク

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
この記事の著者

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/20226 2024/09/24 12:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング