国立情報学研究所(NII)が、独自のフルスクラッチ学習を実施した大規模言語モデル(LLM)の開発を進めている。2024年9月17日、プレビュー版の「LLM-jp-3 172B beta1」を公開した。パラメーター数は約1720億で、米OpenAI(オープンAI)の「GPT-3」に匹敵するという。NIIは「学習データを含めすべてオープンにしたモデルとしては世界最大」としており、透明性・信頼性のあるLLMを目指す。

 公開したプレビュー版は、用意した約2兆1000億トークンの学習データのうち、約3分の1までの学習を行った段階のものだという。今後も学習を継続し、全データの学習を行ったモデルを2024年12月頃に公開する計画だ。

「llm-jp-eval v1.3.1」による評価結果
「llm-jp-eval v1.3.1」による評価結果
(出所:国立情報学研究所)
[画像のクリックで拡大表示]

 学習データとしては日本語や英語をはじめとして中国語、韓国語、プログラムコードを用意した。学習に用いたデータはWebサイトで公開している。LLMの日本語性能を評価するツール「llm-jp-eval v1.3.1」では、今回公開したプレビュー版は0.548を達成した。モデル構築・評価に関わる研究者は、現在の性能向上の傾向が続けば約2兆1000億トークンの事前学習が終了した時点で、llm-jp-eval v1.3.1による評価において「GPT-3.5 Turbo」の一種である「gpt-35-turbo-16k」の値を超えるスコアを達成すると予測している。

 公開したLLMは、NIIが主宰するLLM勉強会(LLM-jp)が中心となって開発している。LLM勉強会には、自然言語処理及び計算機システムの研究者を中心として、大学や企業などから1700人以上が参加している。