データ駆動知能システム研究センター

お使いのWebブラウザでは、当サイトの内容の一部が表示されない、リンクが機能しないなどの問題が発生することがあります。

お使いのWebブラウザではJavaScriptが無効になっています。当サイトの内容の一部が表示されない、リンクが機能しないなどの問題が発生することがあります。

情報通信研究機構
データ駆動知能システム研究センター

----

データ駆動知能システム研究センターでは、Web等に存在する大量のテキストを深く意味的に分析し、情報の価値ある組み合わせや、価値ある仮説を柔軟な入力を元に提示できる技術を開発しています。ますます複雑化していく現代社会において、一見かけ離れた情報間の予想もしなかった繋がりが非常に重大な帰結をもたらす事例がますます頻繁におきています。我々の目指す技術はそうした情報間の組み合わせをユーザに分かりやすい形で入手可能にするものです。より具体的には、文の同義性やテキストに書かれた因果関係などの事象間の意味的関係を元に、ユーザの多様なニーズに応えられる情報やその組み合わせ、あるいは仮説を、Web等に存在する膨大な情報源をもとに生成する技術です。こうした技術の開発には先進的な言語処理技術、膨大な言語資源が必要となりますが、これまでに開発してきた最先端技術や、関連分野を研究する公的機関としては日本最大級の計算リソースを用いてこれらの研究開発に挑んでいます。

代表的な成果は以下の3点です。1. 大規模言語モデルNICT LLM2. 高齢者介護支援マルチモーダル音声対話システムMICSUS3. 大規模Web情報分析システムWISDOM X 深層学習版

NEWS & TOPICS

New NICTで開発中の大規模言語モデルに関して、鳥澤フェローが共同通信によるインタビューに答えた記事が各新聞に掲載されました ()

北國新聞の「震災デマを考える」特集にて、能登半島地震の際のSNS上でのデマ投稿の分析に関する鳥澤フェロー、大竹センター長のインタビュー記事が掲載されました ()

北國新聞の特集「〈1.1大震災〉【日本海側からのSOS・第16章 震災デマを考える(255)】」にて、災害状況要約システムD-SUMMを用いた能登半島地震の際のSNS上でのデマ投稿の分析に関する鳥澤フェロー大竹センター長のインタビュー記事が掲載されました。

asahi.comの認知症に関する連載記事の中で、高齢者向け対話AIシステムMICSUS(ミクサス)が紹介されました ()

asahi.comの連載「認知症とテクノロジー 暮らしを支える」の第一回の記事「認知症ケアにロボットは有用か デンマークで気づいた可能性」にて、NICTがKDDIなどとともに開発した高齢者向け対話AIシステムMICSUS(ミクサス)が紹介されました。MICSUSは、触覚・ふれあいといった非言語のコミュニケーションを重視するロボット「LOVOT」との対比で、介護の現場で実際に言語を発して対話できるロボットの例として取り上げられ、シャープのロボット「ロボホン」に搭載してKDDIが実施した実証実験の様子などが紹介されています。

内閣府AI制度研究会において、鳥澤フェローがAIをめぐる法制度に関する発表を行いました ()

内閣府AI制度研究会の第2回会合において、鳥澤フェローが、人工知能研究開発ネットワーク(AI JAPAN)のメンバーとしてAIをめぐる法制度に関する発表を行いました。

日経新聞の「私見卓見」コーナーに「『正義志向するAI』を国産で」と題した鳥澤フェローの寄稿が掲載されました ()

日経新聞のオピニオンセクション「私見卓見」コーナーに、「『正義志向するAI』を国産で」と題した鳥澤フェローの寄稿が掲載されました。

災害状況要約システムD-SUMMを用いた能登半島地震の際のSNS上でのデマ投稿の分析が、朝日新聞やCBCラジオなど、多くのマスコミで紹介されました ()

災害状況要約システムD-SUMMを用いた能登半島地震の際のSNS上でのデマ投稿の分析が、朝日新聞や東京新聞、信濃毎日新聞の社説、CBCラジオ、Webニュースなど、様々な媒体で紹介されました。日テレNEWS NNNの記事には、鳥澤フェローのインタビューも掲載されています。

読売新聞朝刊一面に、災害状況要約システムD-SUMMを用いた能登半島地震の際のSNS上でのデマ投稿の分析に関する記事が掲載されました ()

読売新聞朝刊一面の記事「能登半島地震の救助要請、SNS投稿の1割は偽情報…閲覧数を増やし収益を得る目的か」にて、災害状況要約システムD-SUMMを用いた能登半島地震の際のSNS上でのデマ投稿の分析が紹介されました。

KDDIと大規模言語モデルに関する共同研究を開始しました ()

この度NICTは、KDDI株式会社と、大規模言語モデル(LLM:Large Language Model)に関する共同研究を開始しました。この共同研究では、NICTがこれまでに蓄積してきた600億件以上のWebページ等と、KDDIが開発してきたハルシネーション抑制技術、マルチモーダルAI技術を活用し、高性能なLLMを実現するための研究開発を実施します。LLMの課題となっているハルシネーションの抑制や、多様なマルチモーダルデータの取扱いが可能な高性能なLLMを用いることで、特定の目的の対話を行うシステムや雑談を行うシステムの信頼性を向上させ、マルチモーダルデータを扱えるようにすることで、システムとのやり取りをより豊かにすることを目指します。詳細は、プレスリリース「NICTとKDDIが大規模言語モデルに関する共同研究を開始」をご覧ください。

大竹センター長が、近畿情報通信協議会会長表彰を受けました ()

大竹センター長が、総務省近畿総合通信局と近畿情報通信協議会共催の令和6年度「電波の日・情報通信月間」記念式典にて、 電波の利用及び情報通信の発展に貢献した個人として、近畿情報通信協議会会長表彰を受けました。 SNS上の投稿や対話の内容から災害関連情報の分析をリアルタイムに行う 対災害SNS情報分析システムDISAANA災害状況要約システムD-SUMMを開発するとともに、 被災情報の収集を行う防災チャットボットSOCDAを企業等と共同開発し災害時の安全確保及び救助活動に寄与するシステムの開発に多大な貢献をしたことが評価されたものです。

Preview for figure 表彰式の様子
表彰式の様子
Preview for figure 近畿情報通信協議会会長表彰 表彰状
近畿情報通信協議会会長表彰 表彰状

日経新聞日曜版掲載の防災DXに関する解説記事で、NICTによる能登半島地震の際のSNS上でのデマ投稿の分析結果が紹介されました。鳥澤フェローのコメントも掲載されています ()

日経新聞日曜版掲載の編集委員による防災DXに関する解説記事:サイエンス Next Views「防災DXの光と影 デマ克服し長所伸ばせ」で、災害状況要約システムD-SUMMによる能登半島地震の際のSNS上でのデマ投稿の分析に関する記事が掲載結果が紹介されました。 日本独自のAI開発の必要性を訴える鳥澤フェローのコメントも掲載されています。

青弓社より書籍「生成AIの論点 学問・ビジネスからカルチャーまで」が発売されました。鳥澤フェローが「NICTのLLMとその周辺」に関して紹介しています ()

青弓社より、11人のトップランナーが生成AIについてレクチャーする書籍「生成AIの論点 学問・ビジネスからカルチャーまで」が発売されました。 2023年9月24日に開催された日本学術会議による公開シンポジウム「生成AIの課題と今後」 における登壇者の講演内容が書籍化されたものです。 鳥澤フェローが、第2章「NICTのLLMとその周辺」を執筆しています。

日テレNEWS NNNに、「AIに多様性を 国産生成AI開発の意義を開発者に聞く」「生成AI・大規模言語モデルとは 人材獲得・開発競争は?」と題した鳥澤フェローのインタビュー記事が掲載されました ()

日テレNEWS NNNに、鳥澤フェローが国産生成AI・大規模言語モデル(LLM)開発の意義と課題などに関してインタビューに答えた記事が掲載されました。

総務省「デジタル空間における情報流通の健全性確保の在り方に関する検討会」において、鳥澤フェローがオブザーバーとしてプレゼンを行いました ()

月刊正論に、「複数の『正義』で『悪』を無効化する」と題した鳥澤フェローの寄稿が掲載されました ()

月刊正論 2024年5月号の特集「日本とAI」にて、「複数の『正義』で『悪』を無効化する」と題した鳥澤フェローの寄稿が掲載されました。

沿革

2008年(平成20年)
知識創成コミュニケーション研究センター 言語基盤グループが発足(グループリーダー 鳥澤健太郎)。
音声・言語処理の基盤となる大規模な言語資源の構築・公開、及びその作成・活用に資する言語処理技術を研究。その成果として音声質問応答システム「一休」などのシステムを開発。
2011年(平成23年)
ユニバーサルコミュニケーション研究所 情報分析研究室が発足(室長 鳥澤健太郎)。
Web等に存在する大量のテキストを深く意味的に分析し、情報の価値ある組み合わせや、価値ある仮説を柔軟な入力を元に提示できる技術の研究、開発。
2015年(平成27年)
大規模Web情報分析システムWISDOM Xの試験公開を開始(3月31日)。 対災害SNS情報分析システムDISAANAの試験公開を開始(4月8日)。
2016年(平成28年)
ユニバーサルコミュニケーション研究所 データ駆動知能システム研究センターが発足(センター長 鳥澤健太郎)。
次世代音声対話システムWEKDAの研究開発を開始。 災害状況要約システムD-SUMMの試験公開を開始(10月18日)。
2018年(平成30年)
SIP第2期「国家レジリエンス(防災・減災)の強化」において国立研究開発法人防災科学技術研究所、株式会社ウェザーニューズ、LINE株式会社と協力して、SNS上で災害関連情報の収集、配信等を自律的に行う防災チャットボットSOCDAの研究開発を開始。
SIP第2期「ビッグデータ・AIを活用したサイバー空間技術」においてKDDI株式会社、NECソリューションイノベータ株式会社、株式会社日本総合研究所と協力し、次世代音声対話システムWEKDAの雑談応答技術も活用しつつ、高齢者の健康状態のチェックや社会的孤立の回避を狙ったマルチモーダル音声対話システムMICSUSの研究開発を開始。
2021年 (令和3年)
WISDOM X 深層学習版の試験公開開始。自動並列化深層学習ミドルウェアRaNNCをリリース(3月31日)。
研究センター長に大竹清敬が就任(4月1日)。
2023年 (令和5年)
大規模言語モデルNICT LLMの研究開発を開始。

代表的な成果 1. 大規模言語モデルNICT LLM

NICT LLMは、WISDOM XMICSUSなどの開発で培った高精度な言語処理・深層学習技術と、構築済みの350GBもしくは888GBの高品質な独自の日本語Webテキストを用いて開発した、NICT独自の生成系大規模言語モデルです。 これまでに、130億パラメータから1,790億パラメータ(OpenAI社のGPT-3と同等規模)、さらには日本語特化型では世界最大規模の大規模言語モデルとなる3,110億パラメータまで、パラメータ数を変えたさまざまなモデルの事前学習を完了し、特にファインチューニング等を行わなくても、事前学習のみで一定の精度で質問応答、創作、議論等が可能なことを確認し、また、モデルの大規模化と学習用テキストの大規模化に伴う性能向上を確認しています。

このNICT LLMの開発に関して2023年7月にプレスリリース「日本語に特化した大規模言語モデル(生成AI)を試作」を実施、多くの新聞やネットメディアで報道されています。 NHKニュース7でも当研究センターの活動が紹介されました。

現在、偽情報を生成するハルシネーション等の生成系大規模言語モデルの副作用の抑制を目指して、WISDOM Xを活用した情報を確認する機構や、複数のLLM同志が議論を行って最終的な情報を生成するシステムの検討にも着手しています。また、NICT LLMおよび関連技術の社会実装に向け、MICSUSなどの対話システムへの導入を計画するとともに、NICTで収集・開発した言語資源や言語モデル、研究知見などを共同研究等を通して民間等に提供する準備も進めています。2024年7月1日にKDDIとの共同研究を開始しました。

Preview for figure NICT LLMの動作例(質問応答、創作、要約等)
NICT LLMの動作例(質問応答、創作、要約等)
Preview for figure NICT LLMの動作例(LLMとユーザとの議論)
NICT LLMの動作例(LLMとユーザとの議論)

代表的な成果 2. 高齢者介護支援マルチモーダル音声対話システムMICSUS

MICSUSは、異次元の高齢化が進み介護人材の逼迫が喫緊の課題となる中、現在は人間の介護者(ケアマネジャー)が月一回程度面談で行なっている、 介護モニタリングと言われる高齢者の健康状態や生活習慣のチェックの一部を音声対話を通じて代替し、介護者の作業負担を軽減するための対話システムです。 また、Web情報を用いた雑談も行い、高齢者のコミュニケーション不足の抑制も狙っています。 内閣府戦略的イノベーション創造プログラム(SIP)第2期の支援により、KDDI株式会社、 NECソリューションイノベータ株式会社、株式会社日本総合研究所と共同で開発しました。

音声認識誤りに頑健な独自開発のHBERTを300万件のオリジナル学習データでファインチューニングしたモデルを活用し、遠まわしな言い回しなどを含む様々な発話に対して高精度な意味解釈を実現し、 高齢者との対話から健康状態や生活習慣の情報を適切に抽出します。 2022年度に全国各地の高齢者179名を対象に実証実験(総対話時間95.3時間、26,704ターン)を実施して評価を行いました。 実施後のアンケートで5段階中4.2と高評価をいただくとともに、言語処理の部分ではYES/NO疑問文への回答を93.5%の高精度で正しく意味解釈できています。 雑談的応答に関しても、91.8%が雑談として適切、25.4%に対して高齢者が笑顔を見せるなど、51.9%に対して高齢者が好意的反応を示し、雑談のクオリティは良好と言えます。

また、CEATEC2022、HANAZONO EXPO、けいはんなR&Dフェア2023など、 様々なイベントに出展して多くの家族づれや介護関係者にMICSUSとの対話を体験していただいています。

今後も、多数の民間企業と連携して本技術の社会実装に向けた強化を進めるとともに、さまざまな社会課題の解決、回避に向け、言語、音声の高度かつ高精度な意味的処理の実現を目指して研究開発を行います。 研究開発成果を、要素技術単位でKDDIをはじめとするさまざまな企業、組織にライセンス等を通して提供し、技術の社会実装に取り組んでいきます。 また、大規模言語モデルなどの最新の言語処理技術の応用も図っていきます。

Preview for figure 高齢者介護支援マルチモーダル音声対話システムMICSUS
高齢者介護支援マルチモーダル音声対話システムMICSUS

高知県日高村での実証実験の様子(KDDI提供)

MICSUSの詳しい紹介は、以下のサイトや動画をご覧ください。

研究紹介ムービー『NICTステーション ~MICSUS~』(NA上白石萌音)

マルチモーダル音声対話システムMICSUS紹介動画

代表的な成果 3. 大規模Web情報分析システムWISDOM X 深層学習版

2021年3月31日より、Web60億ページの情報を基に様々な質問に回答することができる大規模Web情報分析システムWISDOM X(ウィズダムエックス)「深層学習版」の試験公開を開始しました。 2015年3月31日より試験公開しておりましたバージョンでは、Web40億ページの情報を基に「なに」「なぜ」「どうなる」といったタイプの様々な質問に回答することが出来ましたが、「深層学習版」では、新たに「どうやって」(How-to)型の質問にも対応しました。 これらの様々な質問応答を通して関連情報の全体像を迅速かつ容易に把握できるようにし、価値ある想定外の発見も容易にします。 WISDOM Xは、近年、重要性を増しているイノベーションやリスク管理といった不確実性に対処する作業において価値ある考えるヒントを提供できると考えています。

2023年6月12日にニアリアルタイム解析を導入し、収集したWebページを即時に解析し、WISDOM Xの分析対象とするようにしました。 これにより一部の最新の情報に対しても質問の回答が行えるようになっています。 (ただし、収集した時点で最新情報かどうかはわかりませんので、最新情報がすべて検索可能になっているわけではありません。)

2023年12月18日に深層学習モデルを更新しました(分析対象はWeb176億ページ以上)。「なぜ?」、「どうやって?」タイプの質問において実験では精度が5%以上向上しています。

深層学習版の詳細につきましては以下のリンクをご覧ください。

Preview for figure 質問「AIが解決できそうな高齢化の問題は何がある?」への回答
質問「AIが解決できそうな高齢化の問題は何がある?」への回答
Preview for figure 質問「チーズとネギがあるけど、つまみになにをつくったらいいかな?」への回答
質問「チーズとネギがあるけど、つまみになにをつくったらいいかな?」への回答