数学を教え「気を引くような」応答も 米オープンAI、最新「GPT-4o」発表

チャットGPTのロゴ

画像提供, Getty Images

ゾーイ・クラインマン、テクノロジー担当記者

生成AI(人工知能)のチャットGPTを手掛ける米企業オープンAIは13日、新モデル「GPT-4o」を発表した。無料版も含め、全ユーザーを対象に展開されるという。

GPT-4oでは旧モデルよりも性能が向上して高速化し、人間の会話のような音声になるようプログラミングされている。時には気を引くような口調で応答することもあるという。

新モデルは画像を読み込んで議論したり、言語を翻訳したりでき、視覚的表現から感情を識別することも可能。過去のプロンプト(質問や指示内容)を呼び起こすことができるメモリも搭載されている。

チャットGPTの応答を途中で遮ることもでき、会話のリズムもこれまでより取りやすい。質問してから回答を得るまでに遅れも生じない。

不具合

GPT-4oの音声機能を使ったライブ・デモでは、紙に書かれた簡単な方程式を単に解くのではなく、その解き方について有効な提案をした。コンピューター・コードを分析し、イタリア語と英語の翻訳をし、笑顔の男性の自撮り写真から感情を解釈するなどした。

温かみのあるアメリカ人女性の声で、調子はどうか尋ねてきた。ほめると、「やめてください、照れちゃいます」と答えた。

新モデルは完璧なものではなく、笑顔の男性を木製の物体の表面と勘違いしたり、まだ提示していない方程式を解き始める不具合もみられた。チャットボットの信頼性や安全性を損なう可能性のある不具合やハルシネーション(事実に基づかない情報を生成する現象)が解決されるにはまだ課題が残っていることが、意図せずあらわになった。

しかし、まさに今回示されたのは、「Siri(シリ)」や「heyAI」、グーグルなどのような、過去に言われたことを記憶して音声やテキストを超えた対話が可能な次世代のAIデジタル・アシスタントにすることを意図した、オープンAIの方向性だと、私は考える。

カメラに映っていない、拍手や歓声を上げる熱狂的な聴衆と一緒になって、みんなが気づかないふりをしていたのが、この技術がもたらす環境破壊という代償だ。

AIは従来のコンピューティング・タスクよりも電力を消耗する。そしてAIが洗練されればされるほど、コンピューティング・パワーがもっと必要になる。そのことを我々は知っている。新モデルが発表されたこの日、持続可能性についての言及はなかった。

非神秘化

米富豪イーロン・マスク氏が開発した「Grok」や、英人工知能開発企業DeepMindの共同創業者ムスタファ・スレイマン氏の「Pi」のようなチャットボットは、製品の「個性」を優先したものだ。一方でGPT-4oは、テキストや音声、画像の組み合わせをシームレスに処理し、即座に応答するもので、オープンAIが競合他社より一歩リードしているように見える。

当然、我々は現時点では、同社側の主張、同社によって慎重に監修・管理された同社のデモでしか、GPT-4oを判断することができない。新モデルがすでにチャットGPTを利用している何百万人という規模にどのように対処するのか、今後の展開が注目される。

オープンAIのミラ・ムラティ最高技術責任者(CTO)は、GPT-4oを「魔法のようなもの」と評しつつ、同社は製品展開とともに「その神秘主義を取り除く」と付け加えた。

興味深い、感情に訴える言葉の選択だ。AI技術は急速に、さらに洗練され、人間の仲間として説得力を増している。しかしそれは、知性があるものでも、魔法でもなく、複雑なプログラミングと機械学習によるものなのだ。

オープンAIとアップルがパートナーシップを結ぶのではないかとうわさされている。両社は認めていないが、オープンAIのプレゼンテーションの随所でアップル製品が使用されていた。

グーグルが最新のAI開発を披露するとしている年次カンファレンス「Google IO」の24時間前というタイミングで、今回のイベントが行われたのは、ライバル企業への威嚇射撃といえるだろう。