OpenAIは米国時間5月13日、ライブストリーミングイベントを開催し、生成AI「ChatGPT」の無料版に対する大規模なアップデートを発表した。音声や画像の支援にも対応することでマルチモーダル機能を提供する。
同イベントの最大の目玉は、OpenAIの新たな大規模言語モデル(LLM)「GPT-4o」の発表だった。同モデルはGPT-4と同等のインテリジェンスを持ちながら、パフォーマンス向上やテキスト、音声、視覚にまたがるマルチモーダル機能など、従来のモデルから機能強化が図られている。
We're opening up access to our new flagship model, GPT-4o, and features like browse, data analysis, and memory to everyone for free (with limits). https://t.co/H2dB6w7Ynz
— OpenAI (@OpenAI) May 13, 2024
また、今回のアップグレードによって、月額20ドルのChatGPT Plus向けに提供されていた機能のほとんどが無料ユーザーにも提供されるようになる。
例えば、無料ユーザーは、GPT-4レベルのインテリジェンスを活用したり、「ChatGPT Browse with Bing」でウェブから応答を取得したり、データを分析したり、写真やドキュメントについてチャットしたり、「GPTs」を利用したり、「GPT Store」にアクセスしたりできるようになる。これまで、これらの機能は全てChatGPT Plusユーザーのみが利用できるものだった。
Plusユーザーは引き続き、無料ユーザーの5倍の容量を利用できる。加えて、GPT-4oへの優先アクセス、新しい「macOS」アプリなどのアップグレードも含まれる。一方で、無料ユーザーはGPT-4oの容量がいっぱいになるとGPT-3.5に戻される。
GPT-4oは、PlusとTeamユーザーは同日から、Enterpriseユーザーは近日中に利用可能となるという。無料ユーザーにも展開されるが、幾つかの利用制限がある。
ライブストリームで注目を集めたのは、GPT-4oの新しいビデオと音声機能で大幅に強化されたVoice Modeだった。これまでのVoice Modeとは異なり、ユーザーはより自然な会話を体験できるようになった。例えば、ユーザーは音声アシスタントの会話に割り込んだり、さまざまな音声で話させたりすることができる。デモでは、音声アシスタントの歌声や「ドラマチックなロボットボイス」などのトーンが披露された。
AIアシスタントはまた、ユーザーの環境を文脈として活用し、音声で応答することができる。次のデモでは、ChatGPTのVoice Modeがユーザーとチャットしながら、彼が何を着ているか、どこに座っているかなど、周囲の環境について詳しく説明するのを聞くことができる。
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
改良されたVoice Modeは、今後数週間のうちにアルファ版で展開される予定で、ChatGPT Plusのユーザーはいち早くアクセスすることができる。
さらに、同社は同日から、ChatGPT Plusユーザー向けに新しいmacOSアプリをリリースしており、今後数週間のうちに提供範囲を拡大していく予定だ。「Windows」版の提供は2024年後半の見込みとなっている。
提供:OpenAI
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。