OpenAIは、「ChatGPT」や「Copilot」といった最も人気の高いAIチャットボットのいくつかを動作させるのに利用されている高度な大規模言語モデル(LLM)で最も知られている。マルチモーダルモデルは、視覚アプリケーションの新たな範囲を解き放つことでチャットボットの能力を新たな段階に引き上げることができ、OpenAIは一つのモデルを開発者に対して利用可能にした。
OpenAIは米国時間4月9日、「GPT-4 Turbo with Vision」が「OpenAI API」を通じて開発者に一般提供されたとX(旧Twitter)の投稿で発表した。同モデルは、最新の「GPT-4 Turbo」モデルにビジョン機能を追加したもの。
この最新モデルでは、GPT-4 Turboの12万8000トークンウィンドウと2023年12月までの知識という制限に変わりはない。主な違いはビジョン機能で、画像やビジュアルコンテンツの理解が可能になっている。
GPT-4 Turbo with Visionが利用可能になる前は、開発者はテキストと画像のために別々のモデルを呼び出す必要があった。現在、開発者は、両方に対応する一つのモデルを呼び出すだけでよく、プロセスを簡略化し、幅広いユースケースに向けて扉を開くことができる。
OpenAIは、開発者が同モデルを使用している方法の一部を紹介しており、それらは非常に魅力的だ。
例えば、AIソフトウェアエンジニアリングアシスタントのDevinさんは、コーディングのよりよい支援を目的にGPT-4 Turbo with Visionを使っている。健康・フィットネスアプリ「Healthify」では、GPT-4 Turbo with Visionを使って、ユーザーの食事の写真をスキャンし、写真認識を通じて栄養に関するインサイトを提供している。最後にMake Realでは、GPT-4 Turbo with Visionを使ってユーザーの描いた絵を実際に動作可能なウェブサイトに変換している。
Devin, built by @cognition_labs, is an AI software engineering assistant powered by GPT-4 Turbo that uses vision for a variety of coding tasks. pic.twitter.com/E1Svxe5fBu
— OpenAI Developers (@OpenAIDevs) April 9, 2024
GPT-4 Turbo with Visionモデルは、ChatGPT内部でも一般に向けて提供されていないが、OpenAIは、ChatGPTでもまもなく利用可能になることを明らかにしている。GPT-4 Turbo with Vision APIを使ってみたい開発者は、こちらでどのようにすればよいか知ることができる。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。