【2024年8月】生成AIチャットサービスの有料版比較:ChatGPT 4o、Gemini 1.5 Pro、Claude 3.5 Sonnet の特徴や性能の違いは?

※2024年8月13日更新

生成AIがますます日常生活やビジネスシーンで利用されるようになっています。それに伴いサービスの普及も急速に進んでおり、今の生成AIはどうなっているんだ?もうChatGPTは古い?といった状況になっている方もいらっしゃると思います。

そこで、今回は下記の生成AIの有料プランについて特徴や性能を比較していきます。

その他にも、LlamaGrokCopilotStable diffusion、など様々な生成AIが登場していますが、今回はその中でもチャットサービスに特化していて注目度の高い3つをピックアップしました。ぜひ参考にしてみてください。

各チャットAIサービスの特徴は?

Claude 3.5 sonnet – テキスト生成に特化したチャットAI

Anthropic社の最新AI「Claude 3.5 sonnet」はテキスト生成に特化したAIとなっています。中でも日本語入出力に定評があるため文章作成に向いているのと、Artifactsというプレビュー機能により資料作成やプログラミングに向いているのが特徴です。

メリット

  • 多くのベンチマークテストで競合よりもスコアが高い性能
  • 日本語の入出力精度に定評がある
  • Artifactsによるプレビュー機能でプログラミングや資料作成に使いやすい

デメリット

  • 画像生成ができない(画像認識は可能)
  • 音声出力ができない
  • 動画解析ができない

ChatGPT 4o – 万能型の高性能チャットAI

OpenAI社が提供するChatGPT 4oは動画以外のマルチモーダルに対応し、あらゆるベンチマークテストで高水準なスコアを出していることが特徴です。

また、GPT Storeという他のユーザーが作成したカスタムGPTを利用できることも利点で、自分でカスタマイズしなくともプロンプト指示を効率化できます。

メリット

  • 多くのベンチマークテストで高水準のスコア
  • 画像生成ができる
  • 音声入出力に対応、会話ができる
  • データ分析の精度に定評がある
  • GPT Storeで他のユーザーが作成したカスタムGPTを利用できる

デメリット

  • 動画解析ができない

Gemini 1.5 Pro – 大量のデータ処理に優れたチャットAI

Google社が提供するGeminiはマルチモーダルに対応し、大量のデータ処理ができるのが特徴です。Youtubeを提供していることもあり動画解析ができるのはGeminiのみです。(2024年8月時点)

また、短期記憶に優れており何十枚もあるPDFや大量のデータ処理にはGeminiが向いています。これはコンテキストトークンが約200万と競合に比べて圧倒的に多いことが理由です。(GPT -4o:約13万トークン、Claude3.5:約20万トークン)

メリット

  • 大量のデータ処理が可能(コンテキストトークンが200万)
  • 動画解析ができる
  • 画像生成ができる
  • 音声入出力ができる

デメリット

  • ベンチマークテストのスコアが他AIにやや劣る
  • 特定タスクへのカスタマイズが不可

*Geminiは2024年8月1日に最新モデル「Gemini 1.5 Pro Exp 0801」がGoogle AI Studioで使えるようになりました。Claude3.5やGPT-4oよりもChatbot Arenaでスコアを上回ったそうです。

料金比較

次に、各AIの料金プランを比較してみましょう。

Claude 3.5 SonnetChatGPT 4oGemini
1.5 Pro
個人プラン(月額)20ドル/名20ドル/名2900円/名
チームプラン(月額)30ドル/名
(年払い25ドル)
30ドル/名
(年払い25ドル)
無料オプション10回/5時間まで無料10回/5時間まで無料初回1ヶ月無料

チームプランは複数人の登録から使えるプランで、セキュリティの強化や使用量の増加などのメリットがあります。

基本機能比較

各AIの基本的な機能を見てみましょう。以下の表に、主要な機能の比較をまとめました。

Claude 3.5 SonnetChatGPT 4oGemini 1.5 Pro
テキスト生成
画像生成
音声出力
動画解析
コーディングサポート
大規模データ処理
カスタマイズ性◯(ClaudeProjects)◯(GPTs)✗*

*GeminiはGemsというカスタマイズ機能が近日搭載されることを発表しています。参考

各AIの性能評価を比較

各AIの性能評価を行うために、企業は「ベンチマークテスト」と呼ばれるテストを用いてスコアを公開しています。ベンチマークテストとは、AIモデルが特定のタスクに対してどれだけ効果的に対応できるかを評価するための指標です。こちらを使用して性能を比較していきましょう。

テキスト処理性能の比較
視覚データ処理能力の評価

画像引用元

テキスト処理性能の比較

AIのテキスト処理性能について、文章生成、プログラム生成、数学的推論などの能力を比較します。全体的にClaude3.5のスコアが高いことが分かり、ChatGPT 4oも高水準のスコアをだしており、正確な知識量や数学に関しては負けていない事がわかります。

要約した表グラフ

Claude 3.5 SonnetChatGPT 4oGemini 1.5 Pro
複雑な推論59.4%53.9%
正確な知識量88.7%
(5-shot*)
88.7%
(0-shot Cot*)
85.9%
(5-shot*)
文脈の理解87.183.474.9
プログラム生成92.0%90.2%84.1%
大学レベルの数学71.1%76.6%67.7%

*5-shot:5つの例題を与えた上でタスクを解かせる方法。
*0-shot Cot:事前に例題を与えずにタスクを解かせる方法。

要約に使用したベンチマークテスト

複雑な推論:GPQA
大学院レベルの高度な推論と理解のタスクに対するAIモデルの対応能力を評価するテスト

知識量: MMLU
広範な分野にわたる知識と、その知識を活用して問題を解決する能力を評価するテスト

文脈の理解: DROP
段落内の情報を基に具体的な質問に正確に解答する能力を評するテスト

プログラム生成: HumanEval
特定のタスクや関数を実行するためのコードを正確に生成する能力を評価するテスト

大学レベルの数学: MATH
基本的な計算から高度な数学的推論まで、様々な数学問題に対するモデルの性能を評価するテスト

視覚データ処理能力の評価

AIの視覚データ処理能力について、画像や文書内の視覚情報に基づく質問応答能力を比較します。プロンプトで画像ファイルを使用することも増えているかと思いますが、それを正確に認識しているかが分かります。こちらもClaude 3.5のスコアが高いことが分かります。

要約した表グラフ

Claude 3.5 SonnetChatGPT 4oGemini 1.5 Pro
文書理解95.2%92.8%93.1%
数学能力67.7%63.8%63.9%
正確な知識量68.3%69.1%62.2%
図表理解90.8%85.7%87.2%
要約に使用したベンチマークテスト

文書理解: DocVQA
文書内の視覚情報に基づく質問に正確に答える能力を評価するテスト

数学能力: MathVista
基本的な計算から高度な数学的推論まで、様々な数学問題に対するモデルの性能を評価するテスト

正確な知識量MMMU
複数の学問分野にわたるマルチモーダル(テキストと視覚情報を含む)理解力と推論力を評価するテスト

図表理解: ChartQA
チャートやグラフの情報を正確に理解し、質問に答える能力を評価するテスト

ベンチマークテストの内容一覧

比較されていたベンチマークテストの内容をまとめました。詳しく見たい方は参考にしてみてください。

テキスト処理のベンチマーク
GPQA

AIモデルの一般的な質問応答能力を評価するテストで、数値が高いと多岐にわたるトピックに対する正確性と一貫性が高いことを示します。

MMLU

AIモデルの幅広いタスクに対する理解力を評価するテストで、数値が高いと様々な分野で専門的な知識と推論能力が高いことを示します。

HumanEval

AIモデルのプログラム生成能力を評価するテストで、数値が高いと特定のタスクや関数を実行するためのコードを正確に生成できることを示します。

MGSM

AIモデルの小学校レベルの数学問題に対する理解と解答能力を評価するテストで、数値が高いと基礎的な算数問題に正確に解答できることを示します。

DROP

AIモデルの段落にわたる離散的な推論能力を評価するテストで、数値が高いと段落内の情報を基に具体的な質問に正確に解答できることを示します。

Big-Bench Hard

AIモデルの高度な推論と理解の能力を評価するテストで、数値が高いと複雑で挑戦的なタスクに対して効果的に対応できることを示します。

MATH

AIモデルの数学的推論能力を評価するテストで、数値が高いと基本的な計算から高度な数学的推論まで幅広い数学問題に正確に解答できることを示します。

GSM8K

AIモデルの小学校レベルの数学問題に対する理解と解答能力を評価するテストで、数値が高いと基礎的な算数問題に正確に解答できることを示します。このテストは、AIモデルが多ステップの数学的推論をどれだけ正確に行えるかを測定します。

視覚データ処理のベンチマーク
MathVista

AIモデルの数学的推論と視覚理解を評価するテストで、数値が高いと視覚的な数式や問題を正確に解釈し解答できることを示します。

AI2D

AIモデルの文章理解能力を評価するテストで、数値が高いと文章内の視覚情報を正確に読み取り、解釈できることを示します。

MMMU

AIモデルの複数の学問分野にわたるマルチモーダル(テキストと視覚情報を含む)理解力と推論力を評価するテストで、数値が高いと多様な学問分野において高度な知識と推論能力を持っていると言えます。

ChartQA

AIモデルのチャートやグラフに基づく質問応答能力を評価するテストで、数値が高いとチャートやグラフの情報を正確に理解し、質問に答えることができることを示します。

Document visual Q&A

AIモデルの文書内の視覚情報に基づく質問応答能力を評価するテストで、数値が高いと文書内の視覚情報を正確に理解し、質問に答えることができることを示します。

AI2D
AIモデルが文書内の視覚情報に基づいて質問に正確に答える能力を評価するためのテストで、数値が高いとモデルが視覚情報を正確に理解し、その情報を基に質問に適切に答える能力が優れていることを示します。

執筆にあたり参考にさせていただいた記事・動画一覧

宣伝:IT導入士の無料オンライン相談を実施中です

IT導入診断士として認定された専門家が、IT導入、販路開拓、補助金活用などのお困り事をお聞きします。専門用語を避けて分かりやすくご案内しますので、お気軽にご予約ください。

この記事を書いた人

株式会社ダブルノット