AI（人工知能）

無料で使える「GPT-4o」のこれまでとの違いを比較

最終更新日：: 2024/05/25

OpenAI社は5月14日の未明（日本時間）、最新のChatGPTとなる「GPT-4o」を発表しました。すでに使えるようになっており、当社のSEOに強いAIライティングツール「BringRitera（リテラ）」にも反映して試しました。

これまでと比べて様々な面でのパワーアップを実際に感じるので、使った感想も交えながら何が変わったのかについてご紹介したいと思います。

GPT-4oとは？

GPT-4oはOpenAI社が2024年5月14日（日本時間未明）にオンラインのSpring Updateイベントで発表した現時点で最新のChatGPTにおける大規模言語モデルです。

We're opening up access to our new flagship model, GPT-4o, and features like browse, data analysis, and memory to everyone for free (with limits). https://t.co/H2dB6w7Ynz
— OpenAI (@OpenAI) May 13, 2024

実際に使ってみるとまず感じるのが、スピードが圧倒的に早くなっていること。また、言葉遣いもより自然な感じに改善されているように感じます。
マルチモーダル入力で、テキスト以外に画像、動画、音声による入力が可能となっています。

これまでとの違い

それでは、これまでと具体的にどう変わるのかについてご紹介します。

利用範囲

これまで無料ユーザーはChatGPT-3.5しか利用できませんでしたが、GPT-4oが使えるようになりました。月額20ドルの「ChatGPT Plus」のユーザーは、利用制限が大幅に緩和され、無料ユーザーの5倍です。私はプログラミングを自分で行うときの補助でよく用いていて、入力文字数が多くなるので、割と制限に引っかかることが多かったため、助かります。ちなみに制限にひっかかると、一定時間使えなくなるという形となります。
企業向けのTeam、EnterPriseユーザーは、「ChatGPT Plus」よりもさらに、制限の緩和幅が多くなります。

マルチモーダル

テキスト以外に、音声、画像、動画による入力が可能となります。
画像、動画はすでに有料ユーザーは用いることができましたが、そこに音声が加わります。
無料ユーザーはこれまでテキストによる入力しかできませんでした。

音声入力

おそらく、最も注目を集めるのが音声入力です。あたかも人と会話しているかのような感覚が得られるという声が挙がっています。

声のトーンまで理解します。つまり、人間の感情を分析したうえでのやり取りをしてくれます。ちなみに、「人間の感情を理解」と最初書いたのですが、「人間の感情を分析」に書き換えました。AIが人間の感情を「理解」するという表現が正しいのか、と読み返して疑問に思ったからです。

音声入力は現時点ではまだ、全てのユーザーが使うことはできず、今後数週間以内にPlusユーザー向けに早期アクセスを提供する予定とのことです。

音声入力は、ブラウザでも拡張機能を用いることで利用可能ですが、スマホアプリであれば簡単に用いることができます。App Store（iOS）またはPlay ストア（Android）で「ChatGPT」と検索すると出てきます。

使い方をご紹介します。
まず、GPT-4oを選択します。

次に左上のメニューボタンを選択します。

アカウント名の隣のメニューボタンを選択します。

主な言語を選択し、日本語にします。デフォルトでは英語になっていて、ここで日本語に変更しないと、日本語で話しかけても英語で返ってきてしまいます。

設定が終わったら、入力画面でヘッドホンマークのボタンを押すと音声で会話ができます。

画像入力

以前、BringRitera（リテラ）が利用している画像生成AIで出力した画像を入力して、「これはどんな様子？」という質問をしてみた結果が次のものです。

水彩画風のタッチで描かれている
ノートパソコンを使って作業している若い女性
カジュアルな服装
リラックスした雰囲気でパソコンに向かっている
背景にはぼんやりとした光、室内での作業風景
温かみのある柔らかい色調が全体に使われており、落ち着いた、穏やかな雰囲気

という、実際に目に映る情報を正しくテキストで示してくれています。

性能

OpenAI社によると、GPT-4oは言語能力、推論能力、プログラミング能力に関してCPT-4 Turboを上回る性能があり、多くの項目でClaudeやGeminiを上回るとされています。

応答速度はOpenAI社によると最小232ミリ秒、平均320ミリ秒で、人の会話のスピードと同程度を実現しているとのことです。実際、体感的にも大幅に早くなっています。

API料金

API料金は以下の通りで、ChatGPT-4 Turboに比べて、なんと半額となります。ChatGPT-4 Turboは、ChatGPT-4に比べて半額だったので、従来のChatGPT-4に比べれば1/4にまで下がりました。

入力：5ドル／100万トークン
出力：15ドル／100万トークン

ChatGPT-4oを利用したサービス

ChatGPTを活用しているサービスはすぐに対応してくることでしょう。当社のSEOに強いAIライティングツール「BringRitera（リテラ）」は5/14朝時点ですでに反映済みです。おそらく最速じゃないでしょうか。この「スピード」も当社の強みです。

これまでより、３～５倍程度記事出力にかかる時間が短くなった体感です。
日本語の自然さについては、これまでより向上したような？してないような？という感じです。

まとめ

ChatGPTがまた一歩リードを広げた感じがします。ChatGPTがアクセス集中のためか調子が悪いときに、GoogleのGeminiもたまに試しますが、やっぱりダメだとそのたびに感じます。
ChatGPTに対抗できているのは現時点ではClaudeのみかなと私は思ってます。日本語の自然さではClaudeの方が上、という感想を持つ人が多いかと思います。しかし入力内容の解釈力など、総合力ではやはりChatGPTの方が上だと思ってまして、これでまた突き放したという感じがします。とはいえ、今後も競争は繰り広げられるでしょう。
日本ではNTTが日本語に特化した大規模言語モデル「tsuzumi」を出しています。ぜひ日本企業にも頑張ってもらいたいと思ってます。

いや、偉そうなこと言ってないで、お前が頑張れよ？さすがに大規模言語モデル開発は無理です。どれだけインフラに費用投じる必要があるんでしょうね。