LogoLOGO

TOPICS & NEWS

News & Topics 【OpenAI】GPT-4o – 進化を続ける生成AI
TOPICS & NEWS

2024.05.28

【OpenAI】GPT-4o – 進化を続ける生成AI

2024年5月、OpenAIが、ChatGPTの最新モデルである「GPT-4o」をリリースしました。

テキスト、音声、画像を統合的に処理可能な最先端のマルチモーダルAIであり、無料版ChatGPTにも実装される点が注目されています。

GAFAをはじめ日本の企業でも新設ラッシュのデータセンターに大きな影響を与える生成AI、その代表格であるOpenAIのChatGPT最新バージョン「4o」は従来のものと何が違うのか、見ていきたいと思います。

 

GPT-4oとは?

 

ChatGPT-4o(Omni、オムニ)とは、2024年5月にOpenAIが発表したChatGPTの最新モデルです。オムニとはラテン語で「全て」という意味であり、文章だけでなく画像や音声も含む全ての情報を取り扱い、あらゆるタスクを実行できることを表しています。

 

従来のモデルであるGPT-4 Turboに比べて、圧倒的に回答精度と回答スピードが向上したことに加え、人間のように感情豊かに音声会話ができ、画像の細かい部分まで読み取るなど、あらゆる点においてバージョンアップしています。

 

GPT-4oの特徴と他のモデルとの違いは?

 

GPTシリーズは、OpenAIが開発する大規模言語モデルであり、その性能向上は目覚ましいものがあります。

 

2020年に発表されたGPT-3は、175Bのパラメータを持つ大規模モデルとして注目を集めました。2022年のGPT-3.5では、ChatGPTに実装され、一般ユーザーとの対話を通じて言語生成AIの可能性を広く知らしめました。そして2023年のGPT-4では、マルチモーダル化への第一歩が示されました。

 

GPT-4oは、このGPTシリーズの進化の延長線上に位置づけられます。ただし、単なる性能向上にとどまらず、音声・画像・テキストのスムーズな統合処理を実現した点で、従来のGPTとは一線を画しています。

 

従来のモデルと比べて大幅に向上した主要な評価ポイントを以下に紹介します。

 

 テキスト精度

複雑な文章の理解と生成において高い精度を誇ります。これにより、より自然で一貫性のあるテキスト生成が可能となります。

執筆に欠かせない記事構成案も簡単に作成することができます。

 

 テキスト・音声の応答速度

新しいアルゴリズムにより、テキストおよび音声の応答速度が改善され、リアルタイムでの対話がさらにスムーズになりました。また、音声に抑揚があるので、人と会話しているような感覚にもなります。

 

 音声認識と翻訳機能

音声認識機能の精度が向上し、多言語対応の翻訳機能も強化されています。これにより、グローバルなコミュニケーションがより効率的に行えます。

音声を認識し処理を行うことで、リアルタイムに翻訳することも可能です。

 

 画像の認識機能強化

画像認識能力も強化されており、画像の内容を高い精度で解析し、関連する情報を提供することができます。

画像データから文字を抽出することも可能です。読み取りづらい文字に関しては、その他の画像データから推測して文字を抽出することができます。

 

 セキュリティ機能

日本語を含む20言語で新しいトークナイザーが導入され、セキュリティ面でも大幅な改良が施されています。これにより、データの安全性と処理効率が向上したとともに、ユーザーのプライバシーを保護しつつ、高速で安全なデータ処理が可能になりました。

 

進化するChatGPT

 

画像処理能力の向上や音声認識機能の追加など、今回のアップデートで驚かされる機能がたくさん追加されたChatGPT。

今後はリアルタイムビデオを介して会話できるようになり、読み込ませた動画の内容を音声で解説させることができる新しい音声モードのリリースも予定されています。

生成AIを牽引しているChatGPTの展開は今後のデータセンターにも大きく影響を与える要素になりますので、その様子は今後も随時ウォッチしていきたいと思います。

 

一方、今後さらに開発される新機能に期待が膨らむなか、消費電力は今までの何倍にも膨れ上がっていくことが予想されます。

日本においては新たに開設されるデータセンターの電力不足をどう解消していくのか。

こちらも併せて注視していきたいと思います。

dil_admin

TOPICS & NEWS