GPT-5.2 が発表されました。
OpenAI いわく「プロフェッショナルな知識労働と長時間エージェントのための最先端フロンティアモデル」。すでに ChatGPT と API で順次ロールアウトが始まっています。
前回の速報では機能全体を見ましたが、今回はあえて視点を絞って
「人間のプロより強いと言われる、その中身と現場インパクト」
にフォーカスしてまとめます。
目次
1|GPT-5.2 は何を目的に作られたモデルか
公式ページが繰り返し強調しているのは、次の一点です。
- プロフェッショナルな知識労働を支援すること
- しかも、エージェントとして長いタスクを最後までやり切ること
そのために GPT-5.2 は、次のような実務的タスクを重点強化しています。
- スプレッドシート作成と複雑な財務モデル
- プレゼンテーション資料の構成とレイアウト
- 実務レベルのコード生成とバグ修正
- 画像を含むダッシュボードや UI 画面の理解
- 何十万トークン級の長文コンテキスト処理
- 複数ツールをまたぐマルチステップのプロジェクト進行
これまでの「チャットで相談する AI」というイメージを越えて、
「アウトプットまで作ってくれる実務パートナー」へのシフトが明確になっています。
2|44職種で人間の専門家を上回ったという事実
今回の発表の中で最もインパクトが大きいのが、
GDPval という新ベンチマークでの結果です。
GDPval は
- 9業種
- 44の知識労働職種
- 実際の仕事に近いアウトプット(営業資料、会計スプレッドシート、シフト表など)
を対象に、
「人間のプロと比べてどちらが良い成果物を出したか」を評価するテストです。
ここで GPT-5.2 Thinking は
- プロと比べて勝ちまたは同等の割合が 70.9 パーセント
- 前世代 GPT-5 系の 38.8 パーセントから、ほぼ倍増
さらに重要なのは
- プロより 11倍以上の速度でアウトプットを出し
- コストは 1パーセント未満
という点です。
この数字が意味するのは
「人間が丸一日かける仕事を、数分〜数十分で、かなりの品質で出してくる」
という世界が現実化した、ということです。
3|スプレッドシートとプレゼンは、もう別次元
公式の例で特にわかりやすいのが、投資銀行アナリスト級のスプレッドシートタスクです。
- フォーチュン500企業の三表モデル
- レバレッジドバイアウト(LBO)モデル
- フォーマット整形や注釈・出典まで含めた完成度評価
といったタスクで、GPT-5.2 Thinking は GPT-5.1 より平均スコアが 9.3 パーセント向上
59.1 パーセントから 68.4 パーセントへ押し上げています。
また、ワークフォースプランニング(人員計画)などのスプレッドシート比較では
- 5.1 版は「とりあえず計算はできる表」
- 5.2 版は「実務でそのまま使えそうな構成とフォーマット」
にまで洗練されていることが、公式のサイドバイサイド例から分かります。
これは、単なる数式の正しさだけでなく
- 見出しの付け方
- シート構造
- どこを見れば状況を理解できるか
といった「資料としてのデザイン力」まで AI が学習してきている、ということです。
4|コーディング、長文、ビジョン、ツールコールの伸び
GPT-5.2 の進化は、オフィス仕事だけにとどまりません。
コーディング
- SWE-Bench Pro で 55.6 パーセントを記録
実際のリポジトリにパッチを当てる本格ソフトウェアタスクで、過去最高スコアです。
これは「趣味レベルのコード生成」ではなく
実務レベルのバグ修正や機能追加にかなり使える段階に来ている、という評価になります。
長文コンテキスト
- OpenAI MRCRv2 という長文読解テストで、256k トークン付近まで高精度を維持
- 複数の文書に散らばる情報を統合し、ほぼ取りこぼしなく回答可能
数百ページクラスのレポートや契約書、研究資料を丸ごと飲み込んだ上で
一貫した要約や分析を返せる、というレベルに達しています。
ビジョン(画像理解)
- 科学論文中の図表を読み解く CharXiv Reasoning で 88.7 パーセント
- プロ用途の UI 画面解析タスク ScreenSpot-Pro で 86.3 パーセントを記録
ダッシュボード、プロダクト画面、技術図面といった「画面情報」を
AI がかなり精度高く読めるようになってきています。
ツールコールとエージェント
- Tau2-bench Telecom で 98.7 パーセント
長いやりとりの中で、外部ツールを呼び出しながら顧客対応を完遂できる指標です。
企業の声としては
- 以前は複数の小さなエージェントを組み合わせていたが
- GPT-5.2 によって、20以上のツールを持つ一つのメガエージェントに統合できた
- システムプロンプトを膨大に書かなくても、一行の指示からきちんと動く
といった報告も出ています。
5|「現場で何が変わるのか」を三つの視点で
最後に、このアップデートが実際の現場でどう効いてくるかを、三つの視点で整理します。
1 ひとりの仕事量の上限が変わる
- 企画
- 調査
- 資料設計
- スプレッドシート構築
- スライド整形
といった工程を GPT-5.2 に振ることで
「一人でこなせるプロジェクト規模」が明らかに広がります。
2 チーム構成や役割分担が変わる
- AI が「ドラフト作成」と「機械的な精度確保」を担当
- 人間が「方向づけ」「判断」「最終表現」の責任を持つ
という分業が、より自然かつ現実的になります。
3 エージェント前提のワークフロー設計が必要になる
- ひとつのチャットに指示する、という使い方から
- 「長時間動き続ける業務エージェント」を前提にしたシステム設計へ
たとえば
- お客様対応の一連のフロー
- データ収集から分析、レポート作成までの自動チェーン
- 日次のモニタリングと週次のサマリ生成
などを最初から GPT-5.2 ベースで設計する、という発想に変わっていきます。
6|さいごに
GPT-5.2 は、
これまでの「ジェネレーティブ AI の進化」という文脈を超えて
- プロフェッショナルな知識労働
- 長時間のエージェントタスク
- 視覚とツールを組み合わせた現実世界の仕事
をまとめて底上げするアップデートになっています。
人間のクリエイターやナレッジワーカーにとっては
「置き換え」ではなく
- どこまで任せるか
- どこを人間の強みとして残すか
を設計する段階に、本格的に入ったと言えるはずです。




