촬스의 컴퓨터 이야기

画像テキストの翻訳

「GPT-5、いくつかの作品
カルマの人間に相当する」。鳥
長いベンチマークリリース
レポーターパークチャン
更新2025.09.27 06:47
刺します
nまたはラハ
1つの組立ラインのスタンド
最後のマイル配達の類人猿
編集者：高エネルギーを作成します
カスタマーサービス：EMAL
クローンス
goncorpaigonewoahloyrgion “
オーディオ
Uesting
注文書：監査priclr
象徴的
不動産エージェント：設計販売パンフレット
レクリエーション
Table Layouを最適化します
fornew dcnronertv
春のベンダー用
Exarnple GDPValタスク
（写真=来る）
正しい詩は人間の専門家です – レベルの人工知能（
i）モデルをいくら実行できるかに関係なく、
リリースされました。その結果、「GPT-5」ライスパディ
もちろん、非熱心なステッチモデルも人間レベルに到達します。
私はそれを評価しました：
適切な時期は25日（現地時間）です
44は、最大の貢献に貢献する9つの業界で監督します
人間の専門家と仕事
aの結果と比較した新しいベン
スカート「GDPVal」がリリースされました。
評価ターゲットは、断片的なテインとスプレッドシートのタブレットです
ブックブリーフィング、CADデザインオーディオビデオホーンシーなど。
さまざまな結果が含まれています。これらの結果は対応しています。
勝利の方法でのフィールド比較の専門家（ペア
賢明な比較）スコア。
適切なタイミングは、「GDPVAL-VO」の最初のバージョンです
レポートを書き、ジャーナリー記事を書き、看護計画を書きます
リップを含む合計1320のタスクがあります。各プロジェクトは平均です
14年の経験を持つ専門家が設計されており、チェ
検証プロセスの5回以上
確保されています。
GDPVal VO：ペアワイズエキスパートの好み
勝ちます
ネクタイ
勝つだけです
6096
とのパリティ
0O6
産業
専門家
5096
40.696
409
34,896
全て
28.896
30％6
23.496
24.196
2096
13.79
1096
APT-40
グロック
ジェミニ
04-mnini-high
03-HIGH GPT-5-HIGH
クロード
モード
主要なALモデルと人間の専門家の結果の比較（写真右）
その結果、「GPT-5-HIGH」非フィールドの専門家のレベル
比率は、40と同じまたはそれ以上であると見なされます。
6％でした。
Entropicの「Glod Operus 4.7」は49％のフレームワークを記録します。
比較的高い画面。しかし、右a
IPAN「Killedはドキュメントパックまたはスライドデザインなどです。
視覚表現の強さは高く、スコアが高い
麺があります。」
GPT-5の成果は15か月前、GPT-4o（13。
7％）レベルの3倍。 “パフォーマンス
改善は大変です。」
しかし、GDPValはレポートと同じです
それはこれに焦点を当てて評価されているので、
複雑な相互作用またはマルチレベルの作業コース
反映できないと言われています：
将来、インタラクティブウィークフローコンテキスト軸
敵の反復ドラフトドラフトを書くなど、実際の作業よりも早い
ベンチマークのベンチマークを導入し、追加しました
全て：
この研究フレームを率いたアーロンのおしゃべり
ノミストは、「このモデルは専門的なレベルに近づいています。
その間;実際の労働者は市内に仕事を辞めます
「私たちはより価値のある活動に集中することができます。」
私はしました：
「AIモデルは現実です
仕事に適用される速度は速くなっています」と彼は言いました。
開発税は加速されます。」
全て