据悉,OpenAI近日发布了一项名为GDPval的新型基准测试,用于评估其AI模型在各行各业与人类专业人士的工作表现差距。这一测试被视为衡量AI距离实现通用人工智能(AGI)——即能在经济上具有价值的工作中全面超越人类——的重要一步。

GDPval聚焦于对美国国内生产总值贡献最大的九大行业,包括医疗、金融、制造业及政府等领域,涵盖了软件工程师、护士、记者等44种职业任务。测试要求真实从业者对比AI生成的报告与专业人士撰写的版本,并选择更优的一份。例如,某个任务中邀请投资银行家撰写末端配送行业的竞争格局分析,并与AI生成的报告进行对比。OpenAI随后统计AI模型在这些任务中“战胜”人类报告的比例。

结果显示,增强版GPT-5(GPT-5-high)在40.6%的任务中被评为优于或相当于行业专家的水平;Anthropic的Claude Opus 4.1在49%的任务中达到这一标准。OpenAI认为,Claude的高分可能部分源于其生成图表的能力更易获得评审青睐,而非绝对性能更强。

尽管如此,OpenAI也承认,GDPval目前仅覆盖了人类在真实工作中所执行任务的一小部分,距离“取代人类”的阶段仍有相当距离。但这一测试体现了公司在衡量AI逼近人类专业能力上的新尝试,也为观察AI在经济价值工作中进展提供了参考。