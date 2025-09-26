据悉，OpenAI近日发布了一项名为GDPval的新型基准测试，用于评估其AI模型在各行各业与人类专业人士的工作表现差距。这一测试被视为衡量AI距离实现通用人工智能（AGI）——即能在经济上具有价值的工作中全面超越人类——的重要一步。

GDPval聚焦于对美国国内生产总值贡献最大的九大行业，包括医疗、金融、制造业及政府等领域，涵盖了软件工程师、护士、记者等44种职业任务。测试要求真实从业者对比AI生成的报告与专业人士撰写的版本，并选择更优的一份。例如，某个任务中邀请投资银行家撰写末端配送行业的竞争格局分析，并与AI生成的报告进行对比。OpenAI随后统计AI模型在这些任务中“战胜”人类报告的比例。

结果显示，增强版GPT-5（GPT-5-high）在40.6%的任务中被评为优于或相当于行业专家的水平；Anthropic的Claude Opus 4.1在49%的任务中达到这一标准。OpenAI认为，Claude的高分可能部分源于其生成图表的能力更易获得评审青睐，而非绝对性能更强。

尽管如此，OpenAI也承认，GDPval目前仅覆盖了人类在真实工作中所执行任务的一小部分，距离“取代人类”的阶段仍有相当距离。但这一测试体现了公司在衡量AI逼近人类专业能力上的新尝试，也为观察AI在经济价值工作中进展提供了参考。