AI告诉你的新闻，可能一半都是错的…｜Landing AI

越来越多的人开始用聊天机器人（也就是现在狭义上的AI）来获取新闻。

在这些形色各异的聊天框中，人们往往只需要输入一句问题，就能立刻得到一段语气自然、逻辑完整的回答。但这里，一个问题也在不断浮现：所以，AI说得对么？

近日，BBC与欧洲广播联盟（EBU）发布的一份联合研究报告给出了警示性的结论：这可能不太行。

据介绍，这项研究邀请了来自18个国家、14种语言的22家公共媒体机构，对ChatGPT、Copilot、Gemini和Perplexity四款主流AI助手进行了系统评估。记者们提出了真实的新闻问题，从“谁是现任教宗”到“美国为什么轰炸也门”，然后逐一审查AI的回答。结果显示，45%的回答存在重大错误，而如果把细微问题也算上，出错比例高达81%。

研究指出，最普遍的错误出现在信息来源上。约三分之一的回答存在严重的引用问题——要么提供了与内容无关的来源，要么给出错误链接，甚至直接编造出处。Google的Gemini在这方面表现最差，72%的回答在来源上出现明显错误；ChatGPT的问题率为24%，Copilot和Perplexity则为15%。有的AI会把虚构的链接伪装成新闻网站地址，有的则在引用公共媒体时张冠李戴，把别人发表的观点当作新闻机构的态度。

除了无关引用，AI也经常生成错误的引语、混淆事实与观点、误用讽刺内容。Gemini曾在回答“马斯克是否做了纳粹敬礼”时引用法国广播电台的一个讽刺节目，误把幽默片段当作事实，还添加了不雅措辞。此外，它在引用“Radio France”的说法时，却链接到英国《每日电讯报》的视频。而在涉及宗教与政治人物的提问中，AI的时间错乱尤为常见。BBC的测试发现，今年5月，多款AI仍回答“现任教宗是方济各”，却同时注明他已于四月去世；在其他问题中，它们也频繁混淆现任与前任领导人，将德国总理、北约秘书长等职位搞错。

BBC认为，这些问题并非偶然。相比半年前的初次测试，AI回答质量确实有所改善，重大错误比例从51%下降到37%，但仍远未达到可靠水准。尤其在非英语环境下，问题更为严重——英文回答往往附带可验证的真实来源，而其他语言中，AI不仅引用混乱，更容易省略背景信息、缺乏语境说明。

更令人担忧的，是用户信任的增长速度。BBC与Ipsos的调查显示，约三分之一的英国成年人、以及近一半35岁以下用户相信AI能够准确地总结新闻内容。更复杂的是，当AI出错时，42%的受访者会同时质疑AI和新闻机构本身的可信度。换言之，即使错误来自AI，人们也倾向于认为“媒体不严谨”。这意味着，新闻机构的公信力正被一种它们无法控制的系统悄然消耗。

当然，这样的信赖也离不开AI的自信。正如我们所感受到的那样，几乎所有AI助手都会用坚定的口吻陈述信息，即使它们并不确定，也不会说明“我不清楚”或“这条消息未被证实”。分析称，这种“过度自信”是AI训练方式的结果：语言模型被奖励输出确定性的答案，而不是表达不确定性。对于普通用户而言，这种语气反而更容易让人信服。

但也正是在这样的背景下，AI正在迅速渗入人们的日常生活。无论是搜索引擎里的摘要答案、办公软件中的智能助手，还是社交平台上自动生成的新闻提要，它们都在改变人们与信息的关系。过去，人们通过新闻机构阅读事件；如今，他们通过AI阅读新闻。AI成为了“中间层”，负责筛选、组织、概括，甚至在一定程度上决定了“哪些内容值得被看到”。这种便利正在带来一种新的依赖——当答案总能立刻出现时，人们也就更少去追问它从哪里来。

这些问题也不仅仅是新闻行业的烦恼。随着AI助手被整合进搜索、学习、医疗和社交场景中，越来越多的人开始依赖它们来理解世界。AI的每一次“总结”，都在替代一次思考；每一次生成的“观点”，都可能模糊事实与立场的界线。它让信息更容易被触达，也让判断变得更难。

或许，最值得关注的不是AI偶尔出错，而是这种依赖正在形成的速度。人们正在习惯向机器提问，而不是去寻找原始的答案。当一切信息都以AI的口吻被复述时，新闻本身也开始失去边界，而这其中的剧本也将最终变成：不是AI说错了什么，而是我们开始习惯不去分辨真与假。

AI告诉你的新闻，可能一半都是错的…｜Landing AI

你可能会喜欢

谷歌移除部分存误导风险的健康类 AI 概览

MiniMax登陆港交所，成史上IPO规模最大的AI大模型公司

比亚迪全新品牌“领汇”现身工信部，或专供网约车市场

苹果硬件工程主管或成库克头号接班人