OpenAI 新模型 o3 与 o4-mini 表现优异,但“幻觉”问题不降反升

OpenAI 近期推出的 o3 和 o4-mini 人工智能模型,在许多方面都代表了当前最先进的水平。然而,这些新模型仍然会产生“幻觉”——也就是凭空捏造信息。事实上,它们产生幻觉的频率甚至超过了 OpenAI 自家的几款旧模型。

“幻觉”一直被视为人工智能领域最棘手、最难以根除的顽疾之一,即便是目前性能顶尖的系统也深受其扰。以往的经验是,每一代新模型在控制幻觉方面都会比上一代有所进步,幻觉发生率会逐步降低。但这次的 o3 和 o4-mini 似乎打破了这个规律。

根据 OpenAI 的内部测试结果,被归类为“推理模型”的 o3 和 o4-mini,其产生幻觉的频率不仅高于公司之前的几款推理模型(如 o1、o1-mini 和 o3-mini),甚至也高于像 GPT-4o 这样的传统“非推理”模型。

或许更令人不安的是,作为 ChatGPT 的开发者,OpenAI 自己似乎也还没完全弄明白这背后的原因。

在其为 o3 和 o4-mini 发布的技术报告中,OpenAI 坦承“需要进行更多研究”,才能理解为什么在不断提升推理模型规模的同时,幻觉问题反而恶化了。报告指出,虽然 o3 和 o4-mini 在编码、数学等特定任务上表现更佳,但正因为它们“整体上会做出更多的陈述”,这既带来了更多准确的判断,也相应地导致了更多不准确或包含幻觉的输出。

OpenAI 的内部基准测试 PersonQA 用于衡量模型对人物相关知识的准确性。测试发现,o3 在回答该测试中 33% 的问题时都出现了幻觉。这个比例几乎是 OpenAI 此前推理模型 o1(16%)和 o3-mini(14.8%)的两倍。而 o4-mini 在 PersonQA 上的表现更糟,幻觉率竟高达 48%。
来自非营利人工智能研究机构 Transluce 的第三方测试也印证了 o3 的这一倾向:它似乎会“编造”自己在推导出答案过程中所采取的步骤。

Transluce 观察到的一个例子是,o3 声称自己在一台 2021 年款的 MacBook Pro 上,“在 ChatGPT 环境之外”运行了某段代码,然后才将计算结果复制到回答中。然而,尽管 o3 能够调用某些工具,但它并不具备执行这种操作的能力。

Transluce 的研究员、同时也是 OpenAI 前员工的 Neil Chowdhury 在给 TechCrunch 的邮件中提出了他们的假说:“我们推测,用于 o 系列模型的那种强化学习方法,可能放大了某些通常能被标准训练后处理流程所缓解(但无法完全消除)的问题。”

Transluce 的联合创始人 Sarah Schwettmann 补充说,o3 如此之高的幻觉率,可能会让它的实际应用价值大打折扣。

斯坦福大学客座教授、技能提升初创公司 Workera 的 CEO Kian Katanforoosh 向 TechCrunch 透露,他的团队已开始在日常的编程工作流中试用 o3,并认为其表现确实优于市面上的其他竞争产品。但他同时指出,o3 常常会“幻觉”出一些根本无法访问的损坏网址链接。

虽然模型的“幻觉”能力有时可能激发有趣的想法,带来某种程度的“创造力”,但对于那些将准确性奉为圭臬的商业应用场景(例如,律师事务所绝不希望模型在客户合同中随意插入事实性错误)而言,这种不可靠性让这些模型变得难以被采纳。

目前看来,一个有希望提升模型准确性的途径是为其赋予网络搜索能力。例如,集成了网络搜索功能的 OpenAI GPT-4o,在另一项准确性基准测试 SimpleQA 上实现了高达 90% 的准确率。理论上,引入搜索功能或许也能降低推理模型的幻觉发生率——当然,前提是用户愿意让自己的查询内容被第三方搜索服务所获取。

倘若提升推理模型规模确实会持续导致幻觉问题加剧,那么寻找有效解决方案的需求就将变得更加迫切。

OpenAI 的发言人 Niko Felix 在回复 TechCrunch 的邮件中表示:“解决我们所有模型中的幻觉问题,是一个持续进行中的研究方向。我们正不断努力,以提升模型的准确性和可靠性。”

过去一年里,随着传统 AI 模型改进技术的效果日渐式微(出现收益递减),整个 AI 行业开始将重心转向推理模型。推理能力能够在无需消耗海量算力和数据进行训练的前提下,提升模型在多种任务上的表现。然而,推理能力的增强似乎也伴随着幻觉问题的增多——这无疑构成了一大挑战。