谷歌发布全新诊断对话式AI在测试中击败医生,通过了图灵测试,如何看待此研究?AI医疗未来会如何发展?
About
作者:Kyle Wiggers
原文地址:Yahoo
本周二,初创公司Anthropic发布了一系列生成式人工智能模型,声称其实现了最佳性能。仅仅几天后,竞争对手Inflection AI推出了一款模型,声称这款模型接近匹敌一些最具能力的模型,包括OpenAI的GPT-4,在质量上。
Anthropic和Inflection绝非第一家声称其模型在某种客观标准下达到或超越竞争对手的人工智能公司。谷歌在发布Gemini模型时也提出了同样的观点,OpenAI也曾这样说过GPT-4及其前身GPT-3、GPT-2和GPT-1。此类例子不胜枚举。
但他们所谈论的指标是什么?当供应商表示某个模型实现了最先进的性能或质量时,这到底意味着什么?更重要的是:一个在技术上“表现”比其他模型更好的模型,是否会在实际中以一种有形的方式得到改进?
对于最后一个问题,可能性不大。
原因——或者说,问题——在于人工智能公司用来量化模型优势和劣势的基准测试。
晦涩的衡量标准x
如今对于人工智能模型最常用的基准测试——特别是像OpenAI的ChatGPT和Anthropic的Claude这样的聊天机器人驱动模型——在捕捉被测试模型与普通人的互动方式方面做得并不好。例如,Anthropic在其最近的公告中引用的一个基准测试GPQA(“一个毕业级别的谷歌防护问答基准测试”),包含数百个博士级别的生物学、物理学和化学问题,然而大多数人使用聊天机器人的任务是回复电子邮件、撰写求职信和谈论他们的感受。
艾伦人工智能研究所的科学家杰西·道奇表示,该行业已经到达了“评估危机”。
“基准测试通常是静态的,狭窄地专注于评估单一能力,比如模型在单一领域的事实性,或者其解决数学推理多项选择问题的能力,”道奇在接受TechCrunch采访时说。“许多用于评估的基准测试已经有三年以上的历史,当时人工智能系统主要只用于研究,并没有太多真实用户。此外,人们以许多方式使用生成式人工智能——他们非常有创造力。”

错误和其他缺陷
除了与使用案例不符合之外,一些基准测试是否能够正确衡量它们所声称要衡量的东西也是一个问题。对于旨在评估模型常识推理能力的HellaSwag测试的分析发现,超过三分之一的测试问题包含拼写错误和“毫无意义”的写作。另外,MMLU(“大规模多任务语言理解”)是一个基准测试,谷歌、OpenAI和Anthropic等供应商指出他们的模型可以通过它来推理逻辑问题,但该测试提出的问题可以通过死记硬背来解决。
修复问题
基准测试存在问题。但它们能够修复吗?
道奇认为可以——通过更多的人类参与。“在这里,正确的前进道路是结合基准测试和人类评估,”她说,“提出一个真实用户查询,然后雇佣一个人评价响应的好坏。”
至于维德尔,他对今天的基准测试持更为悲观的态度——即使修复了更明显的错误,比如拼写错误——也不能改进到对大多数生成式人工智能模型用户具有信息量的程度。相反,他认为,对模型的测试应该专注于这些模型的下游影响,并评估这些影响,无论是好是坏,对受影响者是否被认为是可取的。
“我会问我们想让人工智能模型能够用于哪些具体的情境目标,评估它们在这些情境中是否会成功,”他说。“而且希望,这个过程还涉及评估我们是否应该在这些情境中使用人工智能。”