2025-03-04 手机 0
《GPT-4评估法神奇进步,人类大赞!可靠性与一致性超越80%,让机器人也能像我们一样不小心变聪明了。》
最近的讨论集中在LLM(语言模型评估)上,特别强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法存在明显的局限性。因此,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。
开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。
随着骆马、考拉和多莉等各种语言模型出现并逐渐流行起来,对如何有效利用这些工具进行比较产生了一定的共识。一种被认为是有趣且独特提示形式是:提供两个来自不同的模型A和B答案,并要求评价者根据1到8分数对其进行打分,其中1表示较为倾向于选择模型A,而8则是平局状态;而其他数字则代表更多复杂的情景情况,如2或3表达较高倾向于选B,而6或7则反映出更倾向于选A的情况。
尽管如此,有趣的是,在某些案例中,即便交换两者的位置也不影响最终结果,但发现了一种叫做“位置偏差”的现象,其中一个比另一个获得更多高分。这促使研究者们重新审视这一公平性的问题。
HuggingFace团队进行了一项令人瞩目的研究,他们将四个不同的模型在329个问题上的表现进行分析。在这项调查中,他们发现以下事实:基于成对比较各自排名在人工评价与GPT-4之间显示出高度的一致性,但同时也观察到了Elo得分差距之间存在一些微妙变化。这意味着该系统能够区分优秀之作与一般作品,但是在一些细微情境下,它并不总能完全匹配人类专家的意见。此外,该系统还会给那些受过训练但不如实际场景下的回答更加优质时,更高打分,这进一步证明了解释这些信息时需要格外谨慎。
最后,这些发现提醒人们当我们仅仅依赖于通过GPT-4完成排序时,我们应该非常小心,因为即使它能够很好地区分哪些回复更佳,它可能并不能完美地捕捉所有细微差别,尤其是在那些看似无关紧要但实际上却极为关键的情形下。此刻,就为了改善提示设计以及结合多种评价手段,以此提高整个过程中的可靠度和精确度,是众专家共同努力目标的一个重要部分。