2025-03-04 手机 0
近日,一场关于LLM(语言模型评估)的大讨论在科技界掀起波澜,特别是在使用GPT-4进行比较的可扩展性和成本效益方面。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法并非没有局限性,因此LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。
开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。
随着骆马、考拉和多莉等各种语言模型的出现,使用GPT-4进行比较的方法越来越受欢迎。提供了一个独特的提示,其中包含来自模型A和模型B两个答案,并要求评估者按1到8等级对其进行打分,1表示明显更好,8表示平局,而2至3或6至7则表明另一个模型更胜一筹。但是,在交换位置时,如果7变成2、8变成1,那么位置偏差就不再存在,因为只有持续优势才能导致胜利,这似乎是合乎逻辑的事。但实际上,却有时候会发现位置偏差现象,即某个模型会频繁将较高分数赋予其中的一个(假设为“一”)。为了保证公平性,就必须解释这种偏见。
HuggingFace团队进行了一项研究,他们在329个不同问题上测试四个不同的语言模式。在这项有趣研究中,他们发现尽管基于成对比较四个模式在人工评价和GPT-4之间有一致性的排名,但它们之间也存在Elo等级差距。这意味着该模式可以区分好的与坏的问题,但在一些边缘案例中,它并不总是与人类评价保持一致。而且,有趣的是,该模式对其他几个被训练过于许多相同令牌数量的问题给出比真实人类高得多的地位分数。这表明该模式可能没有很好地理解回答质量,对这些结果中的唯一令牌数量高度相关(Pearson=96.4)。这强调了需要谨慎解释重要性的必要性。
这些发现提醒我们,在仅依靠GPT-4做出判断时,我们应该小心行事,同时考虑其他因素。此外,由于它不能总是与人类评价保持完全一致,不管是在细微情境还是严格标准下,都需要谨慎行事。如果我们想提高这个工具,使之更加可靠,那么改进提示以及结合多种评价方式,是值得探索的话题之一。
综上所述,我们看到通过创造性的思维以及不断创新技术解决方案,我们正在迈向一个更加精确、有效的人类交流环境。此刻,让我们继续探索这一未知领域,以期找到更多突破性的进步!