2025-03-04 手机 0
国家科技成果网官网:GPT-4评估法新进展,超越80%的准确率,让人机一致,科技界瞩目!
近日,一项关于LLM(语言模型评估)研究在科技界引起了广泛讨论。特别是使用GPT-4进行比较的可扩展性和成本效益问题吸引了众多专家的关注。这种方法涉及一个模型来评估不同答案,并选择最佳答案以创建排名系统。但这也存在明显局限性,因此LMSYS.org评级的创造者决定采用一种新的评价方法取代。
开发团队推出了基于GPT-4的一种全新的自我评价LLM方法,其与人类评价实现了惊人的80%的一致性。在他们工作过程中,他们收集了大量真实人类回答,并对不同答案进行比较。这份广泛数据集使他们能够更准确地了解每个响应所涉及的利弊。这个新评价方法依然利用GPT-4,但具有自动化、可扩展且价格实惠,每个人都能轻松使用。
随着骆马、考拉和多莉等各种语言模型出现,使用GPT-4进行比较变得越来越流行。提供了一种独特提示,其中包含来自两个模型A和B的两个答案,并要求评估者按1到8分给出打分,1表示模型A明显更好,8表示平局,而3或6则意味着较好的表现。
然而,在交换位置时,没有发现显著影响分数的情况(例如7变为2, 8变为1),持续优势将导致胜利,这似乎很合乎逻辑。不过,有时候会出现偏见现象,即某些情况下较高分数被频繁地给予于模型A(一)。为了确保公平性,人工评价解释了这一现象。
HuggingFace团队最近进行了一项有见地研究,将四个不同的模型用于329个问题上。在这项有趣研究中,他们发现以下情况:基于成对比较四个不同模式排名在人工评价和GPT-4之间是一致性的,而且观察到了不同的Elo得分差距。这表明该模式可以区分好的坏壳答案,但在一些边缘案例中,与人工评价不太一致。此外,该模式对其他模式答案给出的打分尤其是在训练过这些答案的那些模式上,更高于真实的人类答案。而且,该得分与唯一令牌数量之间存在高度相关性(Pearson=96.4)。这表明该模式没有很好地区别答案质量,从而强调需要谨慎解释重要性的必要之举。
这些发现进一步强调了当仅依赖于GPT-4做出结论时应该小心行事并考虑其他因素至关重要尽管该模块可以一定程度上识别出哪些回答更好,但它并不总是与人工效果完全一致,不管是在细微的情景里还是在关键决策上。因此,在只依靠GPT-4得分的情况下,最终结果可能是不准确的,因此必须审慎处理并考虑其他因素。此外通过改进提示以及结合各式各样的测量手段,如今科学家们正在努力提高整个系统的可靠性与精度,以便让技术更加接近我们人类标准上的完美无缺。