当前位置: 首页 - 手机 - GPT-4评估法新进展超越80可靠和人类打分如出一辙

GPT-4评估法新进展超越80可靠和人类打分如出一辙

2025-03-04 手机 0

近期,关于LLM(语言模型评估)的话题热议,其中尤其强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法存在明显的局限性。因此,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。

随着骆马、考拉和多莉等各种语言模型的出现,使用GPT-4进行比较的方法越来越受欢迎。提供了一个独特的提示,其中包含来自模型A和模型B 的两个答案,并要求评估者按1到8 的等级对其进行打分,1 表示模型A 明显更好,8 表示平局,4 - 5 表示平局,而2 - 3 和6 - 7 则表示更好的模型。

交换位置不会显著影响分数(例如,从7 变成2,再从8 变成1),并且一个持续优势将导致胜利,这似乎是合乎逻辑的事情。不过,有时候会出现位置偏差现象,其中某些情况下较高分数被频繁地给予于第一个选项(即较高得分)。为了确保公平性,就必须解释这种偏见。

HuggingFace 团队进行了一项有见地研究,他们在329 个不同问题上评价四个不同的语言生成器。在这次研究中,他们发现以下情况:基于成对比较四个语言生成器排名在人工评价与 GPT-4 之间是一致性的,但是也观察到了不同的 ELO 等级差距。这意味着该算法可以区分优劣,但是有些边缘案例则不太符合人类标准。此外,该算法在给其他算法打分时,对那些训练过 GPT-0 答案的大型数据集上的表现表现出高度相关性。这表明该系统可能没有很好地理解回答质量的问题,因此需要小心解释这些结果。

这些发现提醒我们,在仅依赖 GPT-4 分数时,要格外谨慎,因为尽管它能区分优劣,但并不总是与人工评价完全一致,不论是在细微的情景还是其他方面。此外,在改进提示并结合多种评价方式上,我们希望提高 GPT-4 评价系统的地位,以增加它们对于实际应用中的价值。

通过不断完善我们的技术工具以及深入探索如何有效利用它们,我们最终能创造出更加智能、高效且透明的人类机器协作环境。而这一切,都始于追求创新,它是引领发展之初动力,无疑将带领我们迈向更加美好的未来!

标签: 华为最新款手机2022年新出的手机1500元左右手机排行榜手机最新款售价手机剧情介绍