GPT-4评估法新进展超越80可靠和人类打分如出一辙

2025-03-04 手机 0

近期，关于LLM（语言模型评估）的话题热议，其中尤其强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案，并选择最佳答案以创建排名系统。然而，这种方法存在明显的局限性。因此，LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法，其与人工评估实现了80%的一致性。在他们的工作过程中，该团队收集了大量真实人类回答，并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4，但具备自动化和可扩展性，而且价格实惠，每个人都可以使用。

随着骆马、考拉和多莉等各种语言模型的出现，使用GPT-4进行比较的方法越来越受欢迎。提供了一个独特的提示，其中包含来自模型A和模型B 的两个答案，并要求评估者按1到8 的等级对其进行打分，1 表示模型A 明显更好，8 表示平局，4 - 5 表示平局，而2 - 3 和6 - 7 则表示更好的模型。

交换位置不会显著影响分数（例如，从7 变成2，再从8 变成1），并且一个持续优势将导致胜利，这似乎是合乎逻辑的事情。不过，有时候会出现位置偏差现象，其中某些情况下较高分数被频繁地给予于第一个选项（即较高得分）。为了确保公平性，就必须解释这种偏见。

HuggingFace 团队进行了一项有见地研究，他们在329 个不同问题上评价四个不同的语言生成器。在这次研究中，他们发现以下情况：基于成对比较四个语言生成器排名在人工评价与 GPT-4 之间是一致性的，但是也观察到了不同的 ELO 等级差距。这意味着该算法可以区分优劣，但是有些边缘案例则不太符合人类标准。此外，该算法在给其他算法打分时，对那些训练过 GPT-0 答案的大型数据集上的表现表现出高度相关性。这表明该系统可能没有很好地理解回答质量的问题，因此需要小心解释这些结果。

这些发现提醒我们，在仅依赖 GPT-4 分数时，要格外谨慎，因为尽管它能区分优劣，但并不总是与人工评价完全一致，不论是在细微的情景还是其他方面。此外，在改进提示并结合多种评价方式上，我们希望提高 GPT-4 评价系统的地位，以增加它们对于实际应用中的价值。

通过不断完善我们的技术工具以及深入探索如何有效利用它们，我们最终能创造出更加智能、高效且透明的人类机器协作环境。而这一切，都始于追求创新，它是引领发展之初动力，无疑将带领我们迈向更加美好的未来！

标签：华为最新款手机、 2022年新出的手机、 1500元左右手机排行榜、手机最新款售价、手机剧情介绍

上一篇：视频黑科技app如同神奇的魔法师取代了ChatGPT成为你的新AI助手

下一篇：OPPO自研芯片火花四溅红米note12pro领航3nm革命为什么巨擘们纷纷抛弃外包亲手操控未来

GPT-4评估法新进展超越80可靠和人类打分如出一辙

装饰细节处理提升居住品质的小技巧大收获

汽车配件网上商城官网下载您是否需要定制带压堵漏铸不锈钢带扣30mm钢带卡子

Revit和dwg格式文件的高效协同工作流程

临沂装修公司我是如何找到了最棒的装修团队的

小巧精致的居所6平米卧室装修艺术探索