中国科技馆官网GPT-4评估法神奇进步人类大赞可靠性与一致性超越80让机器人也能像我们一样不小心变聪

2025-03-04 手机 0

《GPT-4评估法神奇进步，人类大赞！可靠性与一致性超越80%，让机器人也能像我们一样不小心变聪明了。》

最近的讨论集中在LLM（语言模型评估）上，特别强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案，并选择最佳答案以创建排名系统。然而，这种方法存在明显的局限性。因此，LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法，其与人工评估实现了80%的一致性。在他们的工作过程中，该团队收集了大量真实人类回答，并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4，但具备自动化和可扩展性，而且价格实惠，每个人都可以使用。

随着骆马、考拉和多莉等各种语言模型出现并逐渐流行起来，对如何有效利用这些工具进行比较产生了一定的共识。一种被认为是有趣且独特提示形式是：提供两个来自不同的模型A和B答案，并要求评价者根据1到8分数对其进行打分，其中1表示较为倾向于选择模型A，而8则是平局状态；而其他数字则代表更多复杂的情景情况，如2或3表达较高倾向于选B，而6或7则反映出更倾向于选A的情况。

尽管如此，有趣的是，在某些案例中，即便交换两者的位置也不影响最终结果，但发现了一种叫做“位置偏差”的现象，其中一个比另一个获得更多高分。这促使研究者们重新审视这一公平性的问题。

HuggingFace团队进行了一项令人瞩目的研究，他们将四个不同的模型在329个问题上的表现进行分析。在这项调查中，他们发现以下事实：基于成对比较各自排名在人工评价与GPT-4之间显示出高度的一致性，但同时也观察到了Elo得分差距之间存在一些微妙变化。这意味着该系统能够区分优秀之作与一般作品，但是在一些细微情境下，它并不总能完全匹配人类专家的意见。此外，该系统还会给那些受过训练但不如实际场景下的回答更加优质时，更高打分，这进一步证明了解释这些信息时需要格外谨慎。

最后，这些发现提醒人们当我们仅仅依赖于通过GPT-4完成排序时，我们应该非常小心，因为即使它能够很好地区分哪些回复更佳，它可能并不能完美地捕捉所有细微差别，尤其是在那些看似无关紧要但实际上却极为关键的情形下。此刻，就为了改善提示设计以及结合多种评价手段，以此提高整个过程中的可靠度和精确度，是众专家共同努力目标的一个重要部分。

标签：手机排行榜2021前十名、一加9 、《手机》、 oppo手机价格表、前10名手机排行榜

上一篇：中国航天日的智慧之翼ChatGPT虽去但AI助手如星辰般闪耀照亮你的道路

下一篇：亚马逊云科技像一位忠诚的助手如今在你面前降临让ChatGPT的不翼而飞成了一场梦幻般的误会

中国科技馆官网GPT-4评估法神奇进步人类大赞可靠性与一致性超越80让机器人也能像我们一样不小心变聪

药品外包装机械精准装配安全稳定保障药物质量的关键设备

炽热的炉火与冰冷的金属不锈钢管的退火之旅

附近pe管生产厂家专业制造高品质PE管产品的企业

透明梦境的织匠丝网除雾器厂的传奇

不锈钢管退火炉技术与应用概述