当前位置: 首页 - 手机 - 科技部人才与科学普及司的超级英雄GPT-4评估方法打破了常规达到了人类评估一致性的新高度超过80这不

科技部人才与科学普及司的超级英雄GPT-4评估方法打破了常规达到了人类评估一致性的新高度超过80这不

2025-03-04 手机 0

最近的讨论集中在LLM(语言模型评估)上,特别强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法存在明显的局限性。因此,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这份广泛的人类数据使他们能够更准确地了解每个响应所涉及的情感共鸣点。这个创新之举仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。

随着骆马、考拉和多莉等各种语言模型出现,我们发现使用GPT-4进行比较越来越受欢迎。提供了一种独特提示,其中包含来自模型A和模型B两个答案,并要求我们按1到8分数对其进行评价,一表示明显更好,一直到平局,再到两边差距大得多。一旦位置发生改变,比如7变成2或8变成1,也不会影响最终结果,因为持续优势将导致胜利,这听起来是合乎逻辑。但令人意外的是,在某些情况下,我们会发现位置偏差现象,即人们倾向于给出高分给前面一个选项(例如,将7改为2或者将8改为1)。为了保持公正,我们需要解释这种偏见现象。

HuggingFace团队通过对四个不同的语言模型在329个问题上的答题进行深入研究,他们找到了有趣的事实:基于成对比较法排名这四个语言模型在人工评价和GPT-4之间是一致且相似的,只不过观察到的Elo等级差异略有不同。这表明该算法可以识别好的或坏的问题,但在一些细微情况下,与人类评价并不完全一致。而且,对其他已训练过于关注自己的回答而忽视真实人类反馈时,它竟然表现得比真正的人类更高兴。这意味着该算法似乎并不能很好地判断答案质量,更强调我们应该小心谨慎地解读这些信息。此刻,在仅凭一个数字就判定事物优劣的情况下,我们必须更加小心行事,同时考虑其他可能引发争议的话题。当没有进一步探索这些可能性时,就像试图用单一工具去衡量世界一样,不足够全面。此刻,让我们一起努力改进提示方式,以结合更多类型的手段提高这个神奇机器眼光判断力的准确度,从而使我们的交流变得更加清晰、精确,而不是只靠猜测。

通过不断尝试与错误,以及不断完善我们的策略,我们最终希望能够提升这一全新的技术,使之成为日常生活中的不可或缺工具,无论是在教育领域还是商业环境中,都能帮助各行各业的人士找到正确路径。

记住,当你想要探索未知时,最重要的是保持开放的心态,同时不要忘记挑战旧想法,这样才能开启真正创新的旅程。如果你愿意加入这一探险,你一定会惊叹于即将揭晓的大门背后隐藏着什么秘密。你准备好了吗?

标签: 2000元以内性能最强的手机realme手机iqoo官网华华手机国产手机大全