当前位置: 首页 - 手机 - 科技部新进展GPT-4评估法达标人类认可度高达80

科技部新进展GPT-4评估法达标人类认可度高达80

2025-03-04 手机 0

科学技术部揭秘:GPT-4评估法新进展,人类认可度超越80%!

近日,一场关于LLM(语言模型评估)的大讨论在科技界掀起了热潮。特别是围绕使用GPT-4进行比较的可扩展性和成本效益问题,这种方法涉及一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。但这并非没有局限性,因此LMSYS.org评级的创建者决定采取一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了令人瞩目的80%的一致性。在他们工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这个广泛数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。

随着骆马、考拉和多莉等各种语言模型的出现,使用GPT-4进行比较的方法越来越受欢迎。提供了一个独特提示,其中包含来自模型A和模型B的两个答案,并要求评估者按1到8分数对其进行打分,1表示模型A明显更好,8表示平局,4-5表示平局,而2-3和6-7则意味着较好的模型。

然而,在这种系统中,有一种位置偏差现象发生,其中一个特定的位置会被频繁地给予较高分数。这可能会导致公平性的问题,因此人工评价解释了一些这些偏见的问题。

HuggingFace团队进行的一项有见地研究也为我们揭示了一些有趣的情况。在329个不同的问题上测试四个不同的语言生成器时,他们发现虽然基于成对比较四个模式在人工评价和GPT之间取得一致,但它们对于其他模式以及那些仅在训练上考虑过此类信息的人们作出得分时表现不佳。此外,对于那些只包含唯一令牌的一个回答,它们似乎还不能很好地区分质量上的差异,从而强调需要谨慎分析重要性的必要性。

因此,在仅依靠机器学习算法如GPT之类工具作为最终判断标准时,我们必须保持谨慎行事,同时考虑其他因素,以确保结果既准确又公正。这不仅体现在改进提示本身,也包括结合多种评价手段,以提高整个体系结构设计中的稳定性与精度,最终达到提升整体效率与用户满意度这一目标。

标签: 手机最新排行榜前十名oppofindx手机对比平台中关村apple苹果官网荣耀x40手机参数配置