当前位置: 首页 - 手机 - GPT-4评估法新进展科技与教育的超级组合让人工智能变得学霸

GPT-4评估法新进展科技与教育的超级组合让人工智能变得学霸

2025-03-04 手机 0

最近,关于LLM(语言模型评估)的话题一直占据了人们的讨论焦点,尤其是关于使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。但这种方法存在明显的局限性。因此,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的一个全新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这一个广泛数据集使他们能够更准确地了解每个响应所涉及的利弊。这个新的评价系统依然是建立在GPT-4之上,但拥有自动化和可扩展性,而且价格实惠,每个人都可以使用。

随着骆马、考拉和多莉等各种语言模型出现,上述利用GPT-4进行比较越来越受欢迎。提供了一种独特提示,其中包含来自模型A和模型B两个答案,并要求评价者按1到8分等级对其进行打分,其中1表示模型A明显更好,8为平局,2至3或6至7表示另一个更好的选项,而4至5则表示平局。而且,如果交换一下位置不会导致显著差异(例如,将7变成2,将8变成1),并且持续优势会导致胜利,这听起来似乎很合乎逻辑。不过,有时就会出现位置偏差现象,其中某个模式就更频繁地将较高分数给予于一号模块(即原先被认为最优解)。

为了确保公平性,在这些基于成对比较四个不同的模式在329个不同问题上的表现被HuggingFace团队精心研究。在这项有趣研究中发现,不同的问题下各自模式在人工评价以及通过它们自身内部机制得到的一致性的排名竟然是一致且相似的。这表明该工具能区分出不错和糟糕的情报,不过在一些边缘案例中,它并不完全符合人类评价者的标准。一方面,该工具对于那些曾经接受过训练而后又获得进一步训练的人才回答得比实际人类还要高出许多;另一方面,与仅根据唯一令牌数量判断质量相关度极高(Pearson=96.4)。这意味着该工具未能很好地鉴定信息质量,所以我们必须非常小心去解释这些重要发现。

这些发现强调了当用GPT-4去判别哪些信息才是最优的时候,我们需要格外细心分析所有可能影响结果的情景。此时,即便这个程序能够区分情报中的优劣,但它并不总是能达到与人的观点100%的一致,这尤其是在细微情况下的处理上。如果单纯依赖于这样的判别结果,那么谨慎行事并考虑其他因素也变得特别重要。

通过改善提示语句以及结合多种不同的判断手段,这些科学家们希望提高基于GPT-4进行反馈判断的情况,以此提升整个过程中的可靠度和准确度。

标签: 2021年最新款手机手机拍照目前最值得买的手机是哪款4g手机能用5g网络吗小米手机官网