当前位置: 首页 - 手机 - 科技节来袭GPT-4评估法大放异彩可靠性与人类评估一致超越80让机器人也能跟上节奏了

科技节来袭GPT-4评估法大放异彩可靠性与人类评估一致超越80让机器人也能跟上节奏了

2025-03-04 手机 0

最近的讨论集中在LLM(语言模型评估)上,特别强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法存在明显的局限性。因此,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这个广泛的数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。

随着骆马、考拉和多莉等各种语言模型的出现,使用GPT-4进行比较的方法越来越受欢迎。提供了一个独特的提示,其中包含来自模型A和模型B两个答案,并要求评价者按1到8分数对其进行打分,即1表示较差,8为平局。这一提示似乎是公平无私,但是研究发现,在很多情况下人们倾向于给出高分给第一个出现的问题,这被称作“位置偏差”。

HuggingFace团队进行了一项有见地研究,对四个不同的模型在329个问题上的回答进行分析。在这项有趣研究中,他们发现虽然这些模型之间的人工评价与通过GPT-4得出的评价是一致且相似的,但它们并不总是完全相同。这意味着尽管这些工具很擅长区分好的和坏的问题,它们在细微的情况下可能无法完全理解人类如何看待问题。

此外,他们还发现当用其他已经训练过并学习过相关信息的大型语言处理技术时,有些工具会不恰当地将高分赋予那些它们认为最合适或最符合常规逻辑正确性的选项,而不是根据实际结果或客观标准。但即使如此,这些工具还是有一定的价值,因为它们能帮助我们更快地获得关于某些问题的大量信息,同时降低误差率。

总之,无论哪种方式,我们都应该谨慎对待依赖单一工具或算法去解释复杂现象或者做出重要决策。此外,还需要继续改进我们的系统,使其更加精确、全面,以便我们能够从更多角度深入理解世界及其运作原理。如果你想要了解更多AI资讯,请关注公众号“巨星云”“未来AI工具”。

标签: 即将新款手机上市给我推荐一款手机手机价格大全2022价格表图片oppo折叠手机最新款2022国产手机排名