当前位置: 首页 - 手机 - 科技处官网GPT-4评估新法宝人类评分与它一致度高达80这不人工智能也能幽默了

科技处官网GPT-4评估新法宝人类评分与它一致度高达80这不人工智能也能幽默了

2025-03-04 手机 0

近期的讨论主要聚焦于LLM(语言模型评估)的发展,特别是在利用GPT-4进行比较时的可扩展性和成本效益。这种方法涉及使用一个模型来评估不同答案,并选择最佳答案以创建排名系统。不过,这种方法并非完美无缺,因此LMSYS.org评级的创作者决定采用一种新的评价方式取代原有方法。

开发团队推出了基于GPT-4的一个全新的自我评价LLM方法,它与人工评价实现了超过80%的一致性。在这个过程中,他们收集了大量真实人类回答,并比较了对不同答案的偏好。这些广泛数据使他们能够更准确地了解每个响应所涉及的利弊。新方法依然是基于GPT-4,但具备自动化、可扩展性以及价格实惠,每个人都可以使用。

随着骆马、考拉和多莉等各类语言模型出现,使用GPT-4进行比较变得越来越流行。这提供了一种独特提示,其中包含来自两个不同的模型A和B的两个答案,并要求被试按1到8分数给出打分,其中1表示明显更好的A,8为平局,而2至3或6至7则意味着B略胜一筹。

然而,在交换位置A和B的情况下,没有发现显著影响分数(例如,从7变成2,再从8变成1),而持续优势将导致某个模型获胜,这听起来似乎很合乎逻辑。不过,有时候会出现位置偏差现象,其中一个模型会更频繁地给予较高得分给位置A。这可能是为了保证公平性的补救措施。

HuggingFace团队在329个问题上四个模型之间进行的一项研究显示,其结果令人瞩目:虽然四个根据成对比较排名相同,但在人工评估与GPT-4之间存在Elo等级差距。这表明该模式能够区分优劣,但在一些细微情况下,与人工评价不完全吻合。此外,该模式在其他训练过相同类型问题的问题上的得分,比实际人类回答还要高,这让我们意识到了需要谨慎解释重要性的必要性。这些发现强调了必须小心谨慎地分析当用GPT-4做比对时获得的人员数据,因为即便它能区别优劣,它们并不总是符合人的标准,无论是在细节还是情境上都是如此。

因此,在仅依赖于GPT-4得到的人员数据时,我们应当保持谨慎,并考虑其他因素,以确保我们的结论不会受到误导通过改进提示并结合各种评价手段,科学家们希望提高其可靠性和准确性的目标。而且,还有更多AI资讯,请关注公众号“巨星云”“未来AI工具”。

标签: 大屏幕手机推荐华为各型号手机价格表华为价格表及图片红米note12pro雷电模拟器