科技处官网GPT-4评估新法宝人类评分与它一致度高达80这不人工智能也能幽默了

2025-03-04 手机 0

近期的讨论主要聚焦于LLM（语言模型评估）的发展，特别是在利用GPT-4进行比较时的可扩展性和成本效益。这种方法涉及使用一个模型来评估不同答案，并选择最佳答案以创建排名系统。不过，这种方法并非完美无缺，因此LMSYS.org评级的创作者决定采用一种新的评价方式取代原有方法。

开发团队推出了基于GPT-4的一个全新的自我评价LLM方法，它与人工评价实现了超过80%的一致性。在这个过程中，他们收集了大量真实人类回答，并比较了对不同答案的偏好。这些广泛数据使他们能够更准确地了解每个响应所涉及的利弊。新方法依然是基于GPT-4，但具备自动化、可扩展性以及价格实惠，每个人都可以使用。

随着骆马、考拉和多莉等各类语言模型出现，使用GPT-4进行比较变得越来越流行。这提供了一种独特提示，其中包含来自两个不同的模型A和B的两个答案，并要求被试按1到8分数给出打分，其中1表示明显更好的A，8为平局，而2至3或6至7则意味着B略胜一筹。

然而，在交换位置A和B的情况下，没有发现显著影响分数（例如，从7变成2，再从8变成1），而持续优势将导致某个模型获胜，这听起来似乎很合乎逻辑。不过，有时候会出现位置偏差现象，其中一个模型会更频繁地给予较高得分给位置A。这可能是为了保证公平性的补救措施。

HuggingFace团队在329个问题上四个模型之间进行的一项研究显示，其结果令人瞩目：虽然四个根据成对比较排名相同，但在人工评估与GPT-4之间存在Elo等级差距。这表明该模式能够区分优劣，但在一些细微情况下，与人工评价不完全吻合。此外，该模式在其他训练过相同类型问题的问题上的得分，比实际人类回答还要高，这让我们意识到了需要谨慎解释重要性的必要性。这些发现强调了必须小心谨慎地分析当用GPT-4做比对时获得的人员数据，因为即便它能区别优劣，它们并不总是符合人的标准，无论是在细节还是情境上都是如此。

因此，在仅依赖于GPT-4得到的人员数据时，我们应当保持谨慎，并考虑其他因素，以确保我们的结论不会受到误导通过改进提示并结合各种评价手段，科学家们希望提高其可靠性和准确性的目标。而且，还有更多AI资讯，请关注公众号“巨星云”“未来AI工具”。

标签：大屏幕手机推荐、华为各型号手机价格表、华为价格表及图片、红米note12pro 、雷电模拟器

上一篇：郑媛媛的未经处理雅照透露着不为人知的一面

下一篇：山石网科DeepSeek一体机发布AI引领网络安全智能化新篇章

科技处官网GPT-4评估新法宝人类评分与它一致度高达80这不人工智能也能幽默了

如何选择适合自己需求的净水器水质检测仪

养鱼都需要哪些水质测试仪器亲测好物分享

旋转的艺术混合搅拌设备的奇妙世界

小型纯净水设备价格全解析一套多少钱

水源之谜解析TDS值的安全饮用界限