科技部人事司的超级新星GPT-4评估方法大放异彩可靠性与人类评估能一唱一和达80

2025-03-04 手机 0

科技部人事司的新星GPT-4评估方法大放异彩：可靠性与人类评估能一唱一和，达80%！

近期，关于LLM（语言模型评估）的讨论热潮中，有关使用GPT-4进行比较的可扩展性和成本效益尤为突出。这种方法涉及一个模型来评估同一问题不同答案，并选择最佳答案以创建排名系统。但这方法存在明显局限性。因此，LMSYS.org评级创始人决定采用一种新的评估方法取代它。

开发团队推出了基于GPT-4的新的自我评估LLM方法，其与人工评估实现了80%的一致性。在他们工作过程中，该团队收集了大量真实人类回答，并比较对不同答案偏好。这广泛数据集使他们能够更准确了解每个响应所涉及利弊。这个新方法依然利用GPT-4，但具备自动化、可扩展且价格实惠，每个人都能使用。

随着骆马、考拉、多莉等各种语言模型出现，使用GPT-4进行比较越来越流行提供了一个独特提示，其中包含来自模型A和模型B两个答案，并要求评价者按1到8分对其打分，从1表示A明显更好到8表示平局，以此类推。交换位置不会显著影响分数，而持续优势将导致胜利，这似乎是合乎逻辑的。但是，却发现位置偏差现象，其中一个模型会频繁地给予较高分数给另一个（假设是A）。

为了确保公平性，人工评价解释了这种偏见。HuggingFace团队在329个问题上的四个模型之间进行了一项有见地研究。在这项有趣研究中，他们发现尽管基于成对比较四个模式在人工评价和GPT-4之间有一致性的排名，但观察到了不同的Elo等级差距。这表明该模式可以区分好的坏的答案，但在一些边缘案例中与人工评价不太一致。

特别值得注意的是，该模式对其他模式之答语进行打分时，比起训练于相同环境下的人类答语而言，更高。而且，它们对于唯一令牌数量极度相关（Pearson=96.4）。这说明该模式并没有很好地判断答语质量，因此强调需要谨慎解释这些结果。此外，这些发现也强调，在仅依赖于GPT-4成绩时，对其他因素保持警觉非常重要。

通过改进提示并结合多种测量方式，研究人员希望提高用于比照各语言模块性能的工具——即生成文本—从70%提升至90%，减少误判率50%至10%，并增加用户满意度20%.

文章来源：巨星云“未来AI工具”

更多AI资讯，请关注公众号“巨星云”“未来AI工具”。

标签：王志文电视剧、小米9参数、荣耀新款手机、 2千至3千元手机哪个性价比最好、手机软件

上一篇：数据驱动的数码热点苹果7P新机暖春促销直降

下一篇：丁香五月激情缘综合区爱的花园里的秘密交响曲

科技部人事司的超级新星GPT-4评估方法大放异彩可靠性与人类评估能一唱一和达80

暴龙神古老传说中的力量与智慧

60平米小屋的装修艺术创造视觉冲击力空间

夹胶玻璃的艺术与实用探索其在装饰与建筑中的应用

小户型30平米装修攻略打造温馨简约家居空间

吊顶龙骨的历史与文化内涵