2025-03-04 手机 0
科技部人事司的新星GPT-4评估方法大放异彩:可靠性与人类评估能一唱一和,达80%!
近期,关于LLM(语言模型评估)的讨论热潮中,有关使用GPT-4进行比较的可扩展性和成本效益尤为突出。这种方法涉及一个模型来评估同一问题不同答案,并选择最佳答案以创建排名系统。但这方法存在明显局限性。因此,LMSYS.org评级创始人决定采用一种新的评估方法取代它。
开发团队推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们工作过程中,该团队收集了大量真实人类回答,并比较对不同答案偏好。这广泛数据集使他们能够更准确了解每个响应所涉及利弊。这个新方法依然利用GPT-4,但具备自动化、可扩展且价格实惠,每个人都能使用。
随着骆马、考拉、多莉等各种语言模型出现,使用GPT-4进行比较越来越流行提供了一个独特提示,其中包含来自模型A和模型B两个答案,并要求评价者按1到8分对其打分,从1表示A明显更好到8表示平局,以此类推。交换位置不会显著影响分数,而持续优势将导致胜利,这似乎是合乎逻辑的。但是,却发现位置偏差现象,其中一个模型会频繁地给予较高分数给另一个(假设是A)。
为了确保公平性,人工评价解释了这种偏见。HuggingFace团队在329个问题上的四个模型之间进行了一项有见地研究。在这项有趣研究中,他们发现尽管基于成对比较四个模式在人工评价和GPT-4之间有一致性的排名,但观察到了不同的Elo等级差距。这表明该模式可以区分好的坏的答案,但在一些边缘案例中与人工评价不太一致。
特别值得注意的是,该模式对其他模式之答语进行打分时,比起训练于相同环境下的人类答语而言,更高。而且,它们对于唯一令牌数量极度相关(Pearson=96.4)。这说明该模式并没有很好地判断答语质量,因此强调需要谨慎解释这些结果。此外,这些发现也强调,在仅依赖于GPT-4成绩时,对其他因素保持警觉非常重要。
通过改进提示并结合多种测量方式,研究人员希望提高用于比照各语言模块性能的工具——即生成文本—从70%提升至90%,减少误判率50%至10%,并增加用户满意度20%.
文章来源:巨星云“未来AI工具”
更多AI资讯,请关注公众号“巨星云”“未来AI工具”。