2025-03-04 手机 0
近日,语言模型评估(LLM)领域的讨论集中在使用GPT-4进行比较的可扩展性和成本效益上。这种方法涉及一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法存在明显的局限性。
为了解决这些问题,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这份广泛数据集使他们能够更准确地了解每个响应所涉及的利弊。
这个新方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。随着骆马、考拉和多莉等各种语言模型出现,使用GPT-4进行比较变得越来越受欢迎。
研究人员发现,在HuggingFace团队进行的一项有见地研究中,四个不同的模型在329个不同问题上的答案被精心分析。在这项有趣研究中,他们发现基于成对比较四个模型排名之间的人工评价与GPT-4之间是一致性的,但是Elo分数差距存在差异。这表明该模型可以区分好的和坏的问题,但在一些边缘案例中,与人工评价不完全一致。
此外,该研究还发现,对其他模型提供高得分特别是那些训练过于依赖于某些特定输入(如单词数量)的模式,这可能导致它们无法很好地理解或判断其他类型的问题。此外,还有一点值得注意的是,即使是最先进的人工智能系统,也可能犯错误并且缺乏深度思考能力,所以要小心不要仅仅依靠AI工具作为决策支持工具,而应该结合多方面信息做出决策。
通过改进提示以及结合各种评测手段,科学家们希望提高GPT-4等AI系统在质量保证中的应用水平,使其更加接近甚至超过人类标准,从而为未来带来更多可能性。但是,我们必须意识到即便技术发展迅速,它们也不能替代人的直觉、情感以及复杂思维能力,因此,在任何情况下,都需要谨慎行事并考虑到所有潜在影响因素。