科技部官方网站首页GPT-4评估方法大放异彩可靠性与人类评估一致性超越80让机器人也能像我们一样聪明

2025-03-04 手机 0

近日，语言模型评估（LLM）领域的讨论集中在使用GPT-4进行比较的可扩展性和成本效益上。这种方法涉及一个模型来评估同一问题的不同答案，并选择最佳答案以创建排名系统。然而，这种方法存在明显的局限性。

为了解决这些问题，LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。开发人员推出了基于GPT-4的新的自我评估LLM方法，其与人工评估实现了80%的一致性。在他们的工作过程中，该团队收集了大量真实人类回答，并比较了对不同答案的偏好。这份广泛数据集使他们能够更准确地了解每个响应所涉及的利弊。

这个新方法仍然依赖于GPT-4，但具备自动化和可扩展性，而且价格实惠，每个人都可以使用。随着骆马、考拉和多莉等各种语言模型出现，使用GPT-4进行比较变得越来越受欢迎。

研究人员发现，在HuggingFace团队进行的一项有见地研究中，四个不同的模型在329个不同问题上的答案被精心分析。在这项有趣研究中，他们发现基于成对比较四个模型排名之间的人工评价与GPT-4之间是一致性的，但是Elo分数差距存在差异。这表明该模型可以区分好的和坏的问题，但在一些边缘案例中，与人工评价不完全一致。

此外，该研究还发现，对其他模型提供高得分特别是那些训练过于依赖于某些特定输入（如单词数量）的模式，这可能导致它们无法很好地理解或判断其他类型的问题。此外，还有一点值得注意的是，即使是最先进的人工智能系统，也可能犯错误并且缺乏深度思考能力，所以要小心不要仅仅依靠AI工具作为决策支持工具，而应该结合多方面信息做出决策。

通过改进提示以及结合各种评测手段，科学家们希望提高GPT-4等AI系统在质量保证中的应用水平，使其更加接近甚至超过人类标准，从而为未来带来更多可能性。但是，我们必须意识到即便技术发展迅速，它们也不能替代人的直觉、情感以及复杂思维能力，因此，在任何情况下，都需要谨慎行事并考虑到所有潜在影响因素。

标签：实用手机、 vivo iqoo neo5 、苹果手机价格一览表、图片2023手机壁纸、彩屏手机

下一篇：谁说超轻薄与可靠性不能兼顾OPPO Find N5这次真的超耐用

科技部官方网站首页GPT-4评估方法大放异彩可靠性与人类评估一致性超越80让机器人也能像我们一样聪明

离心风机型号及参数大全专业技术参数详解

疫情新希望解密中国研发的奇效抗疫药物

沙石分离机重塑矿石加工的关键技术与应用

新冠疫情期间的药物选择专家推荐三大治疗方案

工业用水过滤设备-高效除垢系统确保工业生产的清洁与持续