当前位置: 首页 - 手机 - 中国科普网GPT-4评估法神奇进步人类点赞率高达80

中国科普网GPT-4评估法神奇进步人类点赞率高达80

2025-03-04 手机 0

《GPT-4评估法神奇进步,人类点赞率高达80%!》

近日,一项新研究在语言模型评估(LLM)领域引起了广泛关注。科学家们利用GPT-4进行比较的可扩展性和成本效益受到了特别强调。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。不过,这种方法并非没有局限性,因此LMSYS.org评级的创建者决定采用一种新的、基于GPT-4的自我评估LLM方法,其与人工评估实现了惊人的80%的一致性。

开发人员通过收集大量真实人类回答,并比较对不同答案的偏好,建立了一个广泛数据集。这使他们能够更准确地了解每个响应所涉及的利弊。这个新的评价标准仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。

随着骆马、考拉和多莉等各种语言模型的出现,使用GPT-4进行比较变得越来越流行。提供了一种独特提示,其中包含来自两个不同的模型A和B答案,并要求评估者按1到8分数对其进行打分,1表示明显优于A,8为平局,而2至3以及6至7则表示更好的B。

然而,在这样的系统中出现了位置偏差现象,其中一个模型会更频繁地将较高分数给予另一个。这可能导致公平性的问题,因此人工评估必须解释这种偏见。

有趣的是,一项由HuggingFace团队进行的一项研究发现,即便四个不同的模型在329个问题上的表现,它们之间的人工评价与GPT-4评价之间存在一致性。此外,该研究还揭示出该模型对于其他训练过相同类型的问题得出的回答而言,对这些回答给予比人类更加积极的情感支持,这表明尽管该系统具有区分优秀与劣质回复能力,但它并不总是能准确反映人们对特定情况下的反应。在仅依赖于机器算法时,我们需要小心谨慎,以避免误判或忽视重要细节。在未来,为提高这类工具的可靠性和精度,我们希望改进提示设计并结合多种评价手段。此次突破性的进展无疑为我们打开了一扇窗,让我们能够更加深入地探索AI技术带来的可能性,同时也提醒我们要保持警惕,不断完善我们的工具,以满足不断变化的人类需求。

标签: 5g手机4g卡可以用吗华为最新款手机2023款2023哪款华为手机好2022年oppo手机排行榜千元手机推荐