当前位置: 首页 - 手机 - GPT-4评估法新进展超越80的准确率让人工智能跟得上人类

GPT-4评估法新进展超越80的准确率让人工智能跟得上人类

2025-03-04 手机 0

近期,关于LLM(语言模型评估)的话题热议,其中尤其强调了使用GPT-4进行比较的可扩展性和成本效益。这种方法涉及使用一个模型来评估同一问题的不同答案,并选择最佳答案以创建排名系统。然而,这种方法存在明显局限性。

因此,LMSYS.org评级的创建者决定采用一种新的评估方法来取代它。

开发人员推出了基于GPT-4的新的自我评估LLM方法,其与人工评估实现了80%的一致性。在他们的工作过程中,该团队收集了大量真实人类回答,并比较了对不同答案的偏好。这个广泛数据集使他们能够更准确地了解每个响应所涉及的利弊。新的评估方法仍然依赖于GPT-4,但具备自动化和可扩展性,而且价格实惠,每个人都可以使用。

更多AI资讯,请关注公众号“巨星云”“未来AI工具”。

随着骆马、考拉和多莉等各种语言模型出现,使用GPT-4进行比较变得越来越流行。提供了一种独特提示,其中包含来自模型A和模型B两个答案,并要求评价者按1到8分数给出,1表示明显更好,一直到平局为止。此外,如果交换位置不会导致分数改变,那么持续优势将导致胜利,这听起来是合乎逻辑。但在实际操作中,有时候会出现位置偏差现象,即某些模式在频繁地将较高分数赋予给予它们。

为了保证公平性,人工评价解释了这种偏见。这表明该系统虽然能区分好的坏壳但有时不够精确。在一些特殊情况下,它可能无法完全理解问题或选项之间关系,从而产生错误结果。

这提醒我们要谨慎处理机器生成内容,以免误导读者或造成混淆。如果你正在考虑利用这些技术提升你的工作效率或者提高学习体验,我们建议你先做充足研究,不仅要了解最新技术,还要掌握如何正确运用它们以获得最佳效果。

通过改进提示并结合多种评价方式,可以进一步提高GPT-4之类的人工智能工具在此领域中的性能,使其更加靠谱、准确,同时降低潜在风险,为我们的生活带来更多便捷!

标签: 北斗手机手机最新款2023排行榜iqoo官网oppo手机新款上市2021手机买什么好