时代科技LLM大模型较量清华神威跃居第五震撼全球AI界

2025-02-24 智能 0

时代科技：开源大模型竞技场揭秘！UC伯克利博士Lianmin Zheng牵头的Chatbot Arena通过匿名随机对抗评估模型，Elo等级排行榜震撼全球AI界！

自GPT火爆之后，流行的开源大型语言模型越来越多。为了解决这个问题，LMSYS 组织（由UC伯克利博士Lianmin Zheng牵头）建立了 Chatbot Arena 基准平台，这个平台通过匿名随机竞争来评估这些模型，并发布Elo 等级排行榜。这个排行榜至今仍在定期更新，以期待更多用户贡献新的模型，并进行投票。

开发者们也可以参与进来！他们可以访问 https://arena.lmsys.org 为更好的模型投票。如果想在竞技场中查看特定模型，可以按照指南（https://GitHub.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model）添加它。

在这次比赛中，大型语言模式们直接进行比拼，就像图1中所示，一个完美地回答了正确答案，而另一个则不幸地出现了错误。图3展示了前15种语言的战斗计数，其中显示大多数用户提示都是英语。

玩家的评分可以在每场战斗后线性更新。假设玩家 A（具有 Rating Ra）被期望得分 Ea 但实际得分 Sa 。更新玩家评分的公式是：

使用收集到的数据，计算了该笔记本中模型的 Elo 评分，并将主要结果放在表1中。欢迎大家自己尝试使用投票数据来计算评分。但是，由于公开对话历史会引起隐私和病毒等担忧，所以数据只包含投票结果，没有对话历史。

双赢率作为校准的基础，LMSYS 组织还展示了锦标赛中每个模型的成对获胜率（图4）以及使用 Elo 评级估算的预测成对获胜率（图5）。通过比较数据，我们发现 Elo 评级可以相对较好地预测胜率。

接下来，有以下计划：

添加更多闭源模式

添加更多开源模式

发布定期更新排行榜

实施更好的采样算法、锦标赛机制和服务系统以支持更多模

希望所有用户能进行反馈，以使竞技场变得更好。在演示页面 https://arena.lmsys.org 上，你可以查看当前正在进行的大型语言模式之间激烈角逐。而排名列表可见于 https://leaderboard.lmsys.org 上。你还能从 GitHub 获取相关信息：https://github.com/lm-sys/FastChat，并且Colab 笔记本位于 https://colab.research.google.com/drive/1lAQ9cKVERXI1rEYq7hTKNaCQ5Q8TzrI5 ?usp=sharing

标签：智能监控多少钱一台、智能识别图片、智能锁、 ai智能聊天软件、智能化包括哪些

上一篇：上市风波中的核酸检测专家有何高见

下一篇：智能化进程自动焊接设备的未来发展与应用前景

时代科技LLM大模型较量清华神威跃居第五震撼全球AI界

国家科技成果网官网发布GPT-4霸榜LLM排行榜330亿参数强劲一击小羊驼开源版稳坐开源之首

广撒科技文明之网人物尽入其网

光影之主照耀未来科技的领航者

科技强国之路正如李森科所言科学就是发现自然界规律的力量近期OpenAI对ChatGPT进行了大范围封

2022年芯片龙头股排名前十的奇迹之旅