大模型排行榜
整理了目前业界最具权威性的 LLM 能力评测排行榜,帮助了解不同大语言模型的性能表现。
查看榜单之前,请先了解一下古德哈特定律(Goodhart's Law)。中心思想是:一项指标一旦被当作目标,它就不再是一个好的指标。
学习资料:
基于此,请记住所有榜单的评测,都有缺陷和隐患,即便是公认最权威的榜单,也必定有局限性。
LLM能力排行榜
目前公信力最强的综合榜单,评测方法采用双盲对照评估,最科学最令人信服的科学评测方式。
特点: 由 LMSYS Org 团队 (UC Berkeley) 创建,采用Elo 评级系统,通过用户投票进行模型对比评估。
评估方法: 用户匿名与两个模型对话,并投票选出更喜欢的模型,系统根据投票结果更新模型 Elo 评分。
模型覆盖: 包括商业和开源 LLM,用户可以直接体验并参与投票。
权威性: 学术界背景,评估方法新颖,结果反映用户主观偏好。
关注点: 侧重于模型的用户体验和对话能力,更贴近实际应用场景。
关于LLM编码能力最权威的排行榜单
WebDev Arena 是 Chatbot Arena 在 Web 开发领域的延伸,它提供了一个专门评估和比较 AI 模型 Web 开发能力的平台,帮助用户了解和选择更适合 Web 开发任务的 AI 工具。可以通过 https://web.lmarena.ai/ 访问该平台
特点: 由 LMSYS Org 团队 (UC Berkeley) 创建,是 Chatbot Arena 的一个专门分支,专注于评估 AI 模型在 Web 开发任务中的能力。它同样采用了 Elo 评级系统,但评估侧重于模型在代码生成、网页构建等方面的表现。
评估方法: 用户在 Web 开发场景下匿名与两个模型互动,例如,要求模型生成网页代码、解决 Web 开发问题等。用户根据模型的表现,投票选出更优秀的模型。系统根据投票结果,更新模型在 WebDev Arena 中的 Elo 评分,从而反映模型在 Web 开发领域的竞争力。
模型覆盖: WebDev Arena 专注于评估擅长代码生成和 Web 开发 的 LLM,模型可能包括但不限于:
- 通用大语言模型在 Web 开发任务上的表现。
- 专门的代码生成模型,例如 Code Llama、StarCoder 等。
- 商业和开源模型均可能被纳入评估,用户可以体验不同模型在 Web 开发领域的实际能力。
权威性: 依托 LMSYS Org 团队 (UC Berkeley) 的学术背景,WebDev Arena 的评估方法继承了 Chatbot Arena 的新颖性和严谨性。其评估结果能够反映模型在 Web 开发用户场景下的实际表现和用户偏好。
关注点: WebDev Arena 侧重于模型在 Web 开发领域的实用能力,例如代码生成的质量、网页构建的效率、问题解决的准确性等。评估结果更贴近 开发者在实际 Web 开发场景中的需求,帮助用户了解不同 AI 模型在 Web 开发领域的优势和劣势。
里面包含了多个测试排行榜,包括人类最后的测试等。
特点: 由 Scale AI 的 SEAL 研究实验室创建,旨在通过专家驱动的私有评估,为前沿 LLM 的能力提供洞察。
评估方法: 采用高质量的数据集和精确的评估标准,通常由领域专家对模型的输出进行细致的分析和打分。评估标准会根据具体的评估挑战而有所不同,例如在“指令遵循评估”中,会侧重于模型理解和执行特定指令的能力;在“编码评估”中,会评估代码的真实性、正确性和可执行性。
关注点: 侧重于通过高质量的私有数据集和专家评估来衡量 LLM 在特定任务上的真实能力,例如指令遵循和编码能力。
特点: 由 TIGER-Lab 维护,专注于评估模型在 MMLU-Pro 基准测试上的性能,这是一个更具挑战性的 MMLU 版本。
评估维度: 主要关注模型的语言理解能力、复杂推理能力和多任务处理能力。
中文能力排行榜
github更新比较活跃。
github更新不活跃,很久没更新了。
中文的不权威,也做不到权威,图一乐而已,直接忽略别看,只看国外的榜单即可。
古德哈特定律
古德哈特定律(Goodhart's Law)是一个经济学概念,由英国经济学家查尔斯·古德哈特(Charles Goodhart)提出。 其核心观点是:当一个衡量指标被用作政策目标时,它就不再是一个好的衡量指标了。
简单来说,一旦某个指标成为人们追求的目标,人们就会想方设法去优化这个指标,甚至不惜牺牲其他方面或采取不正当手段。 这会导致该指标失去其原有的信息价值和代表性,不再能准确反映其最初想要衡量的整体情况。
古德哈特定律的几种表述:
- 当一个政策变成目标,它将不再是一个好的政策。
- 一项社会指标或经济指标,一旦成为用以指引宏观政策制定的既定目标,那么该指标就会丧失其原本具有的信息价值。
- 当压力施加于某个统计指标进行控制时,该指标将会失去任何观测得到的统计恒性。
为什么会出现古德哈特定律?
当一个指标成为目标后,人们的行为会发生改变,可能会出现以下情况:
- “应试”行为: 人们会专注于提升指标本身,而不是指标所代表的实际表现。例如,如果以代码行数作为程序员的绩效指标,程序员可能会倾向于复制粘贴代码,而不是进行重构优化,因为这样能产生更多的代码行数。
- 机会主义行为/博弈: 人们可能会寻找“捷径”或钻空子来达成指标,即使这些行为违背了设立指标的初衷。
- 忽略其他重要方面: 为了达成某个特定指标,其他未被量化或不那么容易测量的方面可能会被忽略,即使它们同样重要甚至更重要。
古德哈特定律的例子:
- “眼镜蛇效应”: 殖民时期印度德里政府为了减少眼镜蛇数量,奖励人们捕杀眼镜蛇。结果,人们开始饲养眼镜蛇以获取赏金。当政府取消赏金后,人们将饲养的眼镜蛇放生,导致眼镜蛇数量比以前更多。
- 大学排名: 如果大学过度关注排名(一个被优化的指标),可能会为了提升排名而在数据上作假,而忽视了教育质量(实际目标)。
- 客服绩效: 如果客服人员的绩效仅以处理案件量来衡量,他们可能会为了增加处理量而快速挂断电话,牺牲服务质量。
- 软件开发: 如果以解决BUG数量作为开发人员的绩效指标,开发人员可能宁愿BUG多一些也不追求完美,因为工作量体现在BUG数量上。
- 关键绩效指标(KPI): KPI 本身只是一种衡量手段,但如果过度强调KPI的量化数值,员工可能会为了达成KPI而采取不正当行为,导致KPI失去其作为衡量真实业绩的有效性。
如何应对古德哈特定律的挑战?
- 关注可控的输入指标而非仅看输出指标: 例如,亚马逊的每周业务审查(WBR)关注可控的输入指标,并允许在选择正确的指标时进行试错。
- 多维度衡量: 不要依赖单一指标,而是从多个角度、用多个指标来综合评估。
- 定期审视和调整指标: 随着情况的变化,需要定期重新评估目标和所使用的衡量指标。
- 警惕博弈行为: 认识到指标可能带来的博弈和非计划后果。
- 确保指标体系的益处大于成本。
总而言之,古德哈特定律提醒我们,在设定和使用任何衡量指标时,都需要谨慎思考其可能带来的潜在负面影响,并避免将其作为唯一的目标而忽略了更重要的实质内容。