跳到主要内容

模型选型指南

按类型浏览


第三方评测平台

不知道该用哪个模型?以下第三方评测平台可以帮助你根据自身需求做出选型决策。这些平台持续更新,数据比任何静态文档都更准确和及时。

综合能力排名

平台说明
Chatbot Arena(LMSYS)全球最权威的盲测排名,用户投票 + ELO 评分,支持按代码/数学/推理等维度筛选
OpenCompass 司南国内最全面的大模型评测,上海人工智能实验室维护,中英文模型均覆盖

性价比与速度

平台说明
Artificial Analysis专为 API 用户设计,对比质量/价格/速度/延迟,支持拖动权重直接给出最优选择
CompassArena 司南竞技场中文场景盲测对比,与 OpenCompass 同一团队维护

细分任务表现

平台说明
LiveBench自动化评测,题目定期刷新避免数据污染,覆盖数学/代码/推理/语言理解等维度
FlagEval 天秤北京智源研究院维护,覆盖大语言模型和多模态模型的多维度评测

开源模型排名

平台说明
Open LLM Leaderboard(Hugging Face)全球开源模型权威排名
SuperCLUE老牌中文评测品牌,覆盖推理、知识、安全性、多轮对话等维度

信息

了解各模型详细参数、价格和接入方式,请访问 模型列表