Open LLM Leaderboard 是一个开放的大型语言模型性能评估平台,旨在为全球的AI研究者和开发者提供一个公正、透明的性能比较和排名环境。
大规模多任务语言理解基准
中文通用大模型综合性测评基准
H2O.ai推出的基于Elo评级方法的大模型评估系统
生物医学研究问答数据集和模型得分排行榜
FlagEval是一款专业的AI驱动的评估工具,旨在为企业提供高效、精确的数据分析和业务决策支持。
LLMEval3是一款专为评估和提升大型语言模型性能而设计的AI应用工具。
C-Eval是一款先进的人工智能评估工具,专门设计用于评估和分析文本内容的质量。
CMMLU(Computer Machine Learning Model Library & Utilities)是一款集成了机器学习模型库和实用工具的AI应用。
OpenCompass是一个致力于推动人工智能技术开放和共享的平台。
HELM是一款专为AI项目管理设计的智能工具,它通过集成先进的人工智能技术,为项目团队提供高效的协作和管理解决方案。
MMBench是一个领先的人工智能性能评估平台,提供了一个公正且全面的AI模型排行榜。该平台汇集了来自全球顶尖大学和研究机构的最新AI研究成果,通过一系列精心设计的测试用例,对各种AI模型进行性能评估
Chatbot Arena是一款集成了众多聊天机器人的在线平台,旨在为用户提供一个交互式的体验空间,同时为开发者提供一个展示和测试其聊天机器人的场所。