大模型评测框架

主流大模型评测框架的功能对比、选型建议和使用指南，帮助团队选择最适合的评测工具。

🎯 评测框架概述

大模型评测框架提供标准化的评测流程和丰富的评测集支持。选择合适的评测框架可以大幅度降低评测体系建设的门槛和成本。

• OpenCompass：覆盖300+评测集，支持多模型并行，社区活跃
• lm-eval-harness：社区标准，集成大量学术评测集
• DeepEval：面向AI应用的轻量级框架，支持自定义指标
• LangSmith：商业化平台，提供可视化和版本对比

学术研究首选lm-eval-harness；AI应用开发优先DeepEval；企业级场景选择OpenCompass或LangSmith。可多框架组合使用。