AI 工具库 / LLMOps、评测与可观测
评测数据 / 发布门禁
帮助团队构建 evals、分析 traces,并在发布前发现 AI 产品质量问题的平台
适合
适合需要持续评测、A/B prompt、模型切换和质量回归检测的 AI 产品团队
注意
需要配合明确的测试集和业务指标,否则评测分数难以解释
同类工具