GEO

Auditi开源平台如何评估和改进LLM应用?(附AI Agent评估方法)

2026/4/23
Auditi开源平台如何评估和改进LLM应用?(附AI Agent评估方法)

AIAI Summary (BLUF)

Auditi是一个开源平台,通过自动化LLM作为裁判的评估、人工标注流程与高级分析,实现对LLM应用的评估与改进。

Auditi: 开源 AI Agent 评估与可观测性平台

Auditi Logo

开源 AI Agent 评估与可观测性平台 通过自动化的 LLM-as-a-Judge 评估、人工标注工作流和高级分析,追踪、评估并改进您的 LLM 应用。

核心特性

平台核心能力

Auditi 旨在为构建在大型语言模型(Large Language Model, LLM)之上的 AI Agent 和复杂应用提供一站式的评估、追踪与优化解决方案。其核心能力覆盖了从开发到生产监控的全生命周期。

特性

描述

关键优势

自动追踪捕获

通过简单的装饰器或自动插桩,捕获 AI Agent 的每一次交互。

零侵入或低侵入式集成,无需大规模重构。

LLM-as-a-Judge 评估

使用可配置的 LLM 评估器,自动化评估 Agent 性能。

规模化、可重复的评估,减少人工成本。

人工标注工作流

带有可定制评分配置的标注队列,支持人机协同评估。

结合自动化与专家判断,确保评估质量。

高级分析看板

包含指标、趋势、相关性分析和异常检测的综合仪表盘。

数据驱动的洞见,快速定位性能瓶颈。

多供应商支持

兼容 OpenAI, Anthropic, Google Gemini 及 OpenAI 兼容 API。

避免供应商锁定,灵活适配技术栈。

成本追踪

基于供应商特定定价的自动成本计算,可通过定价 API 更新。

精细化成本管控,优化资源使用。

SDK 特性

SDK 设计以开发者体验为核心,力求用最少的代码改动实现最全面的可观测性。

  • 简单集成:通过 Python 装饰器或自动插桩实现,代码改动极小。

  • 灵活追踪:支持对 Agent、工具、LLM 调用、嵌入向量(Embedding)和检索操作进行追踪。

  • 异步支持:完整支持 async/await 异步编程模式。

  • 供应商抽象:自动检测和处理不同的 LLM 供应商。

  • 自定义评估器:支持构建用户自定义的评估逻辑。

快速开始

1. 安装与运行

通过 Docker Compose 可以快速启动包含所有依赖的完整 Auditi 服务栈。

# 克隆仓库
git clone https://github.com/deduu/auditi.git
cd auditi

# 生成必要的密钥
python -c "from cryptography.fernet import Fernet; print(Fernet.generate_key().decode())"
python -c "import secrets; print(secrets.token_urlsafe(32))"

# 创建包含密钥的 .env 文件
echo "ENCRYPTION_KEY=<paste-encryption-key-here>" > .env
echo "JWT_SECRET=<paste-jwt-secret-here>" >> .env

# 启动所有服务
docker-compose up -d

2. 身份验证

  1. 打开 http://localhost:5173 并创建您的管理员账户。

  2. 进入 设置 > API 密钥 并创建一个 API 密钥。

  3. 复制该密钥(仅显示一次)—— SDK 集成时需要用到它。

3. 集成到您的代码

通过几行代码即可实现对现有 LLM 调用的自动追踪。

import auditi
from openai import OpenAI

# 使用您的 API 密钥初始化
auditi.init(api_key="audi_...", base_url="http://localhost:8000")

# 自动插桩支持的库
auditi.instrument()

# 现在所有的 LLM 调用都会被自动追踪!
client = OpenAI()
response = client.chat.completions.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "What is the capital of France?"}]
)
print(response.choices[0].message.content)

系统架构与配置

架构概览

Auditi 采用清晰的分层架构,确保各组件职责分离且易于扩展。

SDK (Python) → HTTP POST → 后端 (FastAPI/PostgreSQL) → REST API → 前端 (React/Vite)

SDK 负责从应用代码中收集追踪数据并发送至后端。后端基于 FastAPI 构建,提供数据处理、存储和 API 接口。前端则提供交互式的可视化仪表盘。

关键配置

部署时需关注以下核心环境变量。

变量

描述

必要性

DATABASE_URL

PostgreSQL 数据库连接字符串。

必需

ENCRYPTION_KEY

用于加密 LLM API 密钥的 Fernet 密钥。

生产环境必需

JWT_SECRET

用于签发 JWT 会话令牌的密钥。

生产环境必需

CORS_ORIGINS

允许的 CORS 来源(逗号分隔)。

可选(默认本地开发配置)

未来发展路线图

Auditi 项目持续演进,未来版本计划涵盖更广泛的企业级功能和应用场景。

  • 实时流式支持:对流式 LLM 响应进行追踪和评估。

  • 更多 LLM 供应商集成:扩展对开源及新兴模型 API 的支持。

  • A/B 测试框架:支持对不同的 Agent 配置或模型进行对比实验。

  • 高级可视化选项:提供更丰富、可定制的数据图表。

  • 云部署模板:提供针对主流云平台的一键部署方案。

社区与贡献

我们欢迎并感谢社区的每一位贡献者。您可以通过以下方式参与:

  • GitHub 讨论区:在 Discussions 中提问、分享想法或与其他用户交流。

  • 问题反馈:通过 GitHub Issues 报告错误或请求新功能。

贡献代码请遵循标准的 Fork 工作流,并参阅 CONTRIBUTING.md 了解详细指南。

Auditi 基于 MIT 协议开源,详情请见 LICENSE 文件。

常见问题(FAQ)

Auditi平台如何评估LLM应用性能?

Auditi通过自动化LLM-as-a-Judge评估和人工标注工作流来评估LLM应用,支持可配置的LLM评估器进行规模化评估,并结合专家判断确保质量。

如何快速开始使用Auditi进行集成?

可通过Docker Compose一键启动完整服务栈,使用Python装饰器或自动插桩实现简单集成,代码改动极小,支持异步编程和多种LLM供应商。

Auditi提供哪些核心分析功能?

平台提供高级分析看板,包含指标、趋势、相关性分析和异常检测的综合仪表盘,支持自动追踪捕获交互数据,实现数据驱动的性能优化。

阿凯广州
本文由 阿凯 审核,最后更新于 2026年7月2日
联系编辑 →
← 返回文章列表
分享到:微博

版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。

文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。

若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。