Launchstack平台如何实现AI文档分析与RAG工作流?
AI Summary (BLUF)
Launchstack is a Next.js-based platform for role-based document management, AI-assisted Q&A, and predictive document analysis. It combines document upload, OCR, embeddings, and semantic retrieval to help teams identify gaps and act faster through RAG workflows.
原文翻译: Launchstack是一个基于Next.js的平台,用于基于角色的文档管理、AI辅助问答和预测性文档分析。它结合了文档上传、OCR、嵌入和语义检索,通过RAG工作流帮助团队识别差距并更快地采取行动。
Launchstack 是一个基于 Next.js基于React的现代全栈Web开发框架,支持服务端渲染和静态生成。 构建的专业平台,专注于基于角色的文档管理、AI辅助问答和预测性文档分析。它集成了文档上传、可选OCR、向量嵌入和语义检索功能,旨在帮助团队快速发现文档中的信息缺口并采取行动。
Launchstack 是一个基于 Next.js基于React的现代全栈Web开发框架,支持服务端渲染和静态生成。 构建的专业平台,专注于基于角色的文档管理、AI辅助问答和预测性文档分析。它集成了文档上传、可选OCR、向量嵌入和语义检索功能,旨在帮助团队快速发现文档中的信息缺口并采取行动。
核心功能
- 基于Clerk一个身份验证和用户管理平台,提供基于角色的访问控制(RBAC)功能。的身份验证与角色管理:提供雇主/员工身份验证,并配备角色感知的中间件。
- 文档上传与处理管道:支持文档上传,并为扫描的PDF提供可选的OCR功能。
- 语义检索与RAG工作流:使用 PostgreSQL + pgvectorPostgreSQL的扩展,支持向量相似性搜索,提供高效的向量存储和检索功能。 实现语义检索,支撑检索增强生成(RAG)工作流。
- AI聊天与预测性分析:支持对上传内容进行AI聊天和预测性文档分析。
- 智能体安全护栏:包含PII过滤、事实性检查(Grounding Checks)和置信度门控(Confidence Gating)等机制。
- 监督智能体:根据特定领域的评估标准(Rubrics)验证输出结果。
- 营销内容生成管道:自动为 Reddit、X、LinkedIn 和 Bluesky 等平台生成营销内容。
- 可选网络增强分析:可集成 Tavily一个网络搜索API,用于增强文档分析的外部知识获取。 进行网络信息检索以丰富分析。
- 可选可靠性与可观测性:支持通过 Inngest一个用于管理后台作业和任务队列的平台,提高应用程序的可靠性和可观察性。 和 LangSmith一个用于追踪、调试和评估智能体执行链路的工具,可通过设置环境变量和 API Key 实现可视化观测。 实现任务可靠性和系统可观测性。
- 基于Clerk一个身份验证和用户管理平台,提供基于角色的访问控制(RBAC)功能。的身份验证与角色管理:提供雇主/员工身份验证,并配备角色感知的中间件。
- 文档上传与处理管道:支持文档上传,并为扫描的PDF提供可选的OCR功能。
- 语义检索与RAG工作流:使用 PostgreSQL + pgvectorPostgreSQL的扩展,支持向量相似性搜索,提供高效的向量存储和检索功能。 实现语义检索,支撑检索增强生成(RAG)工作流。
- AI聊天与预测性分析:支持对上传内容进行AI聊天和预测性文档分析。
- 智能体安全护栏:包含PII过滤、事实性检查(Grounding Checks)和置信度门控(Confidence Gating)等机制。
- 监督智能体:根据特定领域的评估标准(Rubrics)验证输出结果。
- 营销内容生成管道:自动为 Reddit、X、LinkedIn 和 Bluesky 等平台生成营销内容。
- 可选网络增强分析:可集成 Tavily一个网络搜索API,用于增强文档分析的外部知识获取。 进行网络信息检索以丰富分析。
- 可选可靠性与可观测性:支持通过 Inngest一个用于管理后台作业和任务队列的平台,提高应用程序的可靠性和可观察性。 和 LangSmith一个用于追踪、调试和评估智能体执行链路的工具,可通过设置环境变量和 API Key 实现可视化观测。 实现任务可靠性和系统可观测性。
预测性分析——支持的文档类型
Launchstack 能够根据您的文档类型,运行特定领域的分析。
Launchstack 能够根据您的文档类型,运行特定领域的分析。
| 文档类型 | 主要检测内容 |
|---|---|
| 合同 | 缺失的附件、附表、附录及补充协议 |
| 财务 | 缺失的资产负债表、审计报告、损益表 |
| 技术 | 缺失的规格说明书、操作手册、图表、交付物 |
| 合规 | 缺失的监管申报文件、认证证书、政策文件 |
| 教育 | 缺失的教学大纲、讲义、阅读材料、链接资源 |
| 人力资源 | 缺失的政策、表格、福利材料、员工手册 |
| 研究 | 缺失的引用论文、数据集、补充材料 |
| 通用 | 任何包含交叉引用和附件的文档 |
每种分析类型还会提取关键信息(如截止日期、待办事项、资源、注意事项),并对高优先级的预测结果进行验证链(Chain-of-Verification)检查。
每种分析类型还会提取关键信息(如截止日期、待办事项、资源、注意事项),并对高优先级的预测结果进行验证链(Chain-of-Verification)检查。
导入外部知识
Launchstack 可以导入从第三方工具导出的内容。无需配置API密钥或OAuth——只需导出您的数据,上传文件,剩下的工作由数据摄取管道处理。
Launchstack 可以导入从第三方工具导出的内容。无需配置API密钥或OAuth——只需导出您的数据,上传文件,剩下的工作由数据摄取管道处理。
支持的导出格式
| 数据源 | 导出方法 | 导出格式 | Launchstack适配器 |
|---|---|---|---|
| Notion | 设置 > 导出 > Markdown & CSV | .md, .csv (ZIP压缩包) |
TextAdapter, SpreadsheetAdapter |
| Notion | 页面 > 导出 > HTML | .html |
HtmlAdapter |
| Google Docs | 文件 > 下载 > Microsoft Word | .docx |
DocxAdapter |
| Google Sheets | 文件 > 下载 > CSV 或 Excel | .csv, .xlsx |
SpreadsheetAdapter |
| Google Drive | Google Takeout (takeout.google.com) | .docx (ZIP压缩包) |
DocxAdapter |
| Slack | 工作区设置 > 导入/导出 > 导出 | .json (ZIP压缩包) |
JsonExportAdapter |
| GitHub | 代码 > 下载 ZIP | .md, .txt (ZIP压缩包) |
TextAdapter |
| GitHub | gh issue list --json ... |
.json |
JsonExportAdapter |
| GitHub | gh pr list --json ... |
.json |
JsonExportAdapter |
如何导出
Notion
Notion
- 打开您的 Notion 工作区。
- 在页面上点击 ... 菜单,或进入 设置与成员 > 导出 进行整个工作区的导出。
- 选择 Markdown & CSV 作为格式,如果需要,勾选 包含子页面。
- 下载 ZIP 文件并直接上传到 Launchstack。
- 打开您的 Notion 工作区。
- 在页面上点击 ... 菜单,或进入 设置与成员 > 导出 进行整个工作区的导出。
- 选择 Markdown & CSV 作为格式,如果需要,勾选 包含子页面。
- 下载 ZIP 文件并直接上传到 Launchstack。
Google Docs / Sheets
Google Docs / Sheets
- 在 Google Docs 或 Sheets 中打开文档。
- 进入 文件 > 下载,选择 Microsoft Word (.docx) 或 CSV / Excel (.xlsx)。
- 上传下载的文件。对于批量导出,请使用 Google Takeout 将您的 Drive 导出为 ZIP 文件。
- 在 Google Docs 或 Sheets 中打开文档。
- 进入 文件 > 下载,选择 Microsoft Word (.docx) 或 CSV / Excel (.xlsx)。
- 上传下载的文件。对于批量导出,请使用 Google Takeout 将您的 Drive 导出为 ZIP 文件。
Slack
Slack
- 进入 工作区设置 > 导入/导出数据 > 导出。
- 选择日期范围并开始导出。
- 下载 ZIP 文件并上传到 Launchstack。每个频道的消息将被作为单独的文档摄取。
- 进入 工作区设置 > 导入/导出数据 > 导出。
- 选择日期范围并开始导出。
- 下载 ZIP 文件并上传到 Launchstack。每个频道的消息将被作为单独的文档摄取。
GitHub
GitHub
- 仓库文档:在任何 GitHub 仓库点击 代码 > 下载 ZIP。上传该 ZIP 文件——所有 Markdown 和文本文件将被摄取。
- Issues:安装 GitHub CLI 并运行:
上传生成的gh issue list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,closedAt,comments > issues.jsonissues.json文件。 - Pull requests:运行:
上传生成的gh pr list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,mergedAt,comments > prs.jsonprs.json文件。
- 仓库文档:在任何 GitHub 仓库点击 代码 > 下载 ZIP。上传该 ZIP 文件——所有 Markdown 和文本文件将被摄取。
- Issues:安装 GitHub CLI 并运行:
上传生成的gh issue list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,closedAt,comments > issues.jsonissues.json文件。- Pull requests:运行:
上传生成的gh pr list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,mergedAt,comments > prs.jsonprs.json文件。
所有上传的内容都会流经标准的数据摄取管道(分块、嵌入、RAG索引),并与其他文档一起变得可搜索。
所有上传的内容都会流经标准的数据摄取管道(分块、嵌入、RAG索引),并与其他文档一起变得可搜索。
系统架构
Launchstack 遵循三层模块化架构:
Launchstack 遵循三层模块化架构:
block-beta
columns 9
SLABEL["Services\nLayer"]:1
MKT["Marketing Engine\n─────────────\nTrend Analysis\nContent Generation\nWeb Scraping Jobs"]:2
LEG["Legal Services\n─────────────\nTemplate Library\nAuto-Fill & Clauses\nLegal Vault"]:2
ONB["Employee Onboarding\n─────────────\nOnboarding Agent\nQuizzes & Checks\nProgress Tracking"]:2
DOCR["Document Reasoning\n─────────────\nPage Index & TOC\nRLM Agent\nKnowledge Graph"]:2
space:9
TLABEL["Tools\nLayer"]:1
RAG["RAG Pipeline\n(BM25 + Vector)"]:2
WEB["Web Search\n(Tavily, Firecrawl)"]:2
REW["Doc Rewrite\n(Summarize, Refine)"]:2
TMPL["Template Engine\n(Form → PDF)"]:2
space:1
ING["Doc Ingestion\n(OCR, Chunk, Embed)"]:4
ENT["Entity Extraction\n(NER, Graph RAG)"]:4
space:9
PLABEL["Physical\nLayer"]:1
DB["PostgreSQL + pgvector\n─────────────\nEmbeddings Index\nDocument Structure\nKnowledge Graph\nDomain Tables"]:2
HOST["Hosting & Compute\n─────────────\nNext.js 15\nInngest Jobs\nAgent Hosting\nML Sidecar"]:2
EXT["External Services\n─────────────\nOCR Providers\nFile Storage (S3)\nClerk Auth + RBAC"]:2
KBS["Knowledge Bases\n─────────────\nCompany KB\nLegal Templates\nOnboarding Docs"]:2
%% Service → Tool edges
MKT --> RAG
MKT --> WEB
MKT --> REW
LEG --> RAG
LEG --> REW
LEG --> TMPL
ONB --> RAG
ONB --> REW
DOCR --> RAG
DOCR --> WEB
DOCR --> REW
DOCR --> ING
DOCR --> ENT
%% Tool → Physical edges
RAG --> DB
RAG --> KBS
WEB --> HOST
REW --> HOST
TMPL --> EXT
TMPL --> KBS
ING --> DB
ING --> EXT
ING --> HOST
ENT --> DB
ENT --> HOST
classDef layer fill:#1a1a2e,color:#eee,stroke:none
classDef svc fill:#4A90D9,color:#fff,stroke:#2C5F8A,stroke-width:1px
classDef tool fill:#F5A623,color:#fff,stroke:#C47D0E,stroke-width:1px
classDef phys fill:#27AE60,color:#fff,stroke:#1E8449,stroke-width:1px
class SLABEL,TLABEL,PLABEL layer
class MKT,LEG,ONB,DOCR svc
class RAG,WEB,REW,TMPL,ING,ENT tool
class DB,HOST,EXT,KBS phys
该平台组织如下:
该平台组织如下:
- 服务层 - 垂直业务模块(营销、法务、员工入职、文档推理)
- 工具层 - 可复用的AI能力(RAG、网络搜索、文档处理、实体提取)
- 物理层 - 基础设施(PostgreSQL + pgvectorPostgreSQL的扩展,支持向量相似性搜索,提供高效的向量存储和检索功能。、Next.js基于React的现代全栈Web开发框架,支持服务端渲染和静态生成。 托管、外部服务、知识库)
- 服务层 - 垂直业务模块(营销、法务、员工入职、文档推理)
- 工具层 - 可复用的AI能力(RAG、网络搜索、文档处理、实体提取)
- 物理层 - 基础设施(PostgreSQL + pgvectorPostgreSQL的扩展,支持向量相似性搜索,提供高效的向量存储和检索功能。、Next.js基于React的现代全栈Web开发框架,支持服务端渲染和静态生成。 托管、外部服务、知识库)
所有服务都在由 Clerk一个身份验证和用户管理平台,提供基于角色的访问控制(RBAC)功能。 RBAC 强制执行的领域分区边界内运行。RAG 查询通过 domain + company_id 进行作用域限定,以确保数据隔离。
所有服务都在由 Clerk一个身份验证和用户管理平台,提供基于角色的访问控制(RBAC)功能。 RBAC 强制执行的领域分区边界内运行。RAG 查询通过
domain + company_id进行作用域限定,以确保数据隔离。
技术栈
- Next.js基于React的现代全栈Web开发框架,支持服务端渲染和静态生成。 15 + TypeScript
- PostgreSQL + Drizzle ORM + pgvectorPostgreSQL的扩展,支持向量相似性搜索,提供高效的向量存储和检索功能。
- Clerk一个身份验证和用户管理平台,提供基于角色的访问控制(RBAC)功能。 身份验证
- OpenAI + LangChain
- UploadThing + 可选的OCR服务提供商
- Tailwind CSS
- Next.js基于React的现代全栈Web开发框架,支持服务端渲染和静态生成。 15 + TypeScript
- PostgreSQL + Drizzle ORM + pgvectorPostgreSQL的扩展,支持向量相似性搜索,提供高效的向量存储和检索功能。
- Clerk一个身份验证和用户管理平台,提供基于角色的访问控制(RBAC)功能。 身份验证
- OpenAI + LangChain
- UploadThing + 可选的OCR服务提供商
- Tailwind CSS
环境要求
- Node.js 18+
- pnpm
- Docker + Docker Compose(推荐用于本地数据库/全栈开发)
- Git
- Node.js 18+
- pnpm
- Docker + Docker Compose(推荐用于本地数据库/全栈开发)
- Git
快速开始
1) 克隆仓库并安装依赖
git clone <repository-url>
cd pdr_ai_v2-2
pnpm install
2) 配置环境变量
根据 .env.example 创建 .env 文件并填写必要的值:
根据
.env.example创建.env文件并填写必要的值:
DATABASE_URLNEXT_PUBLIC_CLERK_PUBLISHABLE_KEYCLERK_SECRET_KEYBLOB_READ_WRITE_TOKEN(Vercel Blob 读写令牌)
常见问题(FAQ)
Launchstack平台如何实现PDF文档的智能问答?
Launchstack通过文档上传、OCR处理、向量嵌入和语义检索构建RAG工作流。它使用PostgreSQL+pgvectorPostgreSQL的扩展,支持向量相似性搜索,提供高效的向量存储和检索功能。进行语义搜索,结合AI模型生成答案,并包含事实性检查和置信度门控等安全机制。
Launchstack支持哪些类型的文档进行预测性分析?
支持合同、财务、技术、合规、教育、人力资源、研究和通用文档。例如,合同分析可检测缺失的附件和补充协议,技术文档可发现缺失的规格说明书和图表。
如何将Notion或Google Docs的内容导入Launchstack?
从Notion导出Markdown/CSV或HTML文件,从Google Docs导出.docx文件,直接上传即可。平台内置适配器(如TextAdapter、HtmlAdapter)自动处理数据摄取,无需配置API密钥。
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。