GEO

Launchstack平台如何实现AI文档分析与RAG工作流?

2026/4/10
Launchstack平台如何实现AI文档分析与RAG工作流?

AI Summary (BLUF)

Launchstack is a Next.js-based platform for role-based document management, AI-assisted Q&A, and predictive document analysis. It combines document upload, OCR, embeddings, and semantic retrieval to help teams identify gaps and act faster through RAG workflows.

原文翻译: Launchstack是一个基于Next.js的平台,用于基于角色的文档管理、AI辅助问答和预测性文档分析。它结合了文档上传、OCR、嵌入和语义检索,通过RAG工作流帮助团队识别差距并更快地采取行动。

Launchstack 是一个基于 Next.js 构建的专业平台,专注于基于角色的文档管理、AI辅助问答和预测性文档分析。它集成了文档上传、可选OCR、向量嵌入和语义检索功能,旨在帮助团队快速发现文档中的信息缺口并采取行动。

Launchstack 是一个基于 Next.js 构建的专业平台,专注于基于角色的文档管理、AI辅助问答和预测性文档分析。它集成了文档上传、可选OCR、向量嵌入和语义检索功能,旨在帮助团队快速发现文档中的信息缺口并采取行动。

核心功能

  • 基于Clerk的身份验证与角色管理:提供雇主/员工身份验证,并配备角色感知的中间件。
  • 文档上传与处理管道:支持文档上传,并为扫描的PDF提供可选的OCR功能。
  • 语义检索与RAG工作流:使用 PostgreSQL + pgvector 实现语义检索,支撑检索增强生成(RAG)工作流。
  • AI聊天与预测性分析:支持对上传内容进行AI聊天和预测性文档分析。
  • 智能体安全护栏:包含PII过滤、事实性检查(Grounding Checks)和置信度门控(Confidence Gating)等机制。
  • 监督智能体:根据特定领域的评估标准(Rubrics)验证输出结果。
  • 营销内容生成管道:自动为 Reddit、X、LinkedIn 和 Bluesky 等平台生成营销内容。
  • 可选网络增强分析:可集成 Tavily 进行网络信息检索以丰富分析。
  • 可选可靠性与可观测性:支持通过 InngestLangSmith 实现任务可靠性和系统可观测性。
  • 基于Clerk的身份验证与角色管理:提供雇主/员工身份验证,并配备角色感知的中间件。
  • 文档上传与处理管道:支持文档上传,并为扫描的PDF提供可选的OCR功能。
  • 语义检索与RAG工作流:使用 PostgreSQL + pgvector 实现语义检索,支撑检索增强生成(RAG)工作流。
  • AI聊天与预测性分析:支持对上传内容进行AI聊天和预测性文档分析。
  • 智能体安全护栏:包含PII过滤、事实性检查(Grounding Checks)和置信度门控(Confidence Gating)等机制。
  • 监督智能体:根据特定领域的评估标准(Rubrics)验证输出结果。
  • 营销内容生成管道:自动为 Reddit、X、LinkedIn 和 Bluesky 等平台生成营销内容。
  • 可选网络增强分析:可集成 Tavily 进行网络信息检索以丰富分析。
  • 可选可靠性与可观测性:支持通过 InngestLangSmith 实现任务可靠性和系统可观测性。

预测性分析——支持的文档类型

Launchstack 能够根据您的文档类型,运行特定领域的分析。

Launchstack 能够根据您的文档类型,运行特定领域的分析。

文档类型 主要检测内容
合同 缺失的附件、附表、附录及补充协议
财务 缺失的资产负债表、审计报告、损益表
技术 缺失的规格说明书、操作手册、图表、交付物
合规 缺失的监管申报文件、认证证书、政策文件
教育 缺失的教学大纲、讲义、阅读材料、链接资源
人力资源 缺失的政策、表格、福利材料、员工手册
研究 缺失的引用论文、数据集、补充材料
通用 任何包含交叉引用和附件的文档

每种分析类型还会提取关键信息(如截止日期、待办事项、资源、注意事项),并对高优先级的预测结果进行验证链(Chain-of-Verification)检查。

每种分析类型还会提取关键信息(如截止日期、待办事项、资源、注意事项),并对高优先级的预测结果进行验证链(Chain-of-Verification)检查。

导入外部知识

Launchstack 可以导入从第三方工具导出的内容。无需配置API密钥或OAuth——只需导出您的数据,上传文件,剩下的工作由数据摄取管道处理。

Launchstack 可以导入从第三方工具导出的内容。无需配置API密钥或OAuth——只需导出您的数据,上传文件,剩下的工作由数据摄取管道处理。

支持的导出格式

数据源 导出方法 导出格式 Launchstack适配器
Notion 设置 > 导出 > Markdown & CSV .md, .csv (ZIP压缩包) TextAdapter, SpreadsheetAdapter
Notion 页面 > 导出 > HTML .html HtmlAdapter
Google Docs 文件 > 下载 > Microsoft Word .docx DocxAdapter
Google Sheets 文件 > 下载 > CSV 或 Excel .csv, .xlsx SpreadsheetAdapter
Google Drive Google Takeout (takeout.google.com) .docx (ZIP压缩包) DocxAdapter
Slack 工作区设置 > 导入/导出 > 导出 .json (ZIP压缩包) JsonExportAdapter
GitHub 代码 > 下载 ZIP .md, .txt (ZIP压缩包) TextAdapter
GitHub gh issue list --json ... .json JsonExportAdapter
GitHub gh pr list --json ... .json JsonExportAdapter

如何导出

Notion

Notion

  1. 打开您的 Notion 工作区。
  2. 在页面上点击 ... 菜单,或进入 设置与成员 > 导出 进行整个工作区的导出。
  3. 选择 Markdown & CSV 作为格式,如果需要,勾选 包含子页面
  4. 下载 ZIP 文件并直接上传到 Launchstack。
  1. 打开您的 Notion 工作区。
  2. 在页面上点击 ... 菜单,或进入 设置与成员 > 导出 进行整个工作区的导出。
  3. 选择 Markdown & CSV 作为格式,如果需要,勾选 包含子页面
  4. 下载 ZIP 文件并直接上传到 Launchstack。

Google Docs / Sheets

Google Docs / Sheets

  1. 在 Google Docs 或 Sheets 中打开文档。
  2. 进入 文件 > 下载,选择 Microsoft Word (.docx)CSV / Excel (.xlsx)
  3. 上传下载的文件。对于批量导出,请使用 Google Takeout 将您的 Drive 导出为 ZIP 文件。
  1. 在 Google Docs 或 Sheets 中打开文档。
  2. 进入 文件 > 下载,选择 Microsoft Word (.docx)CSV / Excel (.xlsx)
  3. 上传下载的文件。对于批量导出,请使用 Google Takeout 将您的 Drive 导出为 ZIP 文件。

Slack

Slack

  1. 进入 工作区设置 > 导入/导出数据 > 导出
  2. 选择日期范围并开始导出。
  3. 下载 ZIP 文件并上传到 Launchstack。每个频道的消息将被作为单独的文档摄取。
  1. 进入 工作区设置 > 导入/导出数据 > 导出
  2. 选择日期范围并开始导出。
  3. 下载 ZIP 文件并上传到 Launchstack。每个频道的消息将被作为单独的文档摄取。

GitHub

GitHub

  1. 仓库文档:在任何 GitHub 仓库点击 代码 > 下载 ZIP。上传该 ZIP 文件——所有 Markdown 和文本文件将被摄取。
  2. Issues:安装 GitHub CLI 并运行:
    gh issue list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,closedAt,comments > issues.json
    
    上传生成的 issues.json 文件。
  3. Pull requests:运行:
    gh pr list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,mergedAt,comments > prs.json
    
    上传生成的 prs.json 文件。
  1. 仓库文档:在任何 GitHub 仓库点击 代码 > 下载 ZIP。上传该 ZIP 文件——所有 Markdown 和文本文件将被摄取。
  2. Issues:安装 GitHub CLI 并运行:
    gh issue list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,closedAt,comments > issues.json
    
    上传生成的 issues.json 文件。
  3. Pull requests:运行:
    gh pr list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,mergedAt,comments > prs.json
    
    上传生成的 prs.json 文件。

所有上传的内容都会流经标准的数据摄取管道(分块、嵌入、RAG索引),并与其他文档一起变得可搜索。

所有上传的内容都会流经标准的数据摄取管道(分块、嵌入、RAG索引),并与其他文档一起变得可搜索。

系统架构

Launchstack 遵循三层模块化架构:

Launchstack 遵循三层模块化架构:

block-beta
  columns 9

  SLABEL["Services\nLayer"]:1
  MKT["Marketing Engine\n─────────────\nTrend Analysis\nContent Generation\nWeb Scraping Jobs"]:2
  LEG["Legal Services\n─────────────\nTemplate Library\nAuto-Fill & Clauses\nLegal Vault"]:2
  ONB["Employee Onboarding\n─────────────\nOnboarding Agent\nQuizzes & Checks\nProgress Tracking"]:2
  DOCR["Document Reasoning\n─────────────\nPage Index & TOC\nRLM Agent\nKnowledge Graph"]:2

  space:9

  TLABEL["Tools\nLayer"]:1
  RAG["RAG Pipeline\n(BM25 + Vector)"]:2
  WEB["Web Search\n(Tavily, Firecrawl)"]:2
  REW["Doc Rewrite\n(Summarize, Refine)"]:2
  TMPL["Template Engine\n(Form → PDF)"]:2
  space:1
  ING["Doc Ingestion\n(OCR, Chunk, Embed)"]:4
  ENT["Entity Extraction\n(NER, Graph RAG)"]:4

  space:9

  PLABEL["Physical\nLayer"]:1
  DB["PostgreSQL + pgvector\n─────────────\nEmbeddings Index\nDocument Structure\nKnowledge Graph\nDomain Tables"]:2
  HOST["Hosting & Compute\n─────────────\nNext.js 15\nInngest Jobs\nAgent Hosting\nML Sidecar"]:2
  EXT["External Services\n─────────────\nOCR Providers\nFile Storage (S3)\nClerk Auth + RBAC"]:2
  KBS["Knowledge Bases\n─────────────\nCompany KB\nLegal Templates\nOnboarding Docs"]:2

  %% Service → Tool edges
  MKT --> RAG
  MKT --> WEB
  MKT --> REW
  LEG --> RAG
  LEG --> REW
  LEG --> TMPL
  ONB --> RAG
  ONB --> REW
  DOCR --> RAG
  DOCR --> WEB
  DOCR --> REW
  DOCR --> ING
  DOCR --> ENT

  %% Tool → Physical edges
  RAG --> DB
  RAG --> KBS
  WEB --> HOST
  REW --> HOST
  TMPL --> EXT
  TMPL --> KBS
  ING --> DB
  ING --> EXT
  ING --> HOST
  ENT --> DB
  ENT --> HOST

  classDef layer fill:#1a1a2e,color:#eee,stroke:none
  classDef svc fill:#4A90D9,color:#fff,stroke:#2C5F8A,stroke-width:1px
  classDef tool fill:#F5A623,color:#fff,stroke:#C47D0E,stroke-width:1px
  classDef phys fill:#27AE60,color:#fff,stroke:#1E8449,stroke-width:1px

  class SLABEL,TLABEL,PLABEL layer
  class MKT,LEG,ONB,DOCR svc
  class RAG,WEB,REW,TMPL,ING,ENT tool
  class DB,HOST,EXT,KBS phys

该平台组织如下:

该平台组织如下:

  1. 服务层 - 垂直业务模块(营销、法务、员工入职、文档推理)
  2. 工具层 - 可复用的AI能力(RAG、网络搜索、文档处理、实体提取)
  3. 物理层 - 基础设施(PostgreSQL + pgvectorNext.js 托管、外部服务、知识库)
  1. 服务层 - 垂直业务模块(营销、法务、员工入职、文档推理)
  2. 工具层 - 可复用的AI能力(RAG、网络搜索、文档处理、实体提取)
  3. 物理层 - 基础设施(PostgreSQL + pgvectorNext.js 托管、外部服务、知识库)

所有服务都在由 Clerk RBAC 强制执行的领域分区边界内运行。RAG 查询通过 domain + company_id 进行作用域限定,以确保数据隔离。

所有服务都在由 Clerk RBAC 强制执行的领域分区边界内运行。RAG 查询通过 domain + company_id 进行作用域限定,以确保数据隔离。

技术栈

  • Next.js 15 + TypeScript
  • PostgreSQL + Drizzle ORM + pgvector
  • Clerk 身份验证
  • OpenAI + LangChain
  • UploadThing + 可选的OCR服务提供商
  • Tailwind CSS
  • Next.js 15 + TypeScript
  • PostgreSQL + Drizzle ORM + pgvector
  • Clerk 身份验证
  • OpenAI + LangChain
  • UploadThing + 可选的OCR服务提供商
  • Tailwind CSS

环境要求

  • Node.js 18+
  • pnpm
  • Docker + Docker Compose(推荐用于本地数据库/全栈开发)
  • Git
  • Node.js 18+
  • pnpm
  • Docker + Docker Compose(推荐用于本地数据库/全栈开发)
  • Git

快速开始

1) 克隆仓库并安装依赖

git clone <repository-url>
cd pdr_ai_v2-2
pnpm install

2) 配置环境变量

根据 .env.example 创建 .env 文件并填写必要的值:

根据 .env.example 创建 .env 文件并填写必要的值:

  • DATABASE_URL
  • NEXT_PUBLIC_CLERK_PUBLISHABLE_KEY
  • CLERK_SECRET_KEY
  • BLOB_READ_WRITE_TOKEN (Vercel Blob 读写令牌)

常见问题(FAQ)

Launchstack平台如何实现PDF文档的智能问答?

Launchstack通过文档上传、OCR处理、向量嵌入和语义检索构建RAG工作流。它使用PostgreSQL+pgvector进行语义搜索,结合AI模型生成答案,并包含事实性检查和置信度门控等安全机制。

Launchstack支持哪些类型的文档进行预测性分析?

支持合同、财务、技术、合规、教育、人力资源、研究和通用文档。例如,合同分析可检测缺失的附件和补充协议,技术文档可发现缺失的规格说明书和图表。

如何将Notion或Google Docs的内容导入Launchstack?

从Notion导出Markdown/CSV或HTML文件,从Google Docs导出.docx文件,直接上传即可。平台内置适配器(如TextAdapter、HtmlAdapter)自动处理数据摄取,无需配置API密钥。

← 返回文章列表
分享到:微博

版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。

文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。

若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。