**Notion** > **Notion** 1. 打开您的 Notion 工作区。 2. 在页面上点击 **...** 菜单，或进入 **设置与成员 > 导出** 进行整个工作区的导出。 3. 选择 **Markdown & CSV** 作为格式，如果需要，勾选 **包含子页面**。 4. 下载 ZIP 文件并直接上传到 Launchstack。 > 1. 打开您的 Notion 工作区。 > 2. 在页面上点击 **...** 菜单，或进入 **设置与成员 > 导出** 进行整个工作区的导出。 > 3. 选择 **Markdown & CSV** 作为格式，如果需要，勾选 **包含子页面**。 > 4. 下载 ZIP 文件并直接上传到 Launchstack。 **Google Docs / Sheets** > **Google Docs / Sheets** 1. 在 Google Docs 或 Sheets 中打开文档。 2. 进入 **文件 > 下载**，选择 **Microsoft Word (.docx)** 或 **CSV / Excel (.xlsx)**。 3. 上传下载的文件。对于批量导出，请使用 [Google Takeout](https://takeout.google.com/) 将您的 Drive 导出为 ZIP 文件。 > 1. 在 Google Docs 或 Sheets 中打开文档。 > 2. 进入 **文件 > 下载**，选择 **Microsoft Word (.docx)** 或 **CSV / Excel (.xlsx)**。 > 3. 上传下载的文件。对于批量导出，请使用 [Google Takeout](https://takeout.google.com/) 将您的 Drive 导出为 ZIP 文件。 **Slack** > **Slack** 1. 进入 **工作区设置 > 导入/导出数据 > 导出**。 2. 选择日期范围并开始导出。 3. 下载 ZIP 文件并上传到 Launchstack。每个频道的消息将被作为单独的文档摄取。 > 1. 进入 **工作区设置 > 导入/导出数据 > 导出**。 > 2. 选择日期范围并开始导出。 > 3. 下载 ZIP 文件并上传到 Launchstack。每个频道的消息将被作为单独的文档摄取。 **GitHub** > **GitHub** 1. **仓库文档**：在任何 GitHub 仓库点击 **代码 > 下载 ZIP**。上传该 ZIP 文件——所有 Markdown 和文本文件将被摄取。 2. **Issues**：安装 [GitHub CLI](https://cli.github

Launchstack平台如何实现AI文档分析与RAG工作流？

Launchstack 是一个基于 Next.js基于React的现代全栈Web开发框架，支持服务端渲染和静态生成。构建的专业平台，专注于基于角色的文档管理、AI辅助问答和预测性文档分析。它集成了文档上传、可选OCR、向量嵌入和语义检索功能，旨在帮助团队快速发现文档中的信息缺口并采取行动。

Launchstack 是一个基于 Next.js基于React的现代全栈Web开发框架，支持服务端渲染和静态生成。构建的专业平台，专注于基于角色的文档管理、AI辅助问答和预测性文档分析。它集成了文档上传、可选OCR、向量嵌入和语义检索功能，旨在帮助团队快速发现文档中的信息缺口并采取行动。

核心功能

基于Clerk一个身份验证和用户管理平台，提供基于角色的访问控制（RBAC）功能。的身份验证与角色管理：提供雇主/员工身份验证，并配备角色感知的中间件。
文档上传与处理管道：支持文档上传，并为扫描的PDF提供可选的OCR功能。
语义检索与RAG工作流：使用 PostgreSQL + pgvectorPostgreSQL的扩展，支持向量相似性搜索，提供高效的向量存储和检索功能。实现语义检索，支撑检索增强生成（RAG）工作流。
AI聊天与预测性分析：支持对上传内容进行AI聊天和预测性文档分析。
智能体安全护栏：包含PII过滤、事实性检查（Grounding Checks）和置信度门控（Confidence Gating）等机制。
监督智能体：根据特定领域的评估标准（Rubrics）验证输出结果。
营销内容生成管道：自动为 Reddit、X、LinkedIn 和 Bluesky 等平台生成营销内容。
可选网络增强分析：可集成 Tavily一个网络搜索API，用于增强文档分析的外部知识获取。进行网络信息检索以丰富分析。
可选可靠性与可观测性：支持通过 Inngest一个用于管理后台作业和任务队列的平台，提高应用程序的可靠性和可观察性。和 LangSmith一个用于追踪、调试和评估智能体执行链路的工具，可通过设置环境变量和 API Key 实现可视化观测。实现任务可靠性和系统可观测性。

基于Clerk一个身份验证和用户管理平台，提供基于角色的访问控制（RBAC）功能。的身份验证与角色管理：提供雇主/员工身份验证，并配备角色感知的中间件。

文档上传与处理管道：支持文档上传，并为扫描的PDF提供可选的OCR功能。

语义检索与RAG工作流：使用 PostgreSQL + pgvectorPostgreSQL的扩展，支持向量相似性搜索，提供高效的向量存储和检索功能。实现语义检索，支撑检索增强生成（RAG）工作流。

AI聊天与预测性分析：支持对上传内容进行AI聊天和预测性文档分析。

智能体安全护栏：包含PII过滤、事实性检查（Grounding Checks）和置信度门控（Confidence Gating）等机制。

监督智能体：根据特定领域的评估标准（Rubrics）验证输出结果。

营销内容生成管道：自动为 Reddit、X、LinkedIn 和 Bluesky 等平台生成营销内容。

可选网络增强分析：可集成 Tavily一个网络搜索API，用于增强文档分析的外部知识获取。进行网络信息检索以丰富分析。

可选可靠性与可观测性：支持通过 Inngest一个用于管理后台作业和任务队列的平台，提高应用程序的可靠性和可观察性。和 LangSmith一个用于追踪、调试和评估智能体执行链路的工具，可通过设置环境变量和 API Key 实现可视化观测。实现任务可靠性和系统可观测性。

预测性分析——支持的文档类型

Launchstack 能够根据您的文档类型，运行特定领域的分析。

Launchstack 能够根据您的文档类型，运行特定领域的分析。


文档类型	主要检测内容
合同	缺失的附件、附表、附录及补充协议
财务	缺失的资产负债表、审计报告、损益表
技术	缺失的规格说明书、操作手册、图表、交付物
合规	缺失的监管申报文件、认证证书、政策文件
教育	缺失的教学大纲、讲义、阅读材料、链接资源
人力资源	缺失的政策、表格、福利材料、员工手册
研究	缺失的引用论文、数据集、补充材料
通用	任何包含交叉引用和附件的文档

每种分析类型还会提取关键信息（如截止日期、待办事项、资源、注意事项），并对高优先级的预测结果进行验证链（Chain-of-Verification）检查。

每种分析类型还会提取关键信息（如截止日期、待办事项、资源、注意事项），并对高优先级的预测结果进行验证链（Chain-of-Verification）检查。

导入外部知识

Launchstack 可以导入从第三方工具导出的内容。无需配置API密钥或OAuth——只需导出您的数据，上传文件，剩下的工作由数据摄取管道处理。

Launchstack 可以导入从第三方工具导出的内容。无需配置API密钥或OAuth——只需导出您的数据，上传文件，剩下的工作由数据摄取管道处理。

支持的导出格式


数据源	导出方法	导出格式	Launchstack适配器
Notion	设置 > 导出 > Markdown & CSV	`.md`, `.csv` (ZIP压缩包)	TextAdapter, SpreadsheetAdapter
Notion	页面 > 导出 > HTML	`.html`	HtmlAdapter
Google Docs	文件 > 下载 > Microsoft Word	`.docx`	DocxAdapter
Google Sheets	文件 > 下载 > CSV 或 Excel	`.csv`, `.xlsx`	SpreadsheetAdapter
Google Drive	Google Takeout (takeout.google.com)	`.docx` (ZIP压缩包)	DocxAdapter
Slack	工作区设置 > 导入/导出 > 导出	`.json` (ZIP压缩包)	JsonExportAdapter
GitHub	代码 > 下载 ZIP	`.md`, `.txt` (ZIP压缩包)	TextAdapter
GitHub	`gh issue list --json ...`	`.json`	JsonExportAdapter
GitHub	`gh pr list --json ...`	`.json`	JsonExportAdapter

如何导出

Notion

Notion

打开您的 Notion 工作区。
在页面上点击 ... 菜单，或进入 设置与成员 > 导出 进行整个工作区的导出。
选择 Markdown & CSV 作为格式，如果需要，勾选 包含子页面。
下载 ZIP 文件并直接上传到 Launchstack。

打开您的 Notion 工作区。

在页面上点击 ... 菜单，或进入 设置与成员 > 导出 进行整个工作区的导出。

选择 Markdown & CSV 作为格式，如果需要，勾选 包含子页面。

下载 ZIP 文件并直接上传到 Launchstack。

Google Docs / Sheets

Google Docs / Sheets

在 Google Docs 或 Sheets 中打开文档。
进入 文件 > 下载，选择 Microsoft Word (.docx) 或 CSV / Excel (.xlsx)。
上传下载的文件。对于批量导出，请使用 Google Takeout 将您的 Drive 导出为 ZIP 文件。

在 Google Docs 或 Sheets 中打开文档。

进入 文件 > 下载，选择 Microsoft Word (.docx) 或 CSV / Excel (.xlsx)。

上传下载的文件。对于批量导出，请使用 Google Takeout 将您的 Drive 导出为 ZIP 文件。

Slack

Slack

进入 工作区设置 > 导入/导出数据 > 导出。
选择日期范围并开始导出。
下载 ZIP 文件并上传到 Launchstack。每个频道的消息将被作为单独的文档摄取。

进入 工作区设置 > 导入/导出数据 > 导出。

选择日期范围并开始导出。

下载 ZIP 文件并上传到 Launchstack。每个频道的消息将被作为单独的文档摄取。

GitHub

GitHub

仓库文档：在任何 GitHub 仓库点击 代码 > 下载 ZIP。上传该 ZIP 文件——所有 Markdown 和文本文件将被摄取。

Issues：安装 GitHub CLI 并运行：

gh issue list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,closedAt,comments > issues.json

上传生成的 issues.json 文件。

Pull requests：运行：

gh pr list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,mergedAt,comments > prs.json

上传生成的 prs.json 文件。

仓库文档：在任何 GitHub 仓库点击 代码 > 下载 ZIP。上传该 ZIP 文件——所有 Markdown 和文本文件将被摄取。
Issues：安装 GitHub CLI 并运行：
gh issue list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,closedAt,comments > issues.json
上传生成的 issues.json 文件。
Pull requests：运行：
gh pr list --state all --limit 1000 --json number,title,body,state,labels,author,createdAt,mergedAt,comments > prs.json
上传生成的 prs.json 文件。

所有上传的内容都会流经标准的数据摄取管道（分块、嵌入、RAG索引），并与其他文档一起变得可搜索。

所有上传的内容都会流经标准的数据摄取管道（分块、嵌入、RAG索引），并与其他文档一起变得可搜索。

系统架构

Launchstack 遵循三层模块化架构：

Launchstack 遵循三层模块化架构：

block-beta
  columns 9

  SLABEL["Services\nLayer"]:1
  MKT["Marketing Engine\n─────────────\nTrend Analysis\nContent Generation\nWeb Scraping Jobs"]:2
  LEG["Legal Services\n─────────────\nTemplate Library\nAuto-Fill &amp; Clauses\nLegal Vault"]:2
  ONB["Employee Onboarding\n─────────────\nOnboarding Agent\nQuizzes &amp; Checks\nProgress Tracking"]:2
  DOCR["Document Reasoning\n─────────────\nPage Index &amp; TOC\nRLM Agent\nKnowledge Graph"]:2

  space:9

  TLABEL["Tools\nLayer"]:1
  RAG["RAG Pipeline\n(BM25 + Vector)"]:2
  WEB["Web Search\n(Tavily, Firecrawl)"]:2
  REW["Doc Rewrite\n(Summarize, Refine)"]:2
  TMPL["Template Engine\n(Form → PDF)"]:2
  space:1
  ING["Doc Ingestion\n(OCR, Chunk, Embed)"]:4
  ENT["Entity Extraction\n(NER, Graph RAG)"]:4

  space:9

  PLABEL["Physical\nLayer"]:1
  DB["PostgreSQL + pgvector\n─────────────\nEmbeddings Index\nDocument Structure\nKnowledge Graph\nDomain Tables"]:2
  HOST["Hosting &amp; Compute\n─────────────\nNext.js 15\nInngest Jobs\nAgent Hosting\nML Sidecar"]:2
  EXT["External Services\n─────────────\nOCR Providers\nFile Storage (S3)\nClerk Auth + RBAC"]:2
  KBS["Knowledge Bases\n─────────────\nCompany KB\nLegal Templates\nOnboarding Docs"]:2

  %% Service → Tool edges
  MKT --> RAG
  MKT --> WEB
  MKT --> REW
  LEG --> RAG
  LEG --> REW
  LEG --> TMPL
  ONB --> RAG
  ONB --> REW
  DOCR --> RAG
  DOCR --> WEB
  DOCR --> REW
  DOCR --> ING
  DOCR --> ENT

  %% Tool → Physical edges
  RAG --> DB
  RAG --> KBS
  WEB --> HOST
  REW --> HOST
  TMPL --> EXT
  TMPL --> KBS
  ING --> DB
  ING --> EXT
  ING --> HOST
  ENT --> DB
  ENT --> HOST

  classDef layer fill:#1a1a2e,color:#eee,stroke:none
  classDef svc fill:#4A90D9,color:#fff,stroke:#2C5F8A,stroke-width:1px
  classDef tool fill:#F5A623,color:#fff,stroke:#C47D0E,stroke-width:1px
  classDef phys fill:#27AE60,color:#fff,stroke:#1E8449,stroke-width:1px

  class SLABEL,TLABEL,PLABEL layer
  class MKT,LEG,ONB,DOCR svc
  class RAG,WEB,REW,TMPL,ING,ENT tool
  class DB,HOST,EXT,KBS phys

该平台组织如下：

该平台组织如下：

服务层 - 垂直业务模块（营销、法务、员工入职、文档推理）
工具层 - 可复用的AI能力（RAG、网络搜索、文档处理、实体提取）
物理层 - 基础设施（PostgreSQL + pgvectorPostgreSQL的扩展，支持向量相似性搜索，提供高效的向量存储和检索功能。、Next.js基于React的现代全栈Web开发框架，支持服务端渲染和静态生成。托管、外部服务、知识库）

服务层 - 垂直业务模块（营销、法务、员工入职、文档推理）

工具层 - 可复用的AI能力（RAG、网络搜索、文档处理、实体提取）

物理层 - 基础设施（PostgreSQL + pgvectorPostgreSQL的扩展，支持向量相似性搜索，提供高效的向量存储和检索功能。、Next.js基于React的现代全栈Web开发框架，支持服务端渲染和静态生成。托管、外部服务、知识库）

所有服务都在由 Clerk一个身份验证和用户管理平台，提供基于角色的访问控制（RBAC）功能。 RBAC 强制执行的领域分区边界内运行。RAG 查询通过 domain + company_id 进行作用域限定，以确保数据隔离。

所有服务都在由 Clerk一个身份验证和用户管理平台，提供基于角色的访问控制（RBAC）功能。 RBAC 强制执行的领域分区边界内运行。RAG 查询通过 domain + company_id 进行作用域限定，以确保数据隔离。

技术栈

Next.js基于React的现代全栈Web开发框架，支持服务端渲染和静态生成。 15 + TypeScript
PostgreSQL + Drizzle ORM + pgvectorPostgreSQL的扩展，支持向量相似性搜索，提供高效的向量存储和检索功能。
Clerk一个身份验证和用户管理平台，提供基于角色的访问控制（RBAC）功能。身份验证
OpenAI + LangChain
UploadThing + 可选的OCR服务提供商
Tailwind CSS

Next.js基于React的现代全栈Web开发框架，支持服务端渲染和静态生成。 15 + TypeScript

PostgreSQL + Drizzle ORM + pgvectorPostgreSQL的扩展，支持向量相似性搜索，提供高效的向量存储和检索功能。

Clerk一个身份验证和用户管理平台，提供基于角色的访问控制（RBAC）功能。身份验证

OpenAI + LangChain

UploadThing + 可选的OCR服务提供商

Tailwind CSS

环境要求

Node.js 18+
pnpm
Docker + Docker Compose（推荐用于本地数据库/全栈开发）
Git

Node.js 18+

pnpm

Docker + Docker Compose（推荐用于本地数据库/全栈开发）

Git

快速开始

1) 克隆仓库并安装依赖

git clone <repository-url>
cd pdr_ai_v2-2
pnpm install

2) 配置环境变量

根据 .env.example 创建 .env 文件并填写必要的值：

根据 .env.example 创建 .env 文件并填写必要的值：

DATABASE_URL
NEXT_PUBLIC_CLERK_PUBLISHABLE_KEY
CLERK_SECRET_KEY
BLOB_READ_WRITE_TOKEN (Vercel Blob 读写令牌)

常见问题（FAQ）

Launchstack平台如何实现PDF文档的智能问答？

Launchstack通过文档上传、OCR处理、向量嵌入和语义检索构建RAG工作流。它使用PostgreSQL+pgvectorPostgreSQL的扩展，支持向量相似性搜索，提供高效的向量存储和检索功能。进行语义搜索，结合AI模型生成答案，并包含事实性检查和置信度门控等安全机制。

Launchstack支持哪些类型的文档进行预测性分析？

支持合同、财务、技术、合规、教育、人力资源、研究和通用文档。例如，合同分析可检测缺失的附件和补充协议，技术文档可发现缺失的规格说明书和图表。

如何将Notion或Google Docs的内容导入Launchstack？

从Notion导出Markdown/CSV或HTML文件，从Google Docs导出.docx文件，直接上传即可。平台内置适配器（如TextAdapter、HtmlAdapter）自动处理数据摄取，无需配置API密钥。

AI Summary (BLUF)