Rememex这款Windows本地语义文件搜索工具好用吗?支持OCR和AI代理
AI Summary (BLUF)
Rememex is a free, open-source semantic file search tool for Windows 10+ that indexes 120+ file types locally using hybrid search (vector + full-text) with built-in OCR, EXIF parsing, and MCP server support for AI agents.
原文翻译: Rememex是一款免费开源的Windows 10+本地语义文件搜索工具,支持120多种文件类型索引,采用混合搜索(向量+全文)技术,内置OCR、EXIF解析功能,并提供MCP服务器支持AI代理。
Rememex 是对你文件系统的一次语义升级。你输入意图,它找到文件。所有数据都留在你的本地机器上。
Rememex is a semantic upgrade to your file system. You type meaning, it finds files. Nothing leaves your machine.
灵感源自范内瓦·布什于1945年提出的 Memex 愿景——一个能够存储和检索所有人类知识的设备。
Named after Vannevar Bush's Memex (1945), a vision of a device that stores and retrieves all human knowledge.
目前仅支持 Windows 10+。应用使用了 UWP OCR 和 Mica 背景材质。
Windows 10+ only for now. Uses UWP OCR and Mica backdrop.
为什么选择 Rememex?
在文件搜索领域,工具众多,各有侧重。Rememex 的定位是 本地优先、语义理解 的混合搜索。下表将其与主流工具进行了多维度对比:
| 对比维度 | Rememex | ripgrep | Everything | Sourcegraph | Microsoft Recall |
|---|---|---|---|---|---|
| 搜索类型 | 语义 + 关键词混合 | 正则 / 字面文本 | 文件名 (内容需用 content:) |
关键词 + 符号 + 语义 | 每5秒截取一次你的整个屏幕 |
| 理解语义 | ✅ | ❌ | ❌ | ✅ | ✅ (它看到了所有内容。字面意义上的所有。) |
| 本地 & 隐私 | ✅ 所有数据都在本地 | ✅ | ✅ | 云端或自托管 | "本地" (口头承诺) |
| 支持文件类型 | 120+ (代码、文档、图像、配置文件) | 文本文件 | 所有文件 (按名称索引) | 代码仓库 | 你的屏幕。全部。始终。 |
| 图像OCR | ✅ 内置 | ❌ | ❌ | ❌ | ✅ (它也会OCR你的密码) |
| EXIF / GPS | ✅ 反向地理编码至城市名 | ❌ | ❌ | ❌ | 反正也知道你在哪 |
| MCP 服务器 | ✅ 为AI代理内置 | ❌ | ❌ | ? | 没有,但Copilot会看着你打字 |
| 价格 | 免费,开源 | 免费,开源 | 免费 | 起价 $49/用户/月 | 免费* (*代价是你的尊严) |
| 核心特点 | 找到你的意图 | 找到你输入的内容 | 找到文件名 | 企业级™ | 老大哥即功能 |
Why Rememex?
In the landscape of file search tools, each has its focus. Rememex positions itself as a local-first, semantic-aware hybrid search. The table below provides a multi-dimensional comparison with mainstream tools.
核心功能
Rememex 旨在成为一个理解内容而非仅仅是文件名的智能搜索层。其主要功能包括:
- 索引超过120种文件类型 (代码、文档、图像、配置文件等)
- 通过Windows内置引擎进行图像OCR
- 读取EXIF数据 → 将GPS坐标反向地理编码为城市名称。搜索“来自伊斯坦布尔的照片”即可生效
- EXIF日期 → 转换为人类语言。例如,“夏日清晨”可以找到一张七月上午八点的照片
- 混合搜索:向量搜索 + 全文搜索 + JINA交叉编码器重排序
- 按语言智能分块 (Rust在
fn/struct处,Python在def/class处等) - 语义容器用于隔离 (工作/个人/研究)
- 为AI代理内置MCP服务器。详情请见 MCP.md · 代理使用说明
- 批注功能:可通过UI或MCP为任何文件附加可搜索的笔记。代理和人类共享同一知识层
- 可选的云端嵌入模型 -- 可接入OpenAI、Gemini、Cohere或任何兼容的API。默认仍为100%本地运行
What It Does
Rememex aims to be an intelligent search layer that understands content, not just filenames. Its core features include:
- Indexes 120+ file types (code, docs, images, configs, etc.)
- OCR on images via Windows built-in engine
- Reads EXIF data → reverse geocodes GPS coordinates to city names. Search "photos from Istanbul" and it works.
- EXIF dates → converted to human words. E.g., "summer morning" finds a photo from July at 8 AM.
- Hybrid Search: Vector search + Full-text search + JINA cross-encoder reranker.
- Smart chunking per language (Rust at
fn/struct, Python atdef/class, etc.)- Semantic containers for isolation (work/personal/research).
- Built-in MCP server for AI agents. See MCP.md for details · Agent Instructions.
- Annotations: Attach searchable notes to any file, from the UI or via MCP. Agents and humans share the same knowledge layer.
- Optional cloud embeddings -- plug in OpenAI, Gemini, Cohere, or any compatible API. Default is still 100% local.
系统架构
Rememex 的架构分为两个主要流程:索引构建和搜索执行。
Architecture
Rememex's architecture consists of two main processes: indexing and search execution.
索引流程
索引过程负责从原始文件中提取、处理并存储可搜索的信息。
Indexing
The indexing process is responsible for extracting, processing, and storing searchable information from raw files.
graph LR
W[file watcher] -->|change event| SI[index single file]
WB[WalkBuilder] -->|bulk scan| B[collect files]
B --> C{image?}
C -->|yes| D[UWP OCR + EXIF]
C -->|no| E[file_io reader]
D --> F[git context]
E --> F
F --> G["semantic chunking (per-language)"]
G --> H[embedding provider]
H -->|local ONNX or remote API| I[(lancedb)]
I --> J[ANN + FTS index build]
搜索流程
搜索流程接收用户查询,通过复杂的路由、扩展和融合策略,返回最相关的结果。
Search
The search process takes a user query and returns the most relevant results through a complex routing, expansion, and fusion strategy.
graph LR
Q[query] --> QR[query router]
QR -->|weights + hyde flag| HYDE{hyde?}
HYDE -->|conceptual| LLM[LLM hypothetical doc]
HYDE -->|other| EMB[embed query]
LLM --> EMB
Q --> EXP[expand query variants]
EMB --> VS[vector search]
EXP --> FTS[full-text search]
VS --> HM["hybrid merge (RRF)"]
FTS --> HM
EMB --> AS[annotation search]
AS --> AM[merge annotations]
HM --> AM
AM --> RR[JINA reranker]
RR --> SC[score normalization]
SC --> MMR[MMR diversity]
MMR --> R[ranked results]
UI[tauri UI] --> Q
MCP[MCP server] -->|stdio| Q
运行与配置
构建与运行
从源码运行 Rememex 非常简单:
Run It
Running Rememex from source is straightforward:
npm install
npm run tauri dev # 开发模式,速度较慢
npm run tauri build # 发布构建,使用此版本以获得真实速度
npm install npm run tauri dev # dev is slow npm run tauri build # release build, use this for real speed
使用 Alt+Space 快捷键唤出/隐藏搜索界面。配置与详细文档请参见 CONFIG.md。
Use
Alt+Spaceto toggle the search UI. For configuration & docs → CONFIG.md.
内存使用说明:在初始索引期间,内存使用量会达到峰值——这是预期行为。一旦索引完成,内存使用量会下降并保持稳定。
RAM usage note: Peaks during initial indexing — this is expected. Once indexing completes, it drops and stays stable.
使用真实数据测试
为了让你亲身体验语义搜索的效果,我们提供了一个测试数据集。该数据集包含来自24种职业(从会计师到教师)的 2,483份简历PDF文件。
Try It with Real Data
We ship a test dataset so you can see what semantic search actually feels like. 2,483 resume PDFs across 24 professions, from accountants to teachers.
# 将 test-set/data.zip 解压到某个位置
# 在 rememex 中创建一个新容器,将其指向解压后的文件夹
# 等待索引完成(使用本地嵌入模型约需30分钟)
# unzip test-set/data.zip somewhere # create a new container in rememex, point it at the unzipped folder # wait for indexing (~30 min on local embeddings)
我们对这些数据进行了索引,并运行了以下查询。所有结果均使用最基本的配置——没有使用云端API,也没有进行微调:
We indexed it and ran these queries. All results below used the most basic config — no cloud APIs, no fine-tuning:
| 配置项 | 值 |
|---|---|
| 嵌入模型 | Multilingual-E5-Base (本地 ONNX, ~170MB) |
| 重排序器 | 关闭 |
| 分块大小 | 512 令牌, 64 重叠 |
| 查询路由器 | 开启 |
| MMR 多样性 | 开启 (~65% 平衡度) |
| HyDE | 关闭 |
| 嵌入提供方 | 本地 — 零 API 调用 |
Setting Value Embedding Model 常见问题(FAQ)
Rememex与其他文件搜索工具(如Everything)相比,主要优势是什么?
Rememex的核心优势在于本地优先的语义理解混合搜索。它结合向量搜索与全文检索,能理解你的搜索意图,而不仅仅是匹配文件名或关键词,且所有数据都安全地保留在你的本地机器上。
Rememex支持哪些文件类型和功能?
它支持索引超过120种文件类型,并内置OCR(用于识别图片中的文字)、EXIF解析(读取照片元数据)以及MCP服务器(用于支持AI代理集成),提供全面的文件内容理解能力。
Rememex的搜索流程是如何工作的?
搜索时,Rememex同时运用向量搜索(理解语义相似性)和全文检索(匹配具体关键词),通过混合这两种技术来精准定位文件。你只需输入自然语言描述,它就能找到相关文件。
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。
您可能感兴趣

