验证中 这是一个需求验证页,不是已经完成的产品。

面向 AI 的 PDF 解析器

把混乱 PDF 文本转成带页码引用和风险提示的干净 Markdown,再交给 AI 总结、问答或进入 RAG 流程。

用户
把 PDF 放进 RAG 流程的团队
状态
验证中
来源
GitHub repo: microsoft/markitdown

问题/痛点

很多团队会把 PDF 丢给 AI 做总结、问答或 RAG,但 PDF 提取出来的文本经常混着页眉、页脚、页码、脚注、断开的表格、错误换行和乱码。真正的问题不是“能不能提取文字”,而是提取后的内容看起来像文本,实际已经污染了 AI 的输入,导致回答漏信息、引用错页、表格理解错、总结质量不稳定。

谁可能有这个问题

  • 把 PDF 放进 RAG 流程的团队
  • 需要总结财报、报告或手册的分析师
  • 想替换脆弱 PDF 提取脚本的开发者

轻量方案

做一个 PDF 文本清洗和结构化页面,让用户看到原始提取文本、清洗后的 Markdown,以及哪些地方可能有表格断行、页眉页脚残留、缺少页码引用或需要人工复核。

2 小时 MVP 草图

做什么
做一个网页 Demo,先放 2-3 个典型 PDF 样例,也可以加一个文本框让用户粘贴从 PDF 提取出来的混乱文本。第一版不必做完整上传系统。
输入什么
用户选择一个样例 PDF,或粘贴一段带有页眉页脚、断行表格、页码、脚注和乱码的 PDF 提取文本。
怎么处理
网页运行 Markdown 转换和清洗逻辑,去掉疑似重复页眉页脚,按标题和段落重新分块,并识别可能断开的表格、缺页码引用或不确定的段落。
输出什么
页面展示三栏:左侧是原始提取文本,中间是清洗后的 Markdown,右侧是风险提示,例如“疑似页眉页脚”“表格可能断行”“缺少页码引用”“这一段需要人工复核”。
怎样算有用
如果用户看完前后对比后,觉得清洗后的 Markdown 明显更适合交给 AI 处理,并愿意提交自己的 PDF 样例,就说明这个方向有验证价值。

如果信号成立,它会长成什么?

可能的成熟形态

如果信号成立,它可以长成面向 RAG 和 AI 文档处理流程的文档预处理 API / SDK。早期是 PDF 清洗前后对比 Demo,后续支持上传文件、批量解析、页码引用、表格保真、解析风险提示、Markdown / JSON 输出,并针对财报、合同、手册、论文等场景做垂直优化。

谁会付钱

最可能付钱的是做 RAG 的开发团队、企业知识库团队、咨询或分析团队,以及需要处理大量 PDF 的中小企业。

可能的变现方式

  • 按页数或文档处理量收费
  • API 调用订阅,服务开发者和 RAG 应用团队
  • 团队版支持批量处理、项目保存和人工复核流程
  • 企业私有部署或垂直行业解析包

继续投入的信号

  • 用户愿意上传或提供真实的混乱 PDF 样例
  • 用户明确说普通 PDF 提取会破坏表格、引用或章节
  • 用户询问 API、批量处理或 JSON 输出
  • 用户愿意为稳定的表格、页码引用或私有部署付费

为什么现在 / 证据

  • AI 流程需要比普通文本提取更干净的文档输入。
  • Markdown 转换相关开源项目的关注度说明开发者有真实需求。
  • 明确提示风险和引用页码,可能比假装解析完美更有价值。

风险与可能失败的原因

  • 高质量解析可能需要按行业做定制。
  • 大型客户可能已经在用现成文档 AI 平台。
  • 用户可能一开始就期待上传文件和 API 能用。

来源信号

GitHub repo: microsoft/markitdown

这是一个需求验证页,不是已经完成的产品。

帮助验证这个机会

如果你留下邮箱,我们只会用于跟进这个具体机会。