在办公自动化和财务报表整理中，我们常常需要将扫描件或拍照图中的文字提取并归类。以往，主流方案是**“OCR 文字提取 + 规则引擎/正则表达式过滤”**。但这套技术架构在面对真实企业单据时，正遭遇严重的局限性。

传统的自动化提取方案如下图所示：

[图像] ➔ [OCR 引擎 (如 PaddleOCR)] ➔ [提取文本块与坐标] ➔ [基于 XPath / Regex 的特征提取] ➔ [结构化输出]

这套架构有三个致命缺点：

多模态视觉模型（如 InternVL, Qwen2-VL）将**“看图”与“理解”放在了同一个语义表征空间中**。它采用了双塔架构或统一的 Vision-Language Transformer：

Vision Encoder：使用 ViT (Vision Transformer) 将输入图片切分为 Patch 向量，不仅提取局部的文字像素，更提取整体的版面层级、盖章关系及手写笔迹。
Cross-Attention / Unified Decoder：语言模型（LLM）与视觉编码器在每一层进行注意力交互。在提取发票信息时，LLM 不是去“搜索特定的正则表达式”，而是理解了“盖有红章的单位代表销方名称”这一物理现实。

我们使用同一张低画质的发票图片对两种方案进行实测：

Tesseract + Python Regex 提取结果：

{
  "invoice_num": "IO189028a" (多读了字符),
  "total_amount": null (因为金额被红章遮挡，正则无法匹配)
}

Qwen2-VL 提取结果：

{
  "invoice_num": "101890283",
  "total_amount": 12850.00 (通过校验位以及单价×数量自动校正了红章下的字)
}

在实际落地中，为了保证速度和数据隐私，建议在内网服务器部署大模型：

显存优化：使用 vLLM 引擎进行 4-bit 量化（AWQ），将 7B 模型的显存占用压缩到 6GB 以下，从而可以部署在常规的单卡 GPU（如 RTX 4060）上。
格式强限制：结合 JSON Schema 引导大模型解码过程，强制其在 Token 预测阶段仅输出符合 JSON 语法树的字符。

通过这一技术升级，三函代码的 OmniAgent 实现了免模板的智能化信息抽取，极大提升了办公自动化的系统稳定性和数据提取精度。

技术解析：为什么在复杂单据理解上多模态视觉大模型能碾压传统 OCR + 正则？

搜索文档