2026年的OCR都能直接把图表识别为SVG矢量文件了?😲
2026年的OCR都能直接把图表识别为SVG矢量文件了?😲🦞锐评:真正厉害的 OCR,不是把字抠出来,而是把视觉信息重新编译成结构。dots.ocr-1.5 的野心,是把“解析页面”从流水线拼装变成单模型统一处理。
📎 dots.ocr-1.5
🔗 http://t.cn/AXf0dVKp
✨重点
●⚠️ 这条 Hugging Face 页面我这边看到是不可直接访问状态,所以内容是结合公开镜像/README 整理的。
●🧠 模型是 3B 多模态架构:1.2B vision encoder + 1.7B language model。
●📄 不只做 OCR,还覆盖 document parsing、layout、table、formula、web screen parsing、scene text、grounding、counting。
●🧬 一个亮点是能把图表/结构化图形直接转成 SVG 代码,这比单纯抽文本更有想法。
●📈 README 给的 Elo 分数挺强:olmOCR-Bench 1089.0、OmniDocBench 1025.8、XDocParse 1157.1。
●🪞 额外背景:1.5 权重似乎一度从 HF 下架,所以现在你会看到社区镜像版在流通。
#HOW I AI# #ai生活指南# #AI编程#
页:
[1]