We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP97 对话常扬:LLM盛行时代,专门的OCR模型还有意义吗?

EP97 对话常扬:LLM盛行时代,专门的OCR模型还有意义吗?

2025/3/25
logo of podcast 硬地骇客

硬地骇客

AI Deep Dive Transcript
People
常扬
赛博朋克
Topics
常扬: 我认为大模型和小模型没有绝对的量化标准,主要区别在于参数量和任务泛化性。参数量少于1B或0.1B的模型通常被认为是小模型;而任务泛化性强,能解决各种通识性问题的模型则被认为是大模型。Mistral OCR并非真正的OCR领域SOTA,而是基于其多模态模型微调而来,在中文表现较差。大模型目前在OCR等专有任务上精度和效率不如专有模型,但可以通过小成本微调实现一定OCR能力。大模型和小模型的合作模式是能力上的协同,而非算力上的协同,前者在认知阶段,后者在感知阶段。 在文字识别专用模型中,卷积神经网络(CNN)和Transformer的优劣势各不相同。CNN擅长提取局部图像特征,适合处理结构规整的文档;Transformer擅长捕捉长距离特征,适合处理复杂排版的文档。Transformer类型的模型在文字识别中逐渐成为主流,但CNN在处理局部细节复杂的场景仍具优势。Transformer模型在文档识别中可能出现幻觉问题,其处理方法包括通过视觉提示来限制幻觉生成。CNN-based OCR模型处理复杂排版(如多列、表格)的策略是先进行结构检测,再进行文字检测,最后将文字放置到合适的结构中。广义的OCR包含文字识别和信息抽取,针对特定场景(如车牌识别、化验单)的信息抽取可以通过规则或模型训练实现。处理PDF中印刷体和手写体的混合场景,需要先检测并区分印刷体和手写体,再分别进行OCR识别。目前采用单一大型OCR模型,涵盖多种场景,但对于极少数特殊场景(如螺丝钉上的文字)仍需构建专有模型。2B和2C场景的难度和投入度取决于场景的规模和泛化性,而非单纯的B端或C端属性。OCR是将物理世界图像转化为电子信息的第一步,后续可进行信息抽取、RAG等操作。语音识别和OCR的本质不同:语音识别是语义模型,需要理解发音的上下文;OCR是图像重建,忠于图像信息,不存在同音异字问题。在RAG技术应用中,如何保证结果的关联度及平衡成本与效果是两个关键问题。成本问题可以通过优化模型架构和算法来解决,例如提高预测效率。 赛博朋克: 在文字识别专用模型中,卷积神经网络(CNN)和Transformer的优劣势各不相同。Transformer类型的模型在文字识别中逐渐成为主流,但CNN在处理局部细节复杂的场景仍具优势。Transformer模型在文档识别中可能出现幻觉问题。基于CNN的OCR模型通常针对特定场景(如金融票据、车牌)进行专项训练,以提高识别率。处理PDF中印刷体和手写体的混合场景,需要先检测并区分印刷体和手写体,再分别进行OCR识别。在OCR模型构建策略上,可以采用单模型或多模型策略,取决于场景和数据量。2B和2C场景的难度和投入度取决于场景的规模和泛化性,而非单纯的B端或C端属性。RAG技术在PDF文档处理中的应用,需要考虑如何提高关联度和平衡成本与效果。

Deep Dive

Shownotes Transcript

今天特邀文字识别领域专家 常扬 老师做客,他将分享自己多年来在OCR技术领域的经验和心得。常扬老师将比较大型语言模型与专用模型,分析Mistral OCR模型的优缺点,对比CNN和Transformer在OCR任务中的表现。还将分享其团队在信息抽取和RAG技术应用方面的实践经验,以及如何根据不同场景选择合适的OCR模型和技术路线。如果你对人工智能、文字识别或信息抽取技术感兴趣,欢迎收听本期节目。

更多内容信息和时间线参考下文的硬地笔记,欢迎收听本期节目。

嘉宾介绍

常扬:专注分享AI人工智能领域技术与洞见。Techlead,复旦AI博士,拥有10+年AI研究经验、国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,上亿营收AI产品研发负责人。

公众号:Techlead

本期赞助

Podwise.ai - Podcast knowledge at 10x speed 🚀)

Apple Store 下载👉🏻 apps.apple.com) ## 硬地笔记

00:00:48 LLM时代,OCR小模型还有用吗?

00:03:20 大模型与专有模型的区分及Mistral OCR的SOTA争议

00:06:12 大模型和小模型的合作模式:能力而非算力的协同

00:08:10 CNN与Transformer,谁在OCR中更胜一筹?

00:12:20 Transformer在OCR中的“幻觉”究竟是什么?

00:14:23 CNN-based OCR模型处理复杂排版的策略

00:17:41 如何通过场景专训提升OCR模型的识别率?

00:21:18 OCR模型的构建策略:单模型 vs. 多模型

00:27:14 在2C与2B中,OCR技术的应用有哪些不同?

00:30:26 为什么OCR是信息处理的关键第一步?

00:33:38 OCR与语音识别,这两个技术的根本差异是什么?

00:38:10 RAG技术在OCR和代码检索中的应用及成本控制

欢迎关注我们

  • 知识星球: t.zsxq.com)
  • 官网: hardhacker.com)
  • 小手册: book.hardhacker.com)
  • 用爱发电不容易,请我们喝咖啡☕️: afdian.net)
  • 公众号/小红书: 硬地骇客
  • 商务合作: [email protected]
  • 另外,现在加入「硬地骇客」会员服务,即可在会员专属的微信群与其他朋友一起畅所欲言,成为会员也是对我们持续更新最大的鼓励!

##