通用文档信息提取模型浅析
我们在工作生活中经常需要提取图片中的文字,比如小伙伴给你发了一张发票,你需要将发票中的文字信息录入到系统中,传统的方式都是照着图片中的文字手动录入,这种方式低效又容易出错,想必财务小伙伴对此深有体会。
MiniCPM-o 2.6:流式全模态,端到端,多模态端侧大模型来了!
MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B 构建,共 8B 参数,通过端到端方式训练和推理。相比 MiniCPM-V 2.6,该模型在性能上有了显著提升,并支持了实时语音对话和多模态流式交互的新功能。