文字识别的搜索结果_文章_第12页-阿里云开发者社区

深圳快瞳科技有限公司

|

7月前

|

博文

|

快瞳科技通过图像识别技术，成功解决了医疗化验单OCR识别难题。项目要求精准识别表格内容，尤其是化验数值和名称，准确率达85%以上。针对化验单来源多样、干扰因素多的问题，团队采用智能文档抽取模型、opencv技术（如霍夫变换）进行图片扶正与裁剪，优化识别精度。最终，项目不仅达到药企要求，还实现超越，为医疗行业智能化转型提供了高性价比解决方案，助力快瞳科技在医疗信息化领域树立良好口碑。

# 文字识别 # 算法 # 小程序 # 计算机视觉 # Python

Deephub

|

7月前

|

博文

SmolVLM：资源受限环境下的高效多模态模型研究

SmolVLM是一系列专为资源受限设备多模态模型，通过优化架构与训练策略，在图像和视频处理任务中表现出接近大型模型的性能。该系列包含三种变体：SmolVLM-256M、500M和2.2B，分别适用于极端边缘计算、中等资源设备及高端边缘系统。研究探索了视觉与语言组件间的参数分配、高效视觉信息传递机制、视频编码策略等关键技术，并在多个基准测试中展现出卓越性能。SmolVLM不仅在计算效率和内存占用上具有显著优势，还在设备端部署中表现出高吞吐量和广泛适用性，适用于智能手机、笔记本电脑以及专业领域如文档理解与生物医学视觉问答等场景。论文由Ritvik Rastogi发布，详细探讨了模型设计与实验结果。

# 编解码 # 边缘计算 # 文字识别 # 测试技术 # 异构计算

小白学大数据

|

7月前

|

博文

|

来自：大数据与机器学习

Python爬虫多次请求后被要求验证码的应对策略

# 数据采集 # Web App开发 # 文字识别 # Python # Windows

modelscope

|

7月前

|

博文

|

来自： ModelScope模型即服务

Kimi开源MoE架构多模态推理模型，小激活参数，大能量！

最近Moonshot AI推出了 Kimi-VL，这是一个高效的开源混合专家（MoE）视觉-语言模型（VLM），它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数（Kimi-VL-A3B）。

# 机器学习/深度学习 # 编解码 # 人工智能 # 文字识别 # 测试技术

程序员晚枫

|

7月前

|

博文

GitHub封锁？推荐5个国产的Git仓库替代平台

近日，GitHub对中国区IP的部分限制引发了广泛关注。未登录用户被拒，已登录用户功能受限，南北网络环境差异更显“内卷”。为应对这一挑战，本文推荐了多个国产Git平台：Gitee（码云）、GitCode（CSDN旗下）、CODING（腾讯系）、CodeUP（阿里云支持）及微信代码管理工具。这些平台功能全面、稳定性强，是开发者迁移项目的理想选择。通过同步代码、配置CI/CD流水线等简单步骤，可确保项目平稳过渡。此次事件提醒我们，掌握核心技能与支持国产平台同样重要！

# 文字识别 # 网络协议 # 开发工具 # git # 开发者

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

传统OCR集体阵亡！Versatile-OCR-Program：开源多语言OCR工具，精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现，其基于多模态融合架构实现90%以上识别准确率，支持数学公式与图表的结构化输出，为教育资料数字化提供高效解决方案。

# 云解析DNS # 图像识别 # 存储 # 人工智能 # JSON # 文字识别 # 自然语言处理

modelscope

|

7月前

|

博文

|

来自： ModelScope模型即服务

突破自动驾驶"交规困境"：高德&西交发布交规+高精地图基准MapDR，车道级交通规则在线理解，让AI更懂交规！

作为专业领先的出行和位置服务提供商，高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建，往往忽略了车道级驾驶规则的制作。对应图商而言，车道级的领航不仅需要有正确的车道级矢量表达，还要明确每条路的驾驶规则，保证引导的准确率。

# 人工智能 # 文字识别 # 自动驾驶 # 物联网 # 定位技术

modelscope

|

7月前

|

博文

|

来自： ModelScope模型即服务

Llama 4上线魔搭社区！社区推理、微调实战教程来啦！

近期，Meta推出了Llama 4系列的首批模型： Llama 4 Scout 和 Llama 4 Maverick。

# 机器学习/深度学习 # 存储 # 文字识别 # 搜索推荐

程序员晚枫

|

7月前

|

博文

Python + 腾讯云，多页PDF发票识别一键搞定！

程序员晚枫团队推出了基于Python和腾讯云的多页PDF发票识别功能！通过一行代码即可实现整本PDF发票的高效识别，并直接导出为Excel文件，极大提升工作效率。此次更新修复了仅识别第一页的bug，支持多页PDF完整识别。未来还将拓展更多票据类型、优化速度并加强平台合作。欢迎用户体验并提出建议，共同推动开源项目poocr的成长与进化！

# 文字识别 # 程序员 # UED # Python

思通聚宝

|

7月前

|

博文

安全监控系统：技术架构与应用解析

该系统采用模块化设计，集成了行为识别、视频监控、人脸识别、危险区域检测、异常事件检测、日志追溯及消息推送等功能，并可选配OCR识别模块。基于深度学习与开源技术栈（如TensorFlow、OpenCV），系统具备高精度、低延迟特点，支持实时分析儿童行为、监测危险区域、识别异常事件，并将结果推送给教师或家长。同时兼容主流硬件，支持本地化推理与分布式处理，确保可靠性与扩展性，为幼儿园安全管理提供全面解决方案。

# 云解析DNS # 机器学习/深度学习 # 文字识别 # 监控 # 安全 # 计算机视觉

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别