文字识别的搜索结果_第19页-阿里云开发者社区

yunmai

|

9月前

|

博文

OCR（光学字符识别）技术正深刻变革政务领域。从证件识别到文档电子化，从打破数据孤岛到深度学习驱动的技术革新，OCR极大提升了政务服务效率与精准度。未来，随着与自然语言处理、大数据等技术融合，OCR将提供更综合、高效的解决方案，助力政务数字化转型，实现服务升级与创新突破。

# 机器学习/深度学习 # 存储 # 文字识别 # 自然语言处理 # 大数据

小华同学ai

|

9月前

|

博文

AI新宠DocExt：纯本地文档抽取，开源免费还无依赖！你还在为OCR头疼吗？

DocExt 是一款开源、免费的本地文档结构化提取工具，无需依赖 OCR 或云端服务，通过视觉语言模型（VLM）实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署，提供直观的 Gradio Web 界面和灵活的 API 调用方式，适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测，具备零模板限制和多模型支持等优势，是处理敏感文件的理想选择。

# 人工智能 # JSON # 文字识别 # API # Python

modelscope

|

9月前

|

博文

|

来自： ModelScope模型即服务

小米又放大招！MiMo-VL 多模态大模型开源，魔搭推理微调全面解读来了！

今天，小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。

# 机器学习/深度学习 # 编解码 # 文字识别 # 自然语言处理 # 测试技术

小白学大数据

|

9月前

|

博文

|

来自：大数据与机器学习

Python爬虫如何应对贝壳网的IP封禁与人机验证？

# 数据采集 # 机器学习/深度学习 # Web App开发 # 文字识别 # Python

AI研究者手札

|

10月前

|

博文

基于YOLOv8的汽车车牌位置实时检测项目【完整源码数据集+PyQt5界面+完整训练流程+开箱即用！】

本项目基于YOLOv8与PyQt5，打造开箱即用的汽车车牌位置实时检测系统。包含完整源码、2万张带标注数据集、预训练权重及详细教程，支持图片、视频、摄像头等多种输入方式。通过直观GUI实现一键检测，适合快速部署与二次开发。未来可扩展OCR模块、多目标识别等功能，助力智能交通管理。附带训练代码与流程文档，助你轻松上手深度学习车牌检测任务。

# 机器学习/深度学习 # 边缘计算 # 文字识别 # 算法 # 计算机视觉

奔跑的数据

|

10月前

|

博文

|

来自：大数据与机器学习

视觉分析开发范例：Puppeteer截图＋计算机视觉动态定位

本文介绍了在现代互联网中，传统DOM爬虫难以应对动态加载和视觉驱动内容的问题，并提出了“视觉爬虫”的解决方案。通过Puppeteer实现浏览器自动化，结合计算机视觉技术完成页面元素的动态定位与信息提取。文章对比了DOM爬虫与视觉爬虫的技术特点，展示了基于Node.js的核心代码示例，用于小红书平台的视频搜索、播放及截图处理。最后指出，视觉爬虫能够突破传统限制，在强JS渲染和动态内容场景中更具优势，为数据采集提供了新方向。

# 数据采集 # 文字识别 # JavaScript # 前端开发 # 计算机视觉

yunmai

|

10月前

|

博文

OCR技术：数字化办公的“隐形助手”

在数字化办公时代，OCR（光学字符识别）技术如同一位“隐形助手”，将纸质文档转化为可编辑的电子文本，大幅提升工作效率与准确性。它不仅革新了文档处理方式，还通过智能化应用实现票据识别、客户信息录入等功能，助力财务和CRM系统自动化。此外，OCR技术能挖掘文档数据价值，支持决策分析，并可通过个性化定制满足跨语言协作或内容搜索等需求。开发者可结合自然语言处理、机器学习等技术，探索更多创新应用场景，如智能文档管理和内容可视化工具。OCR技术正以高效、智能的方式，推动办公流程全面升级，激发无限可能。

# 机器学习/深度学习 # 文字识别 # 自然语言处理 # 搜索推荐 # 数据可视化

气场五十米

|

10月前

|

博文

|

来自：通义灵码

三分钟搞定图片识别+翻译+地图定位，通义灵码 2.5 真的太猛了

在本次体验中，我通过通义灵码 2.5 实测其全新集成的 3000+ MCP 工具能力，展示了如何仅凭一句自然语言指令，就能快速完成 OCR、翻译、地图等多个常用服务的调用与组合。通义灵码不仅自动匹配合适工具，还能生成完整调用代码，省去繁琐的 SDK 集成和文档查阅过程，大幅提升开发效率。这次升级让 AI 编程助手真正具备了“工具理解 + 代码落地”的能力，是开发流程的一次深度革新。

# 人工智能 # 文字识别 # 自然语言处理 # 定位技术 # 开发工具

灵杰开发者

|

10月前

|

博文

|

来自：大数据与机器学习

企业级AI搜索解决方案：阿里云AI搜索开放平台

本文介绍了阿里云 AI 搜索开放平台作提供丰富的 AI 搜索组件化服务，兼容主流开发框架 LangChain和 LlamaIndex，支持搜索专属大模型、百炼等大模型服务，以及 Elasticsearch、Havenask 等开源引擎。用户可灵活调用多模态数据解析、大语言模型、效果测评等数十个服务，实现智能搜索、检索增强生成（RAG）、多模态搜索等场景的搭建。

# 人工智能 # 开发框架 # 自然语言处理 # 文字识别 # 搜索推荐

yunmai

|

10月前

|

博文

OCR技术：解锁文字识别的无限可能

OCR（光学字符识别）技术是数字化浪潮中的关键工具，可将纸质文档、手写笔记或复杂背景下的文字图像转化为可编辑文本。本文从图像采集、预处理、字符识别到文本校正，全面解析OCR技术的原理，并探讨其在智能办公、智慧交通、便捷生活等领域的广泛应用。未来，OCR将与自然语言处理、计算机视觉等技术深度融合，推动智能化和综合化发展。通过开放生态系统和政策支持，开发者可探索更多创新场景，如古籍数字化、盲人阅读等，为社会带来更多价值。

# 文字识别 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 算法 # 开发者

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别