文字识别的搜索结果_热门_第18页-阿里云开发者社区

云小帮

|

3月前

|

博文

阿里云Tokens有什么用？写代码、写文案、做图片都会用到Tokens，AI大模型的计量单位

阿里云Token是大模型处理文本的基本计量单位（1 Token≈0.75汉字），输入输出均按此计费。新用户注册百炼平台可享超7000万免费Token，覆盖百余款千问模型，有效期90天。实测可支持2.3万篇文章、4.7万次对话或933份百页文档处理，价值数百元，助力开发者低成本试用AI。

# 人工智能 # 文字识别 # 开发者 # 内存技术

modelscope

|

博文

|

来自： ModelScope模型即服务

Qwen2.5-VL-32B: 更聪明、更轻量!

年前，阿里通义千问团队推出了 Qwen2.5-VL 系列模型，获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上，研究团队使用强化学习持续优化模型，并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型，本次推出的 32B 模型的特点如下：

# 机器学习/深度学习 # 文字识别 # 测试技术 # API # Apache

GoAlaaa

|

博文

|

来自：视觉智能

OCR文字识别技术总结（一）

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，经过检测暗、亮的模式肯定其形状，而后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并经过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提升识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也随之产生。

# 文字识别 # 视觉智能开放平台 # 机器学习/深度学习 # JSON # 文字识别 # 算法 # 安全 # 计算机视觉 # 网络架构 # 数据格式

小华同学ai

|

12月前

|

博文

AI新宠DocExt：纯本地文档抽取，开源免费还无依赖！你还在为OCR头疼吗？

DocExt 是一款开源、免费的本地文档结构化提取工具，无需依赖 OCR 或云端服务，通过视觉语言模型（VLM）实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署，提供直观的 Gradio Web 界面和灵活的 API 调用方式，适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测，具备零模板限制和多模型支持等优势，是处理敏感文件的理想选择。

# 人工智能 # JSON # 文字识别 # API # Python

游客ledpmolauvkeg

|

10月前

|

博文

抖音链接跳转到微信如何实现，引流到微信端？

随着短视频平台与社交工具的深度融合，抖音（字节系）与微信（腾讯系）的生态壁垒成为流量

# 移动开发 # 文字识别 # 小程序 # API # 计算机视觉

北冥有于啊-31500

|

23天前

|

博文

ChatGPT 里的公式怎么转到 Word？保留公式、表格和排版的方法

ChatGPT公式转Word常遇乱码、失编辑、表格错位等问题。本文详解四大方案：直接粘贴（适合纯文字）、Pandoc（技术用户批量处理）、Mathpix（图片公式识别）、DeepShare插件（一键导出含公式/表格/代码的可编辑Word），助你高效交付专业文档。（239字）

# 机器学习/深度学习 # 人工智能 # 文字识别 # 算法

云服务器吧

|

2月前

|

博文

一文看懂什么是Token？阿里云怎么领免费Tokens、怎么用、能省多少钱？

阿里云百炼新用户开通即赠超7000万免费Tokens（每模型各100万，含输入/输出），开通百炼：https://t.aliyun.com/U/fPVHqY 有效期90天；支持Qwen-Max/Plus/Turbo等全系模型。另有万亿Tokens企业扶持、4.5折节省计划及Coding Plan订阅优惠。

# 人工智能 # 文字识别 # 内存技术

coder一枚

|

3月前

|

博文

阿里云Tokens如何收费？Tokens价格、免费Tokens领取及万亿Tokens扶持优惠活动全解析

阿里云Tokens按输入/输出分别计费，价格因模型而异（如Qwen-Max：输入2.4元/百万、输出9.6元/百万）。新用户开通百炼可领7000万免费Tokens：https://t.aliyun.com/U/fPVHqY 企业用户还可享万亿Tokens扶持及多重优惠。

# 人工智能 # 文字识别 # 内存技术

大模型玩家七七

|

5月前

|

博文

|

来自：大数据与机器学习

RAG 只做文本已经不够了：多模态问答的工程化落地指南

本文深入探讨多模态RAG的工程落地挑战与实践方案，揭示为何仅处理文本已无法满足企业真实需求。从图像、表格等多模态数据的解析、语义对齐、检索融合到生成控制，系统梳理三层架构与四大关键步骤，助力构建真正可用的多模态问答系统。

# 大模型服务平台百炼 # 数据采集 # 文字识别 # BI # 数据处理

modelscope

|

4月前

|

博文

|

来自： ModelScope模型即服务

四款国产VLM OCR模型横评

春节前，DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型，全面采用视觉语言模型（VLM）架构，摒弃传统流水线，迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”，GLM-OCR以0.9B参数登顶OmniDocBench榜首，PaddleOCR-VL-1.5攻克真实退化场景，Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。

# 机器学习/深度学习 # 人工智能 # 编解码 # 文字识别 # API

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别