文字识别

首页 标签 文字识别
# 文字识别 #
关注
5973内容
|
10天前
| |
来自: 云存储
Vector 构建原始文件和向量数据之间的映射关系
OSS 向量 Bucket 的检索结果返回的是向量 Key 和 Metadata,而非原始文件本身。要将检索结果关联回原始文件(如图片、文档、视频),需要在写入向量时构建映射关系。
|
10天前
|
《别再把QClaw当聊天AI用了!Skills才是它真正的灵魂》
本文从真实使用体验出发,深度解析QClaw中Skills技能的本质价值,指出其并非普通插件,而是与核心引擎深度融合的执行单元,是让AI从“聊天”走向“实干”的关键。文章详细说明第三方技能的安装、导入、启用与管理方法,强调安全筛选、合理精简、按需配置的重要性,并结合办公、文档处理、自动化工作流等真实场景,讲解技能自动调用、指定调用与组合串联的实用思路。全文侧重技术思考与高效实践,帮助读者真正用好技能生态,大幅提升AI执行效率与工作生产力。
玄语言《东方字经》:一种基于十进制笔画的立体方块文字系统
《东方字经》是为玄语言设计的十进制人工文字系统:以10个基础笔画(对应数字0–9)为构件,按“从上到下、从左到右”规则组合成二维方块字符;每个字符唯一对应一串十进制数,进而严格映射音素与语义。兼具汉字形态美学与数字编码逻辑性,支持跨文字系统(蒙、藏、梵等)适配,信息密度高、易学易用。(239字)
|
11天前
|
多模态 AI 集成能力:让 AI 真正贴合企业业务
向量空间人工智能基于JBoltAI框架,提供文本理解/抽取/总结、图像OCR/视觉识别、语音转写/对话交互三大多模态AI定制服务,精准适配企业合同、图纸、录音等实际业务场景,让AI真正读懂文本、看懂图像、听懂语音,深度赋能数智化升级。(239字)
|
11天前
| |
一行命令,让你的 Code Agent 会读PDF
一行命令 `npx skills add tanis90/pdf-converter-mineru`,即可为Claude Code、Cursor等主流Code Agent注入PDF阅读能力。基于上海AI Lab开源的MinerU引擎,支持扫描件OCR、表格/公式识别、中英混排,自动选择快读或高精模式,开箱即用,无需部署MCP服务。(239字)
|
11天前
| |
大模型应用:多模态图文精准识别:基于本地化OCR模型应用实践.78
Qwen2-VL-OCR-2B是仅2B参数的轻量多模态OCR智能体,深度融合视觉感知与语言理解,可精准识别倾斜文字、复杂排版及多语言混合内容。支持CPU/GPU自动适配、指令式调用与全格式图片,本地部署安全高效,适用于文档、合同、海报等场景。
|
12天前
| |
罗兰艺境GEO多模态语料解析与结构化系统:从图纸、视频到结构化语义资产的智能转换
罗兰艺境多模态系统将图纸、视频、录音中的隐性知识转化为结构化语义资产。核心技术:图表还原(准确率≥95%)、CLIP音画对齐、YOLOv8+Whisper实体融合、跨模态检索。解析速度:图像≤2秒/张,OCR≥99%,语音转文字≥98%。为企业构建全模态AI信任资产。
阿里云Qwen3.6-Plus收费价格:输入、输出、显式缓存收费标准,2026最新
阿里云Qwen3.6-Plus是2026年推出的原生视觉语言大模型,阿里云大模型官网:https://t.aliyun.com/U/JbblVp 代码(Agentic/Vibe/前端)、OCR、多模态识别与物体定位能力显著超越3.5系列。输入2元/百万tokens,输出12元/百万tokens,显式缓存命中仅0.2元;新用户可领7000万免费Tokens。
阿里云AI产品免费试用:超7000万大模型tokens免费体验,零成本构建AI应用
阿里云推出AI产品免费试用活动,提供30余款AI产品及7000万大模型tokens免费体验,涵盖百炼平台、PAI人工智能平台、GPU云服务器、自然语言处理、视觉智能等产品,用户可零成本构建AI应用。活动支持全能力AI Agent开发、一键部署大模型、灵活配置GPU卡型、智能构建文本应用及视觉AI应用,满足企业及开发者在模型开发、训练、推理及多场景适配中的需求,助力AI技术高效落地与业务创新。
免费试用