文字识别

首页 标签 文字识别
# 文字识别 #
关注
5906内容
ModelScope魔搭社区发布月报 -- 26年2月
临近年关,ModelScope迎来春节模型发布潮:Qwen3、GLM-4.7、MiniMax M2.1等大模型密集上新;AIGC生图、语音合成、具身智能全面突破;OpenAPI、OAuth、Gallery等生态基建同步升级,加速AI开源普惠。(239字)
|
11天前
|
DeepSeek V4春节炸场,三大黑科技让Claude和GPT都坐不住了
今儿看到个信息,DeepSeek可能发布V4了。 老金我第一时间测试佐证了一下。 虽说官方没明确公布上线,但是咱可以先来了解下它的 3大创新能力。 DeepSeek作为国产之光(毕竟 价格屠夫),老金我是尤为关注的。 这个模型它不是小更新,是直接对标Claude Opus 4.5和GPT-5的那种 大级别的。 上次DeepSeek R1发布的时候,硅谷那边就已经慌了一波。 这次V4,定位更狠—
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
值得信赖的发票管理软件开发商
企业OA发票管理模块集成OCR识别、进项票池、验真查重、多维统计与可视化分析,实现发票采集、核验、归档、分析全周期数字化管理,提升财务效率、强化税务合规、支撑业财融合与数据决策。
AI技术在英语学习中的应用
AI已从翻译工具升级为嵌入英语学习全周期的“数字化私人导师”,实现口语智能对练、写作思维进阶、阅读情境习得。依托多模态感知、LLM推理、动态记忆与自然交互技术,推动学习去焦虑、低成本、碎片化沉浸。(239字)
|
14天前
|
Python驱动的PDF信息提取与结构化输出:从文本到表格的全流程解析
本文详解Python处理PDF的三大场景:文本提取(PyPDF2/pdfplumber)、扫描件OCR(Tesseract+pdf2image)、表格结构化(Camelot/tabula),结合真实案例演示精准提取与自动化输出,助力合同、发票等业务数据高效数字化。(239字)
|
17天前
|
JBoltAI全能力问答:Java AI框架实用解析
本简介聚焦JBoltAI框架核心能力,以开发者高频问题为线索,用通俗语言解析智能路由网关、多源数据接入、智能图表生成、OCR识别、文本向量化、多模态处理、可视化工作流及权限管理等模块的实际价值与落地逻辑,助力Java开发者高效集成AI能力。(239字)
|
17天前
|
Java做人工智能:JBoltAI框架多模态与OCR技术解度
JBoltAI框架赋能Java开发者,轻松集成多模态AI(文生图/视频)、高精度OCR识别及PDF/Word等多格式文件内容提取。统一API、事件驱动架构,零算法基础即可快速构建智能应用,大幅降低AI开发门槛。(239字)
|
18天前
|
Python实战:用代码轻松搞定PDF页面方向调整
本文详解Python自动化修复PDF页面方向问题:针对扫描件倒置、混合横纵页等痛点,对比Spire.PDF(精准控制)与PyPDF2(轻量快捷)两大方案,提供单页/批量/智能旋转、加密PDF处理及元数据保留等实用技巧,助你高效完成PDF方向矫正。(239字)
|
18天前
|
自动化评测的九九归一——评测agent
本文提出并落地统一评测Agent架构,通过让Agent自主学习业务标注标准(如语雀文档),实现评测集生成、自动打分、结果验收与Badcase分析的全链路自动化。
免费试用