文字识别的搜索结果_第18页-阿里云开发者社区

游客lijmi4663rgsa

|

9月前

|

博文

对双栏 | 单双栏混合 | 图表文字混合的复杂布局的图片OCR识别（对布局复杂的整个pdf进行OCR识别）

这个故事告诉我们要多尝试不同的库和引擎，尤其是需求比较偏门或者少见的时候。同一个方向不同的库所擅长的领域是不一样的。博客不应该只有代码和解决方案，重点应该在于给出解决方案的同时分享思维模式，只有思维才能可持续地解决问题，只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助，麻烦您点个赞支持一下，还可以收藏起来以备不时之需，有疑问和错误欢迎在评论区指出~

# 文字识别 # UED # Python

游客lijmi4663rgsa

|

9月前

|

博文

使用OCR库Pix2Text执行p2t.recognize()时出现list index out of range的错误信息（附有Pix2Text识别图片内容和laTex公式的代码）

有时候报错并不是你代码有问题，源码出错也是很常见的情况，比如之前使用mxgraph也出现了不知名bug，最后也是修改的源码解决的。有疑问欢迎交流~ 博客不应该只有代码和解决方案，重点应该在于给出解决方案的同时分享思维模式，只有思维才能可持续地解决问题，只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助，麻烦您点个赞支持一下，还可以收藏起来以备不时之需，有疑问和错误欢迎在评论区指出~

# 机器学习/深度学习 # 文字识别 # 开发者

Deephub

|

9月前

|

博文

|

来自：大数据与机器学习

SigLIP 2：多语言语义理解、定位和密集特征的视觉语言编码器

SigLIP 2 是一种改进的多语言视觉-语言编码器系列，通过字幕预训练、自监督学习和在线数据管理优化性能。它在零样本分类、图像-文本检索及视觉表示提取中表现卓越，支持多分辨率处理并保持图像纵横比。模型提供 ViT-B 至 g 四种规格，采用 WebLI 数据集训练，结合 Sigmoid 损失与自蒸馏等技术提升效果。实验表明，SigLIP 2 在密集预测、定位任务及多模态应用中显著优于前代和其他基线模型。

# 机器学习/深度学习 # 编解码 # 自然语言处理 # 文字识别 # 数据管理

modelscope

|

9月前

|

博文

|

来自： ModelScope模型即服务

解读 | 金融长上下文基准测试FailSafeQA：解锁金融领域LLM真实的审慎性和容错性

近年来，大型语言模型（LLMs）在金融领域的应用如火如荼，从风险分析到客户服务，它们正逐步改变行业的游戏规则。然而，这些模型是否真的足够“靠谱”？面对复杂的金融数据和多变的用户输入，它们还能保持精准和稳健吗？

# 人工智能 # 自然语言处理 # 文字识别 # 安全 # 测试技术

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集，旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，结合开放式问答对，支持知识问答、推理任务和创造性任务。

# 图像识别 # 数据采集 # 人工智能 # 文字识别 # 测试技术

小华同学ai

|

9月前

|

博文

3.4K star！全能PDF处理神器开源！文档转换/OCR识别一键搞定

PDF-Guru 是一款开箱即用的全能型PDF处理工具，支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计，提供简洁的Web界面和API接口，开发者可快速集成到现有系统中。

# 文字识别 # BI # API # 开发者 # Python

技术小达人

|

9月前

|

博文

新书上线 |《零门槛AIGC应用实战——Serverless+AI 轻松玩转高频AIGC场景》免费下载

# 函数计算 # 人工智能 # 运维 # 文字识别 # Serverless # 开发者

技术内容小助手

|

9月前

|

博文

|

来自：通义大模型

通义两大模型，正式开源！

# 大模型服务平台百炼 # 人工智能 # JSON # 文字识别 # API # UED

码农小达人

|

10月前

|

博文

阿里国际Ovis2系列模型开源：多模态大语言模型的新突破

# 机器学习/深度学习 # 存储 # 文字识别 # 算法 # 计算机视觉

技术小达人

|

10月前

|

博文

OpenSearch LLM智能问答版全新升级

# 智能开放搜索 OpenSearch # 存储 # 人工智能 # 自然语言处理 # 文字识别 # 索引

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别