图像识别的搜索结果_热门_第14页-阿里云开发者社区

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

Mureka V6：10语种AI音乐工厂！昆仑万维「声场黑科技」颠覆作曲

昆仑万维推出的Mureka V6 AI音乐创作基座模型，支持10种语言歌词生成和纯音乐创作，通过自研ICL技术实现声场优化，覆盖爵士/电子/流行等多元风格，为音乐爱好者和专业创作者提供高效工具。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 数据库 # 决策智能 # Swift

Trouble..

|

博文

ViT(Version Transformer)原始论文解读

虽然Transformer体系结构已经成为自然语言处理任务的事实上的标准，但它在计算机视觉方面的应用仍然有限。在视觉上，注意力要么与卷积网络结合应用

# 自然语言处理 # 图像识别 # 机器学习/深度学习 # 编解码 # 自然语言处理 # 测试技术 # 计算机视觉 # 芯片 # 知识图谱 # AI芯片

颜淡慕潇

|

博文

|

来自：通义大模型

【大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变

通过对GPT-4V和文档识别领域的深入分析和思考，为OCR文档识别领域的研究开辟了新的方向。需求不断增长的背景下，提高识别精度和处理效率成为了迫切需要满足的新应用标准。在这一背景下，出现了：素级OCR统一模型、OCR大一统模型、文档识别分析+LLM（LanguageModel）等应用的新方向。下面来详细看一下。

# 图像识别 # 自然语言处理 # 文字识别 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 算法 # 图形学

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Riona-AI-Agent：自媒体 AI 代理！自动点赞、评论、个性化内容生成和发布等交互任务

Riona-AI-Agent 是一款基于 Node.js 和 TypeScript 的 AI 自动化工具，支持 Instagram、Twitter 等平台的自动化交互，生成高质量内容，提升社交媒体管理效率。

# 图像识别 # 数据采集 # 人工智能 # 自然语言处理 # JavaScript # 搜索推荐

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # API # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出，显著提升多模态交互体验。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 数据库 # UED

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

LazyLLM：还在为AI应用开发掉头发？商汤开源智能体低代码开发工具，三行代码部署聊天机器人

LazyLLM 是一个低代码开发平台，可帮助开发者快速构建多智能体大语言模型应用，支持一键部署、跨平台操作和多种复杂功能。

# 图像识别 # 人工智能 # 机器人 # 开发工具 # 决策智能 # 开发者

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集，旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，结合开放式问答对，支持知识问答、推理任务和创造性任务。

# 图像识别 # 数据采集 # 人工智能 # 文字识别 # 测试技术

蚝油菜花

|

5月前

|

博文

|

来自： ModelScope模型即服务

这个AI能把PSD变视频！人物/场景/道具任意组合！SkyReels-A2：昆仑万维推出的可控多元素视频生成框架

SkyReels-A2是昆仑万维推出的创新视频生成框架，通过扩散模型和图像-文本联合嵌入技术，实现多元素精准组合与高质量视频输出。

# 图像识别 # 人工智能 # 调度 # UED # 异构计算

蚝油菜花

|

5月前

|

博文

|

来自： ModelScope模型即服务

RAGEN：RL训练LLM推理新范式！开源强化学习框架让Agent学会多轮决策

RAGEN是一个基于StarPO框架的开源强化学习系统，通过马尔可夫决策过程形式化Agent与环境的交互，支持PPO、GRPO等多种优化算法，显著提升多轮推理训练的稳定性。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 算法

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别