图像识别的搜索结果_文章_第3页-阿里云开发者社区

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

传统OCR集体阵亡！Versatile-OCR-Program：开源多语言OCR工具，精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现，其基于多模态融合架构实现90%以上识别准确率，支持数学公式与图表的结构化输出，为教育资料数字化提供高效解决方案。

# 云解析DNS # 图像识别 # 存储 # 人工智能 # JSON # 文字识别 # 自然语言处理

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

月之暗面开源16B轻量级多模态视觉语言模型！Kimi-VL：推理仅需激活2.8B，支持128K上下文与高分辨率输入

月之暗面开源的Kimi-VL采用混合专家架构，总参数量16B推理时仅激活2.8B，支持128K上下文窗口与高分辨率视觉输入，通过长链推理微调和强化学习实现复杂任务处理能力。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 网络架构 # 异构计算

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

AI图像质感还原堪比专业摄影！Miracle F1：美图WHEE全新AI图像生成模型，支持超写实与多风格生成

美图WHEE推出的Miracle F1采用扩散模型技术，通过精准语义理解和多风格生成能力，可产出具有真实光影质感的专业级图像作品。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

从商业海报到二次元插画多风格通吃！HiDream-I1：智象未来开源文生图模型，17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型，采用扩散模型技术和混合专家架构，在图像质量、提示词遵循能力等方面表现优异，支持多种风格生成。

# 图像识别 # 人工智能 # 并行计算 # 测试技术 # 网络架构 # 内存技术

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

这个AI能把PSD变视频！人物/场景/道具任意组合！SkyReels-A2：昆仑万维推出的可控多元素视频生成框架

SkyReels-A2是昆仑万维推出的创新视频生成框架，通过扩散模型和图像-文本联合嵌入技术，实现多元素精准组合与高质量视频输出。

# 图像识别 # 人工智能 # 调度 # UED # 异构计算

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

OpenRouter 推出百万 token 上下文 AI 模型！Quasar Alpha：提供完全免费的 API 服务，同时支持联网搜索和多模态交互

Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型，具备百万级 token 上下文处理能力，在代码生成、指令遵循和低延迟响应方面表现卓越，同时支持联网搜索和多模态交互。

# 图像识别 # 人工智能 # 算法 # 安全 # API # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

OmniCam：浙大联合上海交大推出多模态视频生成框架，虚拟导演打造百万级影视运镜

OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架，通过LLM与视频扩散模型结合实现高质量视频生成，支持文本、轨迹和图像等多种输入模态。

# 图像识别 # 机器学习/深度学习 # 人工智能

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

音乐人狂喜！AbletonMCP：让AI帮你写歌，一句话生成专业编曲，Demo级作品秒出

AbletonMCP 是一个开源项目，通过模型上下文协议（MCP）将 Ableton Live 与 Claude AI 连接，实现 AI 辅助音乐制作，支持创建、修改 MIDI 和音频轨道等操作。

# 图像识别 # 人工智能 # JSON # 网络协议 # 数据格式 # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

AutoGLM沉思：智谱AI推出首个能"边想边干"的自主智能体！深度研究+多模态交互，颠覆传统AI工作模式

AutoGLM沉思是由智谱AI推出的一款开创性AI智能体，它突破性地将深度研究能力与实际操作能力融为一体，实现了AI从被动响应到主动执行的跨越式发展。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 搜索推荐 # 数据可视化

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Amazon Nova Act：网页操作全自动！亚马逊黑科技把浏览器变AI机器人，请假/订餐/写邮件一键搞定

Amazon Nova Act是亚马逊AGI实验室推出的通用AI代理系统，通过原子化分解网页操作任务并配合Playwright实现高可靠性浏览器自动化，其配套SDK支持开发者快速构建智能体应用原型。

# 图像识别 # 人工智能 # 机器人 # 开发工具 # 决策智能 # 开发者

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别