图像识别的搜索结果_文章-阿里云开发者社区

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

RAGEN：RL训练LLM推理新范式！开源强化学习框架让Agent学会多轮决策

RAGEN是一个基于StarPO框架的开源强化学习系统，通过马尔可夫决策过程形式化Agent与环境的交互，支持PPO、GRPO等多种优化算法，显著提升多轮推理训练的稳定性。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 算法

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

开源8B参数全能扩散模型Flex.2-preview：把线稿变商稿，还能边画边改！

Flex.2-preview是Ostris开源的80亿参数文本到图像扩散模型，支持512token长文本输入和多类型控制引导，内置修复功能并兼容主流AI绘画工具链。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 物联网 # 异构计算

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

AI生成视频告别剪辑拼接！MAGI-1：开源自回归视频生成模型，支持一镜到底的长视频生成

MAGI-1是Sand AI开源的全球首个自回归视频生成大模型，采用创新架构实现高分辨率流畅视频生成，支持无限扩展和精细控制，在物理行为预测方面表现突出。

# 图像识别 # 人工智能 # 编解码 # 算法 # Docker # 容器

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

机器人训练师狂喜！Infinite Mobility：上海AI Lab造物神器1秒生成可动家具，成本只要1分钱

上海AI Lab推出的Infinite Mobility采用程序化生成技术，可高效生成22类高质量可交互物体，单个生成仅需1秒且成本低至0.01元，已应用于机器人仿真训练等领域。

# 图像识别 # 人工智能 # 算法 # 数据可视化 # 机器人 # 开发工具

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

音乐人必看！OpenUtau：开源AI歌声合成神器，快速打造专业级虚拟歌手，中文日文无缝切换

OpenUtau是一款开源的歌声合成工具，兼容UTAU音源库和重采样器，支持多语言界面及预渲染功能，让音乐创作更加高效便捷。

# 图像识别 # 人工智能 # Linux # iOS开发 # MacOS # Windows

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

视觉分词器突破天花板！GigaTok：港大字节联手打造3B参数视觉分词器，突破图像生成瓶颈

GigaTok是香港大学与字节跳动联合研发的3B参数视觉分词器，通过语义正则化技术和创新架构设计，解决了图像重建与生成质量间的矛盾，显著提升自回归模型的表示学习能力。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 知识图谱

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

快速生成商业级高清图！SimpleAR：复旦联合字节推出图像生成黑科技，5亿参数秒出高清大图

SimpleAR是复旦大学与字节Seed团队联合研发的自回归图像生成模型，仅用5亿参数即可生成1024×1024分辨率的高质量图像，在GenEval等基准测试中表现优异。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # 测试技术

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

AI视频生成也能自动补全！Wan2.1 FLF2V：阿里通义开源14B视频生成模型，用首尾两帧生成过渡动画

万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型，基于DiT架构和高效视频压缩VAE，能够根据首尾帧图像自动生成5秒720p高清视频，支持多种风格变换和细节复刻。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码 # Apache # 异构计算

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

多模态交互3D建模革命！Neural4D 2o：文本+图像一键生成高精度3D内容

Neural4D 2o是DreamTech推出的突破性3D大模型，通过文本、图像、3D和运动数据的联合训练，实现高精度3D生成与智能编辑，为创作者提供全新的多模态交互体验。

# 图像识别 # 人工智能 # 自然语言处理 # 图形学

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

多模态模型卷王诞生！InternVL3：上海AI Lab开源78B多模态大模型，支持图文视频全解析！

上海人工智能实验室开源的InternVL3系列多模态大语言模型，通过原生多模态预训练方法实现文本、图像、视频的统一处理，支持从1B到78B共7种参数规模。

# 云解析DNS # 图像识别 # 人工智能 # 算法 # API

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别