开发者社区> ModelScope模型即服务> 多模态

多模态

关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

0
今日
309
内容
0
活动
252
关注
|
8月前
|
人工智能 算法 数据可视化
|

机器人训练师狂喜!Infinite Mobility:上海AI Lab造物神器1秒生成可动家具,成本只要1分钱

上海AI Lab推出的Infinite Mobility采用程序化生成技术,可高效生成22类高质量可交互物体,单个生成仅需1秒且成本低至0.01元,已应用于机器人仿真训练等领域。

340 2
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
|

快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架,其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡,在CLIP-I指标上取得0.873的高分验证了技术突破。

237 9
|
9月前
|
人工智能 搜索推荐 开发者
|

Kiss3DGen:基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架,通过重新利用预训练的2D图像扩散模型,高效生成、编辑和增强3D对象,支持文本到3D、图像到3D等多种生成任务。

406 5
|
11月前
|
机器学习/深度学习 人工智能 监控
|

Uni-AdaFocus:清华大学开源高效视频理解框架,根据视频内容动态分配计算资源

Uni-AdaFocus 是清华大学推出的高效视频理解框架,通过自适应聚焦机制动态调整计算资源分配,显著提升视频处理效率。

191 6
|
11月前
|
并行计算
|

关于qwen2-vl微调最佳实践

355 2
|
11月前
|
机器学习/深度学习 数据采集 人工智能
|

GeneralDyG:南洋理工推出通用动态图异常检测方法,支持社交网络、电商和网络安全

GeneralDyG 是南洋理工大学推出的通用动态图异常检测方法,通过时间 ego-graph 采样、图神经网络和时间感知 Transformer 模块,有效应对数据多样性、动态特征捕捉和计算成本高等挑战。

340 18
我要发布