|
2月前
|
人工智能
|

CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化

CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术,通过大规模数据集和孪生多模态扩散变换器,实现高质量图像生成与布局优化。

118 20
来自: 计算机视觉  版块
|
2月前
|
人工智能 API
|

新年课程开启:手把手教学,0基础5次课程学会搭建无限拓展的AI应用

你是否想过自己也能动手搭建一个AI应用?现在,这个目标触手可及!

135 9
|
2月前
|
人工智能 索引
|

Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒

Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。

183 19
来自: 计算机视觉  版块
|
3月前
|

极致的显存管理!6G显存运行混元Video模型

极致的显存管理!6G显存运行混元Video模型

103 0
|
3月前
|
人工智能 自然语言处理 PyTorch
|

Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率

Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练,旨在提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。

106 12
来自: 自然语言处理  版块
|
3月前
|
人工智能 自然语言处理 小程序
|

魔搭社区每周速递(12.15-12.21)

🙋魔搭ModelScope本期社区进展:📟1914个模型,📁58个数据集,🎨78个创新应用,📄 8篇内容

177 4
|
3月前
|
人工智能 算法 机器人
|

EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力

EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。

135 3
来自: 多模态  版块
|
3月前
|
人工智能 算法 物联网
|

Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力

Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型和多模态LoRA模块,减少训练成本和数据需求,支持多种模态理解和推理任务。

146 33
来自: 多模态  版块
|
3月前
|
编解码 人工智能 自然语言处理
|

Ruyi:图森未来推出的图生视频大模型,支持多分辨率、多时长视频生成,具备运动幅度和镜头控制等功能

Ruyi是图森未来推出的图生视频大模型,专为消费级显卡设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,能够降低动漫和游戏内容的开发周期和成本,是ACG爱好者和创作者的理想工具。

164 33
来自: 计算机视觉  版块
|
3月前
|
人工智能 自然语言处理 安全
|

魔搭社区每周速递(12.08-12.14)

魔搭ModelScope本期社区进展:新增1599个模型,46个数据集,67个创新应用,8篇内容

110 7
|
3月前
|
机器学习/深度学习 数据采集 人工智能
|

基于可图Kolors的皮影戏风格LoRA训练&创作

可图Kolors-LoRA风格故事挑战赛比赛过程心得分享

144 8
|
3月前
|
人工智能 安全 测试技术
|

EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题

EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。

127 9
来自: 自然语言处理  版块
|
3月前
|
人工智能 编解码 虚拟化
|

See3D:智源研究院开源的无标注视频学习 3D 生成模型

See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。

148 13
来自: 计算机视觉  版块
|
3月前
|
机器学习/深度学习 算法 计算机视觉
|

《深度学习案例实战》新书出版——基于阿里魔搭平台

《深度学习案例实战》是一本实用的指南,涵盖多个领域的深度学习应用案例。本书旨在通过具体的案例讲解,阐述典型深度学习算法在图像分类、声音识别、语义分割、目标检测等各个领域的广泛应用。本书所涵盖的典型案例包括太阳黑子分类、气象预测、食物声音分类、智能厨房、智能冰箱食材检测、集体照人脸识别、遛狗绳识别、智能售药机药品检测、道路裂纹检测、学生教室行为检测等。这些案例旨在通过实际问题的解决,使读者能够深入理解深度学习算法的应用和实践。 本书特别关注两个关键技术:低代码开发平台摩搭ModelScope和深度学习加速器OpenVINO。摩搭平台为读者提供了一个便捷的开发环境,借助其丰富的预训练模型库和开发平

169 2
|
3月前
|
机器学习/深度学习 存储 数据采集
|

MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情

MEMO是一种音频驱动的生成肖像说话视频框架,由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块,确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成,并能处理多语言输入。

105 7
来自: 多模态  版块
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|

FullStack Bench:字节豆包联合M-A-P社区开源的全新代码评估基准

FullStack Bench是由字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准,专注于全栈编程和多语言编程能力评估。该基准覆盖超过11种真实编程场景,包含3374个问题,涉及16种编程语言,旨在更有效地衡量大模型在现实世界中的代码开发能力。

104 5
来自: 自然语言处理  版块
|
4月前
|
人工智能 数据处理 异构计算
|

LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架

LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。

111 1
来自: 自然语言处理  版块
|
4月前
|
机器学习/深度学习 编解码 算法
|

了解与对比主流背景去除工具

本文对比了几款主流的背景去除工具,包括Remove.bg、Removal.ai、RMBG 2.0、Imagga和Wondershare Pixcut,重点介绍了RMBG 2.0这款开源工具的性能、优势及挑战,适用于不同需求的用户选择。

122 2
|
4月前
|
Linux 数据库
|

find、locate和grep命令对比

在Linux系统中,`find`、`locate`和`grep`命令各有特点。`find`通过递归遍历文件系统,适合复杂条件搜索;`locate`通过预建数据库快速查找文件,但依赖数据库更新;`grep`用于文件内文本搜索,可结合`find`提高效率。选择合适的命令需根据具体需求和场景。

107 2
|
5月前
|
运维 网络协议 Linux
|

linux系统命令 losf详解

**lsof命令**(List Open Files)是Linux系统中一个非常实用的工具,用于列出当前系统上所有打开的文件以及与之关联的进程。以下是对lsof命令的详细介绍: ### 一、基本功能 lsof命令可以显示系统中被进程打开的文件,这些文件可以是普通文件、目录、网络套接字、设备文件等。通过lsof命令,用户可以方便地查看哪些文件被哪些进程打开,以及这些文件的状态信息。 ### 二、基本语法 lsof命令的基本语法为:`lsof [选项] [文件]`。其中,选项用于指定lsof命令的行为,文件则是可选的,用于指定要查询的文件。 ### 三、常用选项 * `-a` 或 `-

232 6
|
5月前
|
物联网 Swift 机器学习/深度学习
|

小白求助,跟着大模型微调教程做不太明白

873 1
来自:自然语言处理 版块
|
7月前
|
数据采集 机器学习/深度学习 人工智能
|

Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记

这段内容介绍了一个使用Stable Diffusion与LoRA技术创建定制化二次元图像生成模型的全流程。首先,通过安装必要的软件包如Data-Juicer和DiffSynth-Studio准备开发环境。接着,下载并处理二次元图像数据集,利用Data-Juicer进行数据清洗和筛选,确保图像质量和尺寸的一致性。随后,训练一个针对二次元风格优化的LoRA模型,并调整参数以控制模型复杂度。完成训练后,加载模型并通过精心设计的提示词(prompt)生成一系列高质量的二次元图像,展示模型对细节和艺术风格的理解与再现能力。整个过程展示了从数据准备到模型训练及结果生成的完整步骤,为定制化图像提供了方向。

204 2
|
7月前
|
关系型数据库 Serverless 分布式数据库
|

阿里云 Serverless 高可用架构

阿里云的《卓越效能,极简运维,Serverless高可用架构》解决方案提供了全托管服务、自动扩展、高可用性、无缝集成以及内置安全等核心功能。该方案通过免除底层基础设施的管理,允许用户专注于应用程序开发,同时确保应用的稳定运行和资源的有效利用。 **核心功能简介**: - **全托管服务**:用户无需关心底层硬件,由阿里云负责维护和扩展计算资源。 - **自动扩展**:根据业务需求自动调整资源,确保应用在高峰期有足够的计算能力,低谷期则节省成本。 - **高可用性**:多地域和多可用区部署,实现故障自动切换,确保业务连续性。 - **无缝集成**:与阿里云的其他服务(如数据库、消息队列等)深度

173 4
|
8月前
|
并行计算 计算机视觉 算法框架/工具
|

安装cv的modelscope报错怎么解决?"

104 1

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

4
今日
13762
内容
6
活动
3086
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互