|
8月前
|
人工智能 自然语言处理 算法
|

VidTok:微软开源的视频分词器,能够将视频内容转换为视觉 Token

VidTok 是微软开源的一款先进的视频分词器,支持连续和离散分词化,能够高效地将视频内容转换为视觉 Token,适用于多种应用场景。

139 15
来自: 计算机视觉  版块
|
9月前
|

极致的显存管理!6G显存运行混元Video模型

极致的显存管理!6G显存运行混元Video模型

198 0
|
9月前
|
机器学习/深度学习 人工智能
|

DiTCtrl:腾讯推出多提示视频生成方法,通过多个提示生成连贯的视频内容,确保内容与提示一致

DiTCtrl 是一种基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,能够在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内容和运动的一致性。

146 1
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率

ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型,支持长上下文处理,性能超越 SOTA,适合多种自然语言处理任务。

309 7
来自: 自然语言处理  版块
|
9月前
|
人工智能 智能硬件
|

SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。

221 0
来自: 自然语言处理  版块
|
9月前
|
人工智能 自然语言处理 计算机视觉
|

AI大模型开启智能化新时代

12月19日下午,复旦大学计算机科学技术学院第十二期“步青讲坛”在江湾校区二号交叉学科楼E1006报告厅举行。本期讲坛特别邀请了阿里巴巴集团副总裁、IEEE Fellow叶杰平教授做题为《AI大模型开启智能化新时代》的精彩技术报告。

344 4
|
9月前
|
存储 人工智能 开发框架
|

Kheish:开源的多智能体开发框架,通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

Kheish 是一个开源的多智能体协调平台,基于大型语言模型(LLM)设计,能够通过灵活配置多个智能体来解决复杂任务。平台支持模块化集成、聊天式提示、反馈循环等功能,适用于代码审计、法律文件分析、客户服务自动化等多种应用场景。

268 18
来自: 自然语言处理  版块
|
9月前
|

HelloMeme:充分利用 SD1.5 基模的理解能力,实现表情与姿态的迁移

HelloMeme:充分利用 SD1.5 基模的理解能力,实现表情与姿态的迁移

116 0
|
9月前
|

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

178 0
|
9月前
|

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

154 1
|
9月前
|
人工智能 前端开发 API
|

OpenAI 12天发布会内容全纪录!一文快速回顾获知亮点信息,原文附发布会中文字幕视频

OpenAI 于12月5日宣布将举行为期12天的系列发布活动,期间每天发布一个产品或样品,包括备受期待的AI视频生成工具Sora和新的推理模型。本文将介绍这12天的发布会每日的发布内容和相关亮点信息。

648 82
来自: 自然语言处理  版块
|
9月前
|
人工智能
|

AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。

360 16
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 存储 自然语言处理
|

如何提升大模型的“深度思维能力”

本文探讨了如何通过模拟人类的思维过程来提升大模型的推理和规划能力。文章从人类的思维模式入手,分析了人类在面对复杂问题时的“增-减”信息循环,提出了通过增加相关信息和减少噪声来降低信息熵的方法。文章还讨论了如何生成逻辑自洽的推理路径,并通过实例说明了多结论问题的处理方法。最后,文章指出,通过现有的大模型进行针对性微调,可以逐步强化数据,提升模型的推理和规划能力。

659 11
|
9月前
|
人工智能 算法 机器人
|

EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力

EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。

272 3
来自: 多模态  版块
|
9月前
|
人工智能 文字识别 语音技术
|

Megrez-3B-Omni: 首个端侧全模态理解开源模型

Megrez-3B-Omni是由无问芯穹(Infinigence AI)研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力。

415 3
|
9月前
|
开发框架 人工智能 安全
|

Promptic:轻量级 LLM 应用开发框架,提供完善的底层功能,使开发者更专注于构建上层功能

Promptic 是一个轻量级的 LLM 应用开发框架,支持通过一行代码切换不同的 LLM 服务提供商。它提供了类型安全的输出、流式支持、内置对话记忆、错误处理和重试等功能,帮助开发者专注于构建功能,而不是底层的复杂性。

190 6
来自: 自然语言处理  版块
|
9月前
|

AI赋能大学计划,优秀作品展示

AI赋能大学计划,优秀作品展示

174 0
|
9月前
|
机器学习/深度学习 存储 数据采集
|

MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情

MEMO是一种音频驱动的生成肖像说话视频框架,由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块,确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成,并能处理多语言输入。

220 7
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 计算机视觉
|

ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型

ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。

253 73
来自: 计算机视觉  版块
|
9月前
|
存储 人工智能 数据库
|

Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目

Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。

267 11
来自: 自然语言处理  版块
|
9月前
|
人工智能 PyTorch 算法框架/工具
|

StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。

263 7
来自: 计算机视觉  版块
|
9月前
|
人工智能 API 开发者
|

用 OpenVINO™ 部署 GLM-Edge 全家桶

11月29日,智谱发布了GLM-Edge系列模型,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B、GLM-Edge-V-5B,适用于手机、车机及PC平台。文章介绍了如何使用OpenVINO™工具套件在本地部署这些模型,实现高效的AI任务处理,如聊天与图像理解。提供了详细的环境配置、模型转换与量化、以及具体的应用示例。

297 16
|
9月前
|
人工智能
|

AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。

1412 31
来自: 计算机视觉  版块
|
9月前
|
人工智能 自然语言处理 算法
|

魔搭社区每周速递(11.24-11.30)

魔搭ModelScope本期社区进展:1361个模型,29个数据集,44个创新应用,5 篇内容

205 1
|
10月前
|
机器学习/深度学习 人工智能 算法
|

Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架

Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。

185 6
来自: 自然语言处理  版块
|
10月前
|
人工智能 编解码 BI
|

LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型

LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。

275 2
来自: 计算机视觉  版块
|
10月前
|
人工智能 编解码 搜索推荐
|

OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型

OneDiffusion 是一个开源的扩散模型,能够无缝支持双向图像合成和理解。它基于统一的训练框架,支持多种任务,如文本到图像生成、条件图像生成和图像理解等。OneDiffusion 通过流匹配框架和序列建模技术,实现了高度的灵活性和可扩展性。

171 2
来自: 计算机视觉  版块
|
10月前
|
人工智能 自然语言处理 PyTorch
|

AutoVFX:自然语言驱动的视频特效编辑框架

AutoVFX是一个先进的自然语言驱动的视频特效编辑框架,由伊利诺伊大学香槟分校的研究团队开发。该框架能够根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频,集成了神经场景建模、基于大型语言模型(LLM)的代码生成和物理模拟技术。本文详细介绍了AutoVFX的主要功能、技术原理以及如何运行该框架。

194 1
来自: 自然语言处理  版块
|
10月前
|
人工智能
|

LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法

LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法,旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化,LongAlign显著提高了模型在长文本对齐任务上的性能,超越了现有的先进模型。

121 1
来自: 自然语言处理  版块
|
10月前
|
数据库 SQL Python
|

基于SQL数据库的RAG的若干疑问

131 1
来自:自然语言处理 版块
|
11月前
|
C语言
|

C语言:哪些情况下会出现野指针

C语言中,野指针是指指向未知地址的指针,通常由以下情况产生:1) 指针被声明但未初始化;2) 指针指向的内存已被释放或重新分配;3) 指针指向局部变量,而该变量已超出作用域。使用野指针可能导致程序崩溃或不可预测的行为。

213 1
|
11月前
|
开发框架 缓存 监控
|

NET Framework 到 .NET 5/6 的迁移是重大的升级

本文详细介绍了从 .NET Framework 4.8 迁移到 .NET 5/6 的过程,通过具体案例分析了迁移策略与最佳实践,包括技术栈评估、代码迁移、依赖项更新及数据库访问层的调整,强调了分阶段迁移、保持代码可维护性及性能监控的重要性。

148 3
|
11月前
|
移动开发 HTML5
|

一个最简单的 HTML 页面结构如下:

HTML 是一种标记语言,用于描述网页结构。通过 `<html>`, `<head>`, `<body>` 等标签构建页面,支持文本、图像、链接、表格等多种元素。本文介绍了 HTML 基础,包括常用标签及创建简单网页的实例,帮助初学者快速入门。

246 0
|
11月前
|
存储 人工智能 Serverless
|

AI大模型助力客户对话分析评测文章

在数字化时代,企业面临客户对话数据处理的挑战。阿里云推出的AI大模型助力客户对话分析方案,通过整合多种云服务,实现对话数据的自动化分析,提升服务质量和客户体验。本文将详细介绍该方案的优势与实际应用效果。

486 6
|
11月前
|
前端开发
|

CSS 中哪些属性可以继承

在 CSS 中,属性分为可继承与不可继承。可继承属性会在子元素中沿用父元素的样式设定。常见可继承属性包括:文本属性(如 `font-family`, `color`),列表属性(如 `list-style`),表格布局属性(如 `border-collapse`),以及其他如 `visibility` 和 `direction` 等属性。正确理解这些属性有助于更高效地进行样式设计。

144 4
|
11月前
|
SQL 开发框架 .NET
|

ASP连接SQL数据库:从基础到实践

随着互联网技术的快速发展,数据库与应用程序之间的连接成为了软件开发中的一项关键技术。ASP(ActiveServerPages)是一种在服务器端执行的脚本环境,它能够生成动态的网页内容。而SQL数据库则是一种关系型数据库管理系统,广泛应用于各类网站和应用程序的数据存储和管理。本文将详细介绍如何使用A

205 3
|
12月前
|
人工智能 安全 量子技术
|

大疆DJI无人机等你来拿,蚂蚁集团agentUniverse 多智能体框架有奖征文

agentUniverse有奖征文活动来啦!分享agentUniverse的实践经验、亦或是剖析市面上各路智能体技术理念、对比开源框架的洞见,都有机会获得大疆无人机!

315 0
|
12月前
|
开发工具 git
|

大文件上传失败

115 0
|
12月前
|
弹性计算 监控 Java
|

云效OOM 处理探讨

在处理云效中的OOM(可能指内存溢出)问题时,可以通过以下措施缓解或解决:首先,进行**诊断与监控**,包括启用详细日志记录和性能监控;其次,**优化应用**,如代码审查及资源限制设定;再者,采用**垂直与水平扩展**策略增加内存或分散负载;此外,优化**垃圾回收与内存管理**;最后,充分利用**云服务特性**如自动弹性伸缩。这些方法有助于提高云效应用的稳定性和效率。

222 20
|
2月前
|
云安全 人工智能 安全
|

2025·全球AI攻防挑战赛启动选手招募:图、视、音三赛道逐鹿,推动AI安全技术进化

7月10日,2025·全球AI攻防挑战赛正式启动选手招募,邀请国内外的AI安全攻防精英参与全模态的AI攻防实战演练。本次大赛将重点关注数字身份交互认证安全,特别是在生活、金融和健康等场景下的应用。比赛分为图片、视频和音频三个赛道,采用攻防闭环的赛程设计,打破传统的静态攻防模式,推动安全技术的持续进化和发展。

128 0
|
3月前
|
人工智能 物联网
|

“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享

“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享

272 85

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14243
内容
6
活动
3577
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互