|
9月前
|
人工智能 文字识别 语音技术
|

Megrez-3B-Omni: 首个端侧全模态理解开源模型

Megrez-3B-Omni是由无问芯穹(Infinigence AI)研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力。

415 3
|
9月前
|
人工智能 算法 物联网
|

Lyra:SmartMore 联合香港多所高校推出的多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力

Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型,专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型和多模态LoRA模块,减少训练成本和数据需求,支持多种模态理解和推理任务。

271 33
来自: 多模态  版块
|
9月前
|
人工智能 安全 算法
|

CAMEL AI 上海黑客松重磅来袭!快来尝试搭建你的第一个多智能体系统吧!

掌握多智能体系统,🐫 CAMEL-AI Workshop & 黑客马拉松即将启航!

208 4
|
9月前
|
机器学习/深度学习 人工智能 算法
|

Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性

Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。

251 4
来自: 计算机视觉  版块
|
9月前
|
人工智能 自然语言处理 前端开发
|

CodeArena:在线 LLM 编程竞技场!用于测试不同开源 LLM 的编程能力,实时更新排行榜

CodeArena 是一个在线平台,用于测试和比较不同大型语言模型(LLM)的编程能力。通过实时显示多个 LLM 的代码生成过程和结果,帮助开发者选择适合的 LLM,并推动 LLM 技术的发展。

215 7
来自: 自然语言处理  版块
|
9月前
|
人工智能 算法 测试技术
|

Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。

198 42
来自: 多模态  版块
|
9月前
|

AI赋能大学计划,优秀作品展示

AI赋能大学计划,优秀作品展示

174 0
|
9月前
|

AI赋能大学计划,优秀作品展示

AI赋能大学计划,优秀作品展示

169 1
|
9月前
|

AI赋能大学计划,优秀作品展示

AI赋能大学计划,优秀作品展示

163 0
|
9月前
|
机器学习/深度学习 存储 数据采集
|

MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情

MEMO是一种音频驱动的生成肖像说话视频框架,由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块,确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成,并能处理多语言输入。

220 7
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 计算机视觉
|

ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型

ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。

253 73
来自: 计算机视觉  版块
|
9月前
|
存储 人工智能 数据库
|

Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目

Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。

267 11
来自: 自然语言处理  版块
|
9月前
|
人工智能 PyTorch 算法框架/工具
|

StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。

263 7
来自: 计算机视觉  版块
|
9月前
|
存储 人工智能 自然语言处理
|

Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法

Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。Delta-CoMe特别适用于处理数学、代码和多模态等复杂任务,并在推理速度上有所提升。

246 6
来自: 科学计算  版块
|
9月前
|
人工智能 自然语言处理 算法
|

魔搭社区每周速递(11.24-11.30)

魔搭ModelScope本期社区进展:1361个模型,29个数据集,44个创新应用,5 篇内容

205 1
|
10月前
|
人工智能 编解码 BI
|

LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型

LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。

275 2
来自: 计算机视觉  版块
|
10月前
|
人工智能 算法 数据挖掘
|

StoryTeller:字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术,结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller在MovieQA任务中展现出比现有模型更高的准确率,适用于电影制作、视频内容分析、辅助视障人士等多个应用场景。

448 0
来自: 多模态  版块
|
10月前
|
人工智能 编解码 算法
|

MVPaint:腾讯PCG联合多所高校共同推出的3D纹理生成框架

MVPaint是由腾讯PCG联合多所高校共同推出的3D纹理生成框架,基于同步多视角扩散技术,实现高分辨率、无缝且多视图一致的3D纹理生成。该框架包含三个核心模块:同步多视角生成、空间感知3D修补和UV细化,显著提升3D模型的纹理生成效果。

181 2
来自: 计算机视觉  版块
|
10月前
|
人工智能 编解码 搜索推荐
|

OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型

OneDiffusion 是一个开源的扩散模型,能够无缝支持双向图像合成和理解。它基于统一的训练框架,支持多种任务,如文本到图像生成、条件图像生成和图像理解等。OneDiffusion 通过流匹配框架和序列建模技术,实现了高度的灵活性和可扩展性。

171 2
来自: 计算机视觉  版块
|
10月前
|
人工智能 自然语言处理 PyTorch
|

AutoVFX:自然语言驱动的视频特效编辑框架

AutoVFX是一个先进的自然语言驱动的视频特效编辑框架,由伊利诺伊大学香槟分校的研究团队开发。该框架能够根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频,集成了神经场景建模、基于大型语言模型(LLM)的代码生成和物理模拟技术。本文详细介绍了AutoVFX的主要功能、技术原理以及如何运行该框架。

194 1
来自: 自然语言处理  版块
|
10月前
|
人工智能
|

LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法

LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法,旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化,LongAlign显著提高了模型在长文本对齐任务上的性能,超越了现有的先进模型。

121 1
来自: 自然语言处理  版块
|
10月前
|
Java
|

java 中 IO 流

Java中的IO流是用于处理输入输出操作的机制,主要包括字节流和字符流两大类。字节流以8位字节为单位处理数据,如FileInputStream和FileOutputStream;字符流以16位Unicode字符为单位,如FileReader和FileWriter。这些流提供了读写文件、网络传输等基本功能。

163 10
|
10月前
|
数据库 SQL Python
|

基于SQL数据库的RAG的若干疑问

131 1
来自:自然语言处理 版块
|
11月前
|
缓存 人工智能 程序员
|

活动|2024 CodeFuse 「编码挑战季」活动已开启!欢迎报名参加

1024程序员节,CodeFuse发起「编码挑战季」活动,邀请开发者参与muAgent、MFTCoder、ModelCache、CodeFuse-IDE四个项目的编码挑战。活动设有多难度任务,完成即可获积分兑换礼品,更有神秘大奖等你来拿!详情及报名请访问CodeFuse官方渠道。

139 1
|
11月前
|
开发框架 缓存 监控
|

NET Framework 到 .NET 5/6 的迁移是重大的升级

本文详细介绍了从 .NET Framework 4.8 迁移到 .NET 5/6 的过程,通过具体案例分析了迁移策略与最佳实践,包括技术栈评估、代码迁移、依赖项更新及数据库访问层的调整,强调了分阶段迁移、保持代码可维护性及性能监控的重要性。

148 3
|
11月前
|
存储 人工智能 Serverless
|

AI大模型助力客户对话分析评测文章

在数字化时代,企业面临客户对话数据处理的挑战。阿里云推出的AI大模型助力客户对话分析方案,通过整合多种云服务,实现对话数据的自动化分析,提升服务质量和客户体验。本文将详细介绍该方案的优势与实际应用效果。

486 6
|
11月前
|
SQL 开发框架 .NET
|

ASP连接SQL数据库:从基础到实践

随着互联网技术的快速发展,数据库与应用程序之间的连接成为了软件开发中的一项关键技术。ASP(ActiveServerPages)是一种在服务器端执行的脚本环境,它能够生成动态的网页内容。而SQL数据库则是一种关系型数据库管理系统,广泛应用于各类网站和应用程序的数据存储和管理。本文将详细介绍如何使用A

205 3
|
12月前
|
人工智能 安全 量子技术
|

大疆DJI无人机等你来拿,蚂蚁集团agentUniverse 多智能体框架有奖征文

agentUniverse有奖征文活动来啦!分享agentUniverse的实践经验、亦或是剖析市面上各路智能体技术理念、对比开源框架的洞见,都有机会获得大疆无人机!

315 0
|
12月前
|
开发工具 git
|

大文件上传失败

115 0
|
2月前
|
云安全 人工智能 安全
|

2025·全球AI攻防挑战赛启动选手招募:图、视、音三赛道逐鹿,推动AI安全技术进化

7月10日,2025·全球AI攻防挑战赛正式启动选手招募,邀请国内外的AI安全攻防精英参与全模态的AI攻防实战演练。本次大赛将重点关注数字身份交互认证安全,特别是在生活、金融和健康等场景下的应用。比赛分为图片、视频和音频三个赛道,采用攻防闭环的赛程设计,打破传统的静态攻防模式,推动安全技术的持续进化和发展。

128 0
|
3月前
|
人工智能 物联网
|

“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享

“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享

272 85
|
5月前
|
前端开发 语音技术
|

面向对话语音合成的模态间与模态内上下文交互建模

面向对话语音合成的模态间与模态内上下文交互建模

128 15
|
5月前
|
人工智能
|

Open AI Model

Open AI Model is an open model for defining AI. Focused on AI rather than application, Open AI Model [OAM] brings simplest but most powerful design for modeling AI.

123 4
|
5月前
|
物联网 容器
|

“一丹一世界”三等奖 | 绮影录 创作分享

“一丹一世界”三等奖 | 绮影录 创作分享

111 2
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
|

快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架,其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡,在CLIP-I指标上取得0.873的高分验证了技术突破。

129 9
来自: 多模态  版块
|
6月前
|
存储 人工智能 编解码
|

TripoSF:3D建模内存暴降80%!VAST AI新一代模型细节狂飙82%

TripoSF 是 VAST AI 推出的新一代 3D 基础模型,采用创新的 SparseFlex 表示方法,支持 1024³ 高分辨率建模,内存占用降低 82%,在细节捕捉和复杂结构处理上表现优异。

187 10
来自: 计算机视觉  版块
|
6月前
|
人工智能 自然语言处理
|

TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线

谷歌推出专为药物研发设计的TxGemma大模型,具备药物特性预测、生物文献筛选、多步推理等核心能力,提供20亿至270亿参数版本,显著提升治疗开发效率。

205 7
来自: 自然语言处理  版块
|
6月前
|
小程序 Java 关系型数据库
|

weixin117新闻资讯系统设计+springboot(文档+源码)_kaic

本文介绍了一款基于微信小程序的新闻资讯系统,涵盖其开发全过程。该系统采用Java的SSM框架进行后台管理开发,使用MySQL作为本地数据库,并借助微信开发者工具确保稳定性。管理员可通过个人中心、用户管理等功能模块实现高效管理,而用户则能注册登录并查看新闻与视频内容。系统设计注重可行性分析(技术、经济、操作),强调安全性与数据完整性,界面简洁易用,功能全面,极大提升了信息管理效率及用户体验。关键词包括基于微信小程序的新闻资讯系统、SSM框架和MYSQL数据库。

203 17
|
6月前
|
前端开发 测试技术 API
|

DeepSeek-V3小版本升级,非推理模型王者归来

今天,DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型,虽然官方低调称之为小版本升级,但能力提升一点也不小。

245 5
|
6月前
|
人工智能 自然语言处理 PyTorch
|

Instella:AMD开源30亿参数语言模型!训练效率碾压同级选手

Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构,支持多轮对话、指令跟随和自然语言理解,适用于智能客服、内容创作和教育辅导等多个领域。

111 1
来自: 自然语言处理  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14243
内容
6
活动
3577
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互