|
9月前
|
人工智能 自然语言处理 API
|

Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动

谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。

321 3
来自: 自然语言处理  版块
|
9月前
|
人工智能 算法 测试技术
|

Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型

Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。

202 42
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 自然语言处理 数据安全/隐私保护
|

探索Qwen2.5大模型在车险理赔领域的应用

本文探讨了Qwen2.5大模型在车险理赔领域的应用,特别是通过微调模型来优化理赔流程、提高反欺诈能力。文章介绍了车险理赔的数据特点和业务流程,展示了如何准备数据、微调模型,并进行了模型评估和部署的示例。通过这些方法,Qwen2.5能够显著提升理赔效率和准确性,减少人工干预。

702 1
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。

948 20
来自: 多模态  版块
|
9月前
|
人工智能 自然语言处理 语音技术
|

Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别

Ultravox是一款端到端的多模态大模型,能够直接理解文本和人类语音,无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示,显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能,适用于智能客服、虚拟助手、语言学习等多个应用场景。

537 14
来自: 多模态  版块
|
9月前
|
数据采集 人工智能 编解码
|

书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型

书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。

648 7
来自: 多模态  版块
|
9月前
|
人工智能 物联网 PyTorch
|

ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本

ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。

656 5
来自: 语音  版块
|
9月前
|
数据采集 人工智能 自然语言处理
|

FineWeb 2:开源的多语言预训练数据集,覆盖超过 1000 种语言

FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言,支持多种 NLP 任务,如机器翻译和文本分类。该数据集通过定制化的数据处理流程,包括语言识别、去重、内容过滤和 PII 匿名化,提升了多语言模型的性能和泛化能力。

521 5
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频

MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。

508 8
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 数据采集 人工智能
|

TeleAI 星辰语义大模型全尺寸开源,function call能力突出

星辰语义大模型TeleChat2是由中国电信人工智能研究院(TeleAI)研发训练的大语言模型。今年9月,TeleAI 正式发布并开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 TeleChat2-115B ,近日又进一步开源了 TeleChat2-3B、7B和35B,以适配不同场景的应用需求。

500 9
|
9月前
|
机器学习/深度学习 数据采集 人工智能
|

基于可图Kolors的皮影戏风格LoRA训练&创作

可图Kolors-LoRA风格故事挑战赛比赛过程心得分享

305 8
|
9月前
|
开发框架 自然语言处理 JavaScript
|

千问开源P-MMEval数据集,面向大模型的多语言平行评测集

近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。

732 8
|
9月前
|
缓存 人工智能 程序员
|

CodeFuse「编码挑战季」:冲刺最后1个月!MelGeek磁轴键盘、Beats耳机等你来拿~

从1024程序员节起至12月底,CodeFuse「编码挑战季」火热进行中!参与muAgent、MFTCoder、ModelCache、CodeFuse-IDE四个项目的编码挑战,不仅能够深化对CodeFuse项目及开源社区的理解,还能赢取定制周边及高端奖品,如MelGeekMADE68 PRO磁轴键盘、Beats Studio Pro无线蓝牙耳机等。活动期间,开发者可根据任务难度获取积分,兑换丰富奖品。立即加入,让我们一起探索技术的无限可能!

160 11
|
9月前
|
人工智能 自然语言处理 前端开发
|

Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务

Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。

423 9
来自: 计算机视觉  版块
|
9月前
|
人工智能 安全 PyTorch
|

SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch

SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。

323 10
来自: 科学计算  版块
|
9月前
|
人工智能 安全 测试技术
|

EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题

EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。

287 9
来自: 自然语言处理  版块
|
9月前
|
人工智能 自动驾驶 决策智能
|

DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识

DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集,包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础,并定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测能力。

206 6
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 搜索推荐
|

DeepSeek-V2.5-1210 在线开放使用!支持联网搜索,在各大领域的表现得到全面提升

DeepSeek-V2.5-1210 是 DeepSeek V2.5 系列的最终版微调模型,支持联网搜索功能,具备在数学、编程、写作和角色扮演等领域的能力提升。本文将详细介绍该模型的功能、技术原理及应用场景。

10219 19
来自: 自然语言处理  版块
|
9月前
|
编解码 人工智能 监控
|

VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能

VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具,能够修复视频缺失部分、去除模糊,并支持四倍超分辨率。该工具优化了处理效率,适合快速处理视频的应用场景。

2662 6
来自: 计算机视觉  版块
|
9月前
|
人工智能 搜索推荐 开发者
|

ClotheDreamer:上海大学联合腾讯等高校推出的3D服装生成技术

ClotheDreamer是由上海大学、上海交通大学、复旦大学和腾讯优图实验室联合推出的3D服装生成技术,能够根据文本描述生成高保真、可穿戴的3D服装资产,适用于虚拟试穿和物理精确动画。

196 6
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 物联网
|

AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营

12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。

412 4
|
9月前
|
机器学习/深度学习 自然语言处理 安全
|

Llama 3.3开源!70B媲美405B性能,支持128K上下文

近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。

1961 5
|
9月前
|

AI赋能大学计划,优秀作品展示

AI赋能大学计划,优秀作品展示

177 0
|
9月前
|

AI赋能大学计划,优秀作品展示

AI赋能大学计划,优秀作品展示

172 1
|
9月前
|

AI赋能大学计划,优秀作品展示

AI赋能大学计划,优秀作品展示

168 0
|
9月前
|
人工智能 文字识别 测试技术
|

Florence-VL:微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型,结合生成式视觉基础模型Florence-2和深度-广度融合技术,实现视觉与语言理解的深度融合,适用于多种下游任务。

268 29
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 UED
|

OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物

OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。

803 27
来自: 计算机视觉  版块
|
9月前
|
人工智能 编解码 虚拟化
|

See3D:智源研究院开源的无标注视频学习 3D 生成模型

See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。

277 13
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 Web App开发 人工智能
|

Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息

Amurex是一款开源的AI会议助手,提供实时建议、智能摘要、快速回顾关键信息等功能,帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。

410 18
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 测试技术
|

O1-CODER:北交大推出的O1代码版开源项目,专注于编码任务

O1-CODER是由北京交通大学研究团队推出的开源项目,专注于编码任务。该项目结合强化学习和蒙特卡洛树搜索技术,提升模型的System-2思维能力,旨在生成更高效、逻辑性更强的代码。

259 24
来自: 自然语言处理  版块
|
9月前
|
人工智能
|

GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架

GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作,解决了复杂场景生成问题,显著提高了视频生成的准确性和文本对齐度。

116 5
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 算法 计算机视觉
|

《深度学习案例实战》新书出版——基于阿里魔搭平台

《深度学习案例实战》是一本实用的指南,涵盖多个领域的深度学习应用案例。本书旨在通过具体的案例讲解,阐述典型深度学习算法在图像分类、声音识别、语义分割、目标检测等各个领域的广泛应用。本书所涵盖的典型案例包括太阳黑子分类、气象预测、食物声音分类、智能厨房、智能冰箱食材检测、集体照人脸识别、遛狗绳识别、智能售药机药品检测、道路裂纹检测、学生教室行为检测等。这些案例旨在通过实际问题的解决,使读者能够深入理解深度学习算法的应用和实践。 本书特别关注两个关键技术:低代码开发平台摩搭ModelScope和深度学习加速器OpenVINO。摩搭平台为读者提供了一个便捷的开发环境,借助其丰富的预训练模型库和开发平

338 2
|
9月前
|
消息中间件 存储 JSON
|

Net使用EasyNetQ简化与RabbitMQ的交互

EasyNetQ是专为.NET环境设计的RabbitMQ客户端API,简化了与RabbitMQ的交互过程。通过NuGet安装EasyNetQ,可轻松实现消息的发布与订阅,支持多种消息模式及高级特性。文中提供了详细的安装步骤、代码示例及基础知识介绍,帮助开发者快速上手。关注公众号“Net分享”获取更多技术文章。

258 1
|
9月前
|
黑灰产治理
|

为啥都不能很好的处理文本鉴黄

96 1
来自:自然语言处理 版块
|
9月前
|
机器学习/深度学习 人工智能 开发工具
|

Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言

Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。

1657 9
来自: 语音  版块
|
9月前
|
人工智能 编解码 机器人
|

NVILA:英伟达开源视觉语言大模型,高效处理高分辨率图像和长视频

NVILA是英伟达推出的视觉语言大模型,旨在高效处理高分辨率图像和长视频,同时保持高准确性。该模型通过“扩展-压缩”策略和多种优化技术,在多个领域如机器人导航和医疗成像中展现出广泛的应用潜力。

338 13
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口

智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。

2595 14
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 存储 数据采集
|

MEMO:通过音频和图像生成肖像说话视频,感知音频中的情感来细化面部表情

MEMO是一种音频驱动的生成肖像说话视频框架,由Skywork AI、南洋理工大学和新加坡国立大学联合推出。该框架通过记忆引导的时间模块和情感感知音频模块,确保生成的视频在身份一致性和表现力方面达到高水平。MEMO支持多种图像风格和音频类型的说话视频生成,并能处理多语言输入。

225 7
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能
|

SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能

SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。

178 10
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Llama 3.3:Meta AI 开源新的纯文本语言模型,专注于多语言对话优化

Meta AI推出的Llama 3.3是一款70B参数的纯文本语言模型,支持多语言对话,具备高效、低成本的特点,适用于多种应用场景,如聊天机器人、客户服务自动化、语言翻译等。

356 13
来自: 自然语言处理  版块
|
9月前
|
人工智能 搜索推荐 开发者
|

Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问

Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。

198 11
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

FullStack Bench:字节豆包联合M-A-P社区开源的全新代码评估基准

FullStack Bench是由字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准,专注于全栈编程和多语言编程能力评估。该基准覆盖超过11种真实编程场景,包含3374个问题,涉及16种编程语言,旨在更有效地衡量大模型在现实世界中的代码开发能力。

235 5
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 达摩院
|

ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。

1712 3
来自: 语音  版块
|
9月前
|
机器学习/深度学习 人工智能 Linux
|

Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言

Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。

863 3
来自: 语音  版块
|
9月前
|
存储 人工智能
|

Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。

239 7
来自: 多模态  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14270
内容
6
活动
3608
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互