|
11月前
|
存储 人工智能 开发者
|

GitHub 推出免费版 GitHub Copilot:提供每月2,000次代码补全和50条聊天消息,支持多种主流大模型

GitHub 推出了 GitHub Copilot Free,提供每月 2,000 代码补全和 50 聊天消息,支持多种模型和功能,助力 1.5 亿开发者。

629 5
来自: 自然语言处理  版块
|
11月前
|
人工智能 安全 算法
|

CAMEL AI 上海黑客松重磅来袭!快来尝试搭建你的第一个多智能体系统吧!

掌握多智能体系统,🐫 CAMEL-AI Workshop & 黑客马拉松即将启航!

265 4
|
11月前
|
人工智能 PyTorch 算法框架/工具
|

StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。

317 7
来自: 计算机视觉  版块
|
11月前
|
人工智能
|

AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。

1489 31
来自: 计算机视觉  版块
|
12月前
|
人工智能 自然语言处理 网络性能优化
|

Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务

Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。

307 2
来自: 多模态  版块
|
3月前
|
SQL 人工智能 自然语言处理
|

魔搭社区模型速递(8.2-8.8)

🙋魔搭ModelScope本期社区进展:📟2268个模型📁165个数据集;🎨78个创新应用📄 13篇内容

255 0
|
4月前
|
人工智能 JSON 小程序
|

【AI编程】AI+高德MCP不到10分钟搞定上海三日游

本文介绍了小白如何通过AI编程工具(如Trae)快速开发应用并实现技术变现。内容涵盖AI编程用途、工具准备、高德地图开发者权限获取、AI工具配置及实战生成旅游攻略与打印页面,帮助零基础用户轻松入门AI编程。

202 0
|
6月前
|
物联网
|

“一丹一世界”三等奖 | 木刻时光·细密风 经验分享

“一丹一世界”三等奖 | 木刻时光·细密风 经验分享

126 7
|
6月前
|
传感器 人工智能 算法
|

聚焦“以技术集成支撑单亩价值创造”与“增加值分配机制区块链存证确权”两大核心本质

“振兴链-技术集成科技小院”以技术集成与区块链为核心,推动农业现代化。通过多维度技术整合(如精准农业、物联网等),突破资源约束,最大化单亩产值;同时利用区块链确权存证,建立透明分配机制,解决传统农业中收益不均问题。技术赋能生产,制度重塑分配,实现效率与公平的平衡,助力乡村振兴与产业升级。典型场景显示,该模式可显著提升单亩价值并确保增值公平分配。

192 10
|
7月前
|
机器学习/深度学习 人工智能 物联网
|

开源8B参数全能扩散模型Flex.2-preview:把线稿变商稿,还能边画边改!

Flex.2-preview是Ostris开源的80亿参数文本到图像扩散模型,支持512token长文本输入和多类型控制引导,内置修复功能并兼容主流AI绘画工具链。

339 3
来自: 多模态  版块
|
7月前
|
机器学习/深度学习 人工智能 IDE
|

14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型

DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型,通过强化学习微调在LiveCodeBench达到60.6%准确率,开源训练数据与系统优化方案。

356 3
来自: 自然语言处理  版块
|
7月前
|
人工智能 语音技术
|

ACTalker:港科大联合腾讯清华推出,多模态驱动的说话人视频生成神器

ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架,采用并行Mamba结构和多信号控制技术,能生成高度逼真的说话人头部视频。

273 0
来自: 计算机视觉  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技

MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。

346 12
来自: 计算机视觉  版块
|
7月前
|
人工智能 测试技术 API
|

PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力

PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。

435 30
来自: 自然语言处理  版块
|
7月前
|
人工智能 测试技术 定位技术
|

WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽

WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试,通过基于相机轨迹的布局规范和3000个多样化样本,全面评测生成内容的可控性、质量与动态性。

417 46
来自: 计算机视觉  版块
|
7月前
|
传感器 人工智能 机器人
|

杭州六小龙最新开源「空间理解模型」,保姆级教程来了!

前几天,“杭州六小龙”之一「群核科技」在GTC 2025大会开源了空间理解模型:SpatialLM。

267 3
|
7月前
|
人工智能 API 计算机视觉
|

AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果

AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。

508 18
来自: 计算机视觉  版块
|
8月前
|
人工智能 编解码 测试技术
|

TripoSG:3D生成新纪元!修正流模型秒出高保真网格,碾压传统建模

TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术,能够从单张图像生成细节丰富的 3D 网格模型,在工业设计、游戏开发等领域具有广泛应用前景。

313 15
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定

Reve Image 是 Reve 推出的全新 AI 图像生成模型,专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。

473 29
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 人工智能 Rust
|

MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭

MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。

362 28
来自: 语音  版块
|
8月前
|
机器学习/深度学习 人工智能 机器人
|

上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

303 1
|
8月前
|
存储 人工智能 自然语言处理
|

YT Navigator:AI秒搜YouTube!自然语言直达视频关键帧

YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具,通过自然语言查询快速定位视频中的关键信息,支持与视频内容对话,适用于研究人员、学生和内容创作者。

440 0
来自: 自然语言处理  版块
|
8月前
|
人工智能 并行计算 异构计算
|

MT-TransformerEngine:国产训练核弹!FP8+算子融合黑科技,Transformer训练速度飙升300%

MT-TransformerEngine 是摩尔线程开源的高效训练与推理优化框架,专为 Transformer 模型设计,通过算子融合、并行加速等技术显著提升训练效率,支持 FP8 混合精度训练,适用于 BERT、GPT 等大型模型。

380 10
来自: 科学计算  版块
|
8月前
|
机器学习/深度学习 数据格式
|

R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见

随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。

446 12
|
8月前
|
人工智能 物联网
|

VideoPainter:开源视频修复神器!双分支架构一键修复,对象身份永久在线

VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架,基于双分支架构和预训练扩散模型,支持任意长度视频的修复与编辑,具备背景保留、前景生成、文本指导编辑等功能,为视频处理领域带来新的突破。

348 12
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 人工智能 并行计算
|

NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!

NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。

748 15
来自: 多模态  版块
|
8月前
|
人工智能 编解码 数据建模
|

MIT颠覆传统!分形生成模型效率暴涨4000倍,高分辨率图像秒级生成

Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法,基于分形思想,通过递归调用模块构建自相似架构,显著提升计算效率,适用于高分辨率图像生成、医学图像模拟等领域。

276 0
来自: 计算机视觉  版块
|
8月前
|
存储 人工智能 搜索推荐
|

Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告

Shandu 是一款开源的 AI 研究自动化工具,结合 LangChain 和 LangGraph 技术,能够自动化地进行多层次信息挖掘和分析,生成结构化的研究报告,适用于学术研究、市场分析和技术探索等多种场景。

644 8
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 数据可视化
|

无需微调!扩散模型新突破:Attentive Eraser高效稳定移除目标物体

最近,扩散模型在生成模型领域异军突起,凭借其独特的生成机制在图像生成方面大放异彩,尤其在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成任务中表现优异,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,可能会留下残影或伪影,难以实现与背景的自然融合。

225 9
|
9月前
|
机器学习/深度学习 人工智能 PyTorch
|

DeepSeek开源周第四弹之一!DualPipe:训练V3/R1的双向流水线并行技术,计算与训练完全重叠,训练效率提升200%

DeepSeek 开源的 DualPipe 技术通过双向流水线并行设计,显著提升大规模深度学习模型的训练效率,优化计算与通信重叠,降低内存峰值需求,适用于推理加速、多模态数据处理等场景。

532 1
来自: 科学计算  版块
|
9月前
|
人工智能 数据可视化 UED
|

DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成

DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

346 10
来自: 计算机视觉  版块
|
10月前
|
存储 人工智能 自然语言处理
|

OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程

OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。

548 12
来自: 自然语言处理  版块
|
10月前
|
数据采集 人工智能
|

LLM2LLM:LLM2LLM:用 LLM 来增强 LLM !通过教师模型合成数据,增强学生模型的训练数据集

LLM2LLM 是一种创新的迭代数据增强技术,通过教师模型生成合成数据,显著提升大语言模型在数据稀缺任务中的性能。

513 90
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 数据处理
|

FlexRAG:不再局限于文本的 RAG!中科院开源多模态 RAG 助手,支持多数据类型、上下文压缩和多种检索器类型

FlexRAG 是中科院推出的高性能多模态 RAG 框架,支持多数据类型、上下文压缩和多模态数据处理,显著提升生成模型的表现。

1084 17
来自: 多模态  版块
|
10月前
|
人工智能 API 数据库
|

Cognita:小白也能搭建 RAG 系统,提供交互界面的开源模块化 RAG 框架,支持多种文档检索技术

Cognita 是一个面向生产环境的开源模块化 RAG 框架,支持本地部署、无代码 UI 和增量索引,帮助开发者轻松构建和扩展生产级应用。

506 11
来自: 自然语言处理  版块
|
11月前
|
人工智能 vr&ar
|

TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式

TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型,能够根据文本或图像提示生成多样化的 3D 资产,支持多种输出格式和灵活编辑。

683 3
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。

1013 20
来自: 多模态  版块
|
11月前
|
人工智能 算法 搜索推荐
|

2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠

2024年11月30日,由开放源子开源基金会主办,魔搭社区、英特尔与阿里云共同承办的“AI+硬件创新大赛”总决赛在杭州圆满落幕。

306 6
|
11月前
|
机器学习/深度学习 存储 人工智能
|

EfficientTAM:Meta AI推出的视频对象分割和跟踪模型

EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。

319 9
来自: 计算机视觉  版块
|
12月前
|
机器学习/深度学习 人工智能 算法
|

Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架

Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。

275 6
来自: 自然语言处理  版块
|
12月前
|
机器学习/深度学习 人工智能 算法
|

从 OpenAI-o1 看大模型的复杂推理能力

深入解析OpenAI o1模型的复杂推理技术与发展历程

529 1
|
12月前
|
人工智能 编解码 测试技术
|

HART:麻省理工学院推出的自回归视觉生成模型

HART(Hybrid Autoregressive Transformer)是麻省理工学院推出的自回归视觉生成模型,能够直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。HART基于混合Tokenizer技术,显著提升了图像生成质量和计算效率,适用于数字艺术创作、游戏开发、电影和视频制作等多个领域。

291 1
来自: 计算机视觉  版块
|
12月前
|
存储 人工智能 自然语言处理
|

OpenScholar:华盛顿大学联合艾伦研究所开源的学术搜索工具

OpenScholar是由华盛顿大学和艾伦AI研究所联合开发的开源学术搜索工具,旨在通过检索和综合科学文献中的相关论文来回答用户问题。该工具利用大规模科学论文数据库、定制的检索器和重排器,以及一个优化的8B参数语言模型,生成基于实际文献的准确回答。OpenScholar在提供事实性回答和准确引用方面超越了现有的专有和开源模型,所有相关代码和数据均已开源,支持并加速科学研究。

392 1
来自: 自然语言处理  版块
|
12月前
|
人工智能 自然语言处理 物联网
|

魔搭社区每周速递(11.17-11.23)

魔搭ModelScope本期社区进展:923个模型,85个数据集,35个创新应用,7 篇内容

248 3
|
1月前
|
机器学习/深度学习 监控 安全
|

102_灾难性遗忘:微调过程中的稳定性挑战

在大型语言模型(LLM)的微调过程中,我们常常面临一个关键挑战:当模型学习新领域或任务的知识时,它往往会忘记之前已经掌握的信息和能力。这种现象被称为"灾难性遗忘"(Catastrophic Forgetting),是神经网络学习中的经典问题,在LLM微调场景中尤为突出。

130 1
|
2月前
|
机器学习/深度学习 缓存 测试技术
|

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

106 0
|
2月前
|
异构计算
|

资源部署与调用相关技术咨询

292 0
已解决
|
2月前
|
人工智能 关系型数据库 数据库
|

公募REITs专属AI多智能体查询分析项目

公募REITs专属AI多智能体查询分析项目。本项目是基于 OpenAI Agent 框架的多智能体项目,提供二级市场数据查询分析、招募说明书内容检索、公告信息检索、政策检索等多板块查询服务。支持图标绘制、文件生成。

114 2

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14408
内容
6
活动
3700
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互