|
8月前
|
编解码 人工智能 测试技术
|

CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!

今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。

603 10
|
9月前
|
人工智能 架构师 决策智能
|

转发有奖 | agentUniverse联合浙大太乙开源平台,邀你瓜分3万奖金!

有奖开源共建活动火热进行中,期待各位开发者报名参加。转发有盲盒,提交有礼品,合并有奖金。

156 2
|
9月前
|
人工智能 JSON PyTorch
|

TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%

TPO(Test-Time Prompt Optimization)框架,通过奖励模型和迭代反馈优化大语言模型输出,无需训练即可显著提升性能,支持动态对齐人类偏好,降低优化成本。

539 8
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 编解码 自然语言处理
|

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

2025 年 2 月 18 号,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。

585 0
|
9月前
|
人工智能 PyTorch 算法框架/工具
|

Sonic:自动对齐音频与唇部动作,一键合成配音动画!腾讯与浙大联合推出音频驱动肖像动画生成框架

Sonic 是由腾讯和浙江大学联合开发的音频驱动肖像动画框架,支持逼真的唇部同步、丰富的表情和头部动作、长时间稳定生成,并提供用户可调节性。

577 23
来自: 计算机视觉  版块
|
9月前
|
机器学习/深度学习 物联网
|

可控文生图:EliGen控制实体的位置细节变化

为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。

209 11
|
9月前
|
Swift
|

DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践

Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。

818 19
|
9月前
|
人工智能 自然语言处理 API
|

OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告

OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。

515 18
来自: 自然语言处理  版块
|
10月前
|
人工智能 编解码
|

CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。

859 5
来自: 计算机视觉  版块
|
10月前
|
机器学习/深度学习 人工智能 并行计算
|

Titans:谷歌新型神经记忆架构,突破 Transformer 长序列处理的瓶颈

Titans 是谷歌推出的新型神经网络架构,通过神经长期记忆模块突破 Transformer 在处理长序列数据时的瓶颈,支持并行计算,显著提升训练效率。

297 5
来自: 自然语言处理  版块
|
10月前
|
人工智能 计算机视觉
|

MangaNinja:开源线稿着色工具,自动匹配图像风格,一键快速上色

MangaNinja 是一款基于参考图像的线稿着色工具,通过创新的补丁重排模块和点驱动控制方案,实现精准颜色匹配和复杂场景处理,适用于漫画、插画和数字艺术创作。

369 10
来自: 计算机视觉  版块
|
10月前
|
人工智能 达摩院 并行计算
|

VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力

VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。

522 17
来自: 计算机视觉  版块
|
10月前
|
人工智能 API 数据库
|

Cognita:小白也能搭建 RAG 系统,提供交互界面的开源模块化 RAG 框架,支持多种文档检索技术

Cognita 是一个面向生产环境的开源模块化 RAG 框架,支持本地部署、无代码 UI 和增量索引,帮助开发者轻松构建和扩展生产级应用。

504 11
来自: 自然语言处理  版块
|
10月前
|
编解码 自然语言处理 JavaScript
|

智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

11月29日,智谱正式提出 GLM-OS 概念,并发布 AutoGLM 和 GLM-PC 两款 Agent 产品。近期GLM-PC 的基座模型—— CogAgent-9B 开源,供社区进一步开发。

510 8
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库

PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。

637 7
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 API
|

Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题

Mathtutor on Groq 是一款基于 Groq 架构的 AI 数学辅导工具,支持语音输入数学问题,实时计算并渲染解题过程,适用于代数、微积分等领域的学习和教学辅助。

762 5
来自: 科学计算  版块
|
11月前
|
人工智能 智能硬件
|

SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。

289 0
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 存储 自然语言处理
|

RWKV-7:极先进的大模型架构,长文本能力极强

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

433 2
|
11月前
|
人工智能 自然语言处理 计算机视觉
|

StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像

StyleStudio 是一种文本驱动的风格迁移模型,能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术,解决了风格过拟合、控制限制和文本错位等问题,提升了风格迁移的质量和文本对齐的准确性。

416 8
来自: 计算机视觉  版块
|
11月前
|
人工智能 移动开发 前端开发
|

温暖接力:“追星星的AI”再出发,志愿者招募令!

孤独症儿童绘本创作工具二期迭代开发,缺人!

289 21
|
11月前
|
机器学习/深度学习 人工智能 编解码
|

MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器

MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。

657 18
来自: 多模态  版块
|
11月前
|
人工智能 数据可视化 JavaScript
|

NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台

NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。

421 14
来自: 多模态  版块
|
11月前
|
人工智能 安全 算法
|

CAMEL AI 上海黑客松重磅来袭!快来尝试搭建你的第一个多智能体系统吧!

掌握多智能体系统,🐫 CAMEL-AI Workshop & 黑客马拉松即将启航!

262 4
|
11月前
|

AI赋能大学计划,优秀作品展示

AI赋能大学计划,优秀作品展示

210 0
|
11月前
|
存储 人工智能
|

Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。

288 7
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

GPT学术优化:专为学术研究和写作设计的多功能开源项目

GPT学术优化是一个专为学术研究和写作设计的多功能开源项目,集成了论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和摘要生成等多项实用功能。本文将详细介绍GPT学术优化的主要功能、技术原理以及如何运行该项目的教程。

446 11
来自: 自然语言处理  版块
|
11月前
|
人工智能 PyTorch 算法框架/工具
|

StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。

314 7
来自: 计算机视觉  版块
|
12月前
|
机器学习/深度学习 人工智能 算法
|

Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架

Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。

273 6
来自: 自然语言处理  版块
|
1月前
|
存储 机器学习/深度学习 人工智能
|

46_LLM幻觉问题:来源与早期研究_深度解析

大型语言模型(LLM)在自然语言处理领域展现出了令人惊叹的能力,能够生成连贯的文本、回答复杂问题、进行创意写作,甚至在某些专业领域提供见解。然而,这些强大模型的一个根本性缺陷——幻觉问题,正成为限制其在关键应用中广泛部署的主要障碍。幻觉(Hallucination)指的是LLM生成的内容与事实不符、上下文矛盾、逻辑错误,或者完全虚构信息的现象。

199 0
|
2月前
|
调度 开发者 异构计算
|

冠军10万美金!AMD 2025 分布式推理算子优化挑战赛来了

冠军10万美金!AMD 2025 分布式推理算子优化挑战赛来了

265 13
|
2月前
|
人工智能 关系型数据库 数据库
|

公募REITs专属AI多智能体查询分析项目

公募REITs专属AI多智能体查询分析项目。本项目是基于 OpenAI Agent 框架的多智能体项目,提供二级市场数据查询分析、招募说明书内容检索、公告信息检索、政策检索等多板块查询服务。支持图标绘制、文件生成。

112 2
|
2月前
|
人工智能 开发者 异构计算
|

魔搭勋章权益全面升级,免费工位+魔搭周边+GPU时长…统统安排!

亲爱的搭搭搭塔子们~(不是)你听说了吗?现在魔搭社区要给每一位搭友发!福!利!

103 1
|
3月前
|
人工智能
|

万相妙思+创意视频大赛开赛啦!双重赛道,奖励叠加!10万奖金池 + 新模型内测资格!

万相妙思+创意视频大赛开赛啦!双重赛道,奖励叠加!10万奖金池 + 新模型内测资格!

169 0
|
4月前
|
人工智能 自然语言处理 安全
|

魔搭社区模型速递(7.12-7.19)

🙋魔搭ModelScope本期社区进展:3072个模型,193个数据集,121个创新应用:Qwen-TTS-Demo 📄 8 篇内容:

266 0
|
5月前
|
IDE 开发工具 Python
|

魔搭notebook在web IDE下,使用jupyter notebook,python扩展包无法更新升级

魔搭notebook在web IDE下,使用jupyter notebook,python扩展包无法更新升级,不升级无法使用,安装python扩展包的时候一直停留在installing

121 4
|
5月前
|
人工智能 安全 算法
|

十万奖金等你来战!第二届“隐语杯”数据挑战赛报名正式启动!

近日,国家数据局举办了2025“数据要素×”首场新闻发布会。

221 9
|
7月前
|
数据可视化 搜索推荐
|

Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手

Ollama Deep Researcher 是一款完全本地化的网络研究助手,可使用Ollama托管的任何 LLM 。输入一个主题,它将生成网络搜索查询,收集网络搜索结果(默认通过Tavily),总结网络搜索结果,反思总结以检查知识差距,生成新的搜索查询以解决差距,搜索并改进总结,循环次数由用户定义。它将为用户提供最终的 markdown 摘要,其中包含所有使用的来源。

261 2
|
7月前
|
人工智能 编解码 自然语言处理
|

DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频

DreamActor-M1是字节跳动研发的AI图像动画框架,通过混合引导机制实现高保真人物动画生成,支持多语言语音驱动和形状自适应功能。

658 40
来自: 计算机视觉  版块
|
7月前
|
编解码 测试技术 计算机视觉
|

如何通过对应用程序界面截图中的功能做图像识别对比缺陷

106 0
来自:计算机视觉 版块
|
8月前
|
机器学习/深度学习 人工智能
|

ObjectMover:港大联合Adobe打造图像编辑黑科技,移动物体光影自动匹配

香港大学与Adobe联合研发的ObjectMover模型,通过视频生成先验迁移技术,实现图像中物体的自然移动、删除和插入,自动保持光影一致性。

176 21
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 人工智能 机器人
|

上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

300 1
|
8月前
|
人工智能 安全 语音技术
|

驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!

3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。

302 1
|
8月前
|
机器学习/深度学习 人工智能 算法
|

MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技

MIDI-3D 是一种先进的 AI 3D 场景生成技术,能够将单张图像快速转化为高保真度的 360 度 3D 场景,具有强大的全局感知能力和细节表现力,适用于游戏开发、虚拟现实、室内设计等多个领域。

274 18
来自: 计算机视觉  版块
|
8月前
|
人工智能 算法 物联网
|

“同西游,见万相” 主题LoRA风格挑战赛来袭!万元奖金池+猫超卡+限定周边来赢!

在通义万相Wan2.1的文生视频模型的基础上训练LoRA模型,以《西游记》的经典人物或故事为背景,描绘一个创作者心中的西游场景。参赛者根据自己的创意自定义故事内容,选择用任意的视觉风格和叙事手法进行演绎,展现 AI 在风格迁移、内容创意和叙事变化上的可能性。

162 10
|
8月前
|
机器学习/深度学习 人工智能 自动驾驶
|

今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench

由Skolkovo科技学院等机构提出的这项研究,聚焦于人工智能文本检测(ATD)的可解释性提升。利用Sparse Autoencoders(SAE)从Gemma-2-2b模型中提取特征,该工作揭示了现代大语言模型(LLM)与人类文本的差异,尤其是在信息密集领域,展现了独特的写作风格,为ATD提供了新的见解和方法。

133 14
|
8月前
|
小程序 Java 关系型数据库
|

weixin025移动学习平台的设计与实现+ssm(文档+源码)_kaic

基于微信小程序的移动学习平台旨在解决传统APP占用过多手机存储空间的问题,提升用户体验。该平台使用微信开发者工具开发前端,SSM框架和Java语言开发后台,并采用MySQL数据库保存数据。系统支持管理员对教师、课程、学生信息进行管理,教师可查看及审核作业,管理课程资源;学生能提交作业、查看审核结果并收藏或评论课程资源。此平台使用户无需安装独立APP即可访问学习内容,极大提升了便捷性和管理效率。 关键词:基于微信小程序的移动学习平台;微信开发者工具;SSM框架

178 26
|
8月前
|
人工智能 编解码 数据建模
|

MIT颠覆传统!分形生成模型效率暴涨4000倍,高分辨率图像秒级生成

Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法,基于分形思想,通过递归调用模块构建自相似架构,显著提升计算效率,适用于高分辨率图像生成、医学图像模拟等领域。

273 0
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 异构计算
|

CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破

对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。

236 5
|
9月前
|
机器学习/深度学习 人工智能 PyTorch
|

DeepSeek开源周第四弹之一!DualPipe:训练V3/R1的双向流水线并行技术,计算与训练完全重叠,训练效率提升200%

DeepSeek 开源的 DualPipe 技术通过双向流水线并行设计,显著提升大规模深度学习模型的训练效率,优化计算与通信重叠,降低内存峰值需求,适用于推理加速、多模态数据处理等场景。

529 1
来自: 科学计算  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

VideoGrain:零样本多粒度视频编辑神器,用AI完成换装改场景,精准控制每一帧!

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,基于调节时空交叉注意力和自注意力机制,实现类别级、实例级和部件级的精细视频修改,保持时间一致性,显著优于现有方法。

259 0
来自: 计算机视觉  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14407
内容
6
活动
3698
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互