|
10月前
|
人工智能 自然语言处理 数据处理
|

FlexRAG:不再局限于文本的 RAG!中科院开源多模态 RAG 助手,支持多数据类型、上下文压缩和多种检索器类型

FlexRAG 是中科院推出的高性能多模态 RAG 框架,支持多数据类型、上下文压缩和多模态数据处理,显著提升生成模型的表现。

1084 17
来自: 多模态  版块
|
10月前
|
人工智能 API 数据库
|

Cognita:小白也能搭建 RAG 系统,提供交互界面的开源模块化 RAG 框架,支持多种文档检索技术

Cognita 是一个面向生产环境的开源模块化 RAG 框架,支持本地部署、无代码 UI 和增量索引,帮助开发者轻松构建和扩展生产级应用。

506 11
来自: 自然语言处理  版块
|
10月前
|
人工智能 编解码 自然语言处理
|

AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互

AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。

384 8
来自: 多模态  版块
|
10月前
|
人工智能 自然语言处理 测试技术
|

AutoRAG:自动优化 RAG 管道工具,自动评估各种 RAG 模块组合,快速找到最优的 RAG 管道

AutoRAG 是一款自动优化 RAG(Retrieval-Augmented Generation)管道的工具,帮助用户找到最适合其数据和应用场景的最佳 RAG 管道。

485 12
来自: 自然语言处理  版块
|
11月前
|
人工智能 智能硬件
|

SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力

SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。

291 0
来自: 自然语言处理  版块
|
11月前
|
人工智能 vr&ar
|

TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式

TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型,能够根据文本或图像提示生成多样化的 3D 资产,支持多种输出格式和灵活编辑。

683 3
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 智能设计
|

VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性

VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。

501 4
来自: 计算机视觉  版块
|
11月前
|
存储 人工智能 开发者
|

GitHub 推出免费版 GitHub Copilot:提供每月2,000次代码补全和50条聊天消息,支持多种主流大模型

GitHub 推出了 GitHub Copilot Free,提供每月 2,000 代码补全和 50 聊天消息,支持多种模型和功能,助力 1.5 亿开发者。

628 5
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型

谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。

1013 20
来自: 多模态  版块
|
11月前
|
人工智能 算法 搜索推荐
|

2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠

2024年11月30日,由开放源子开源基金会主办,魔搭社区、英特尔与阿里云共同承办的“AI+硬件创新大赛”总决赛在杭州圆满落幕。

306 6
|
11月前
|
人工智能
|

AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。

1488 31
来自: 计算机视觉  版块
|
12月前
|
机器学习/深度学习 人工智能 算法
|

从 OpenAI-o1 看大模型的复杂推理能力

深入解析OpenAI o1模型的复杂推理技术与发展历程

529 1
|
12月前
|
人工智能 自然语言处理 网络性能优化
|

Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务

Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。

306 2
来自: 多模态  版块
|
12月前
|
存储 人工智能 自然语言处理
|

OpenScholar:华盛顿大学联合艾伦研究所开源的学术搜索工具

OpenScholar是由华盛顿大学和艾伦AI研究所联合开发的开源学术搜索工具,旨在通过检索和综合科学文献中的相关论文来回答用户问题。该工具利用大规模科学论文数据库、定制的检索器和重排器,以及一个优化的8B参数语言模型,生成基于实际文献的准确回答。OpenScholar在提供事实性回答和准确引用方面超越了现有的专有和开源模型,所有相关代码和数据均已开源,支持并加速科学研究。

392 1
来自: 自然语言处理  版块
|
1月前
|
机器学习/深度学习 监控 安全
|

102_灾难性遗忘:微调过程中的稳定性挑战

在大型语言模型(LLM)的微调过程中,我们常常面临一个关键挑战:当模型学习新领域或任务的知识时,它往往会忘记之前已经掌握的信息和能力。这种现象被称为"灾难性遗忘"(Catastrophic Forgetting),是神经网络学习中的经典问题,在LLM微调场景中尤为突出。

130 1
|
2月前
|
异构计算
|

资源部署与调用相关技术咨询

292 0
已解决
|
2月前
|
人工智能 关系型数据库 数据库
|

公募REITs专属AI多智能体查询分析项目

公募REITs专属AI多智能体查询分析项目。本项目是基于 OpenAI Agent 框架的多智能体项目,提供二级市场数据查询分析、招募说明书内容检索、公告信息检索、政策检索等多板块查询服务。支持图标绘制、文件生成。

114 2
|
2月前
|
缓存 人工智能 测试技术
|

腾讯混元 3D 世界模型家族又添新成员Voyager:支持超长距离漫游

9 月 2 日,腾讯混元宣布,其3D世界模型系列最新成员——HunyuanWorld-Voyager(简称混元Voyager)发布并开源,这将推动AI在空间智能领域的应用扩展,为虚拟现实、物理仿真、游戏开发等领域提供高保真3D场景漫游能力,加速行业应用落地。

152 0
|
3月前
|
人工智能
|

万相妙思+创意视频大赛开赛啦!双重赛道,奖励叠加!10万奖金池 + 新模型内测资格!

万相妙思+创意视频大赛开赛啦!双重赛道,奖励叠加!10万奖金池 + 新模型内测资格!

171 0
|
5月前
|
数据可视化 JavaScript API
|

简易Modelscope生图API可视化工具

魔搭社区大模型生图API可视化UI

100 0
|
6月前
|
传感器 人工智能 算法
|

聚焦“以技术集成支撑单亩价值创造”与“增加值分配机制区块链存证确权”两大核心本质

“振兴链-技术集成科技小院”以技术集成与区块链为核心,推动农业现代化。通过多维度技术整合(如精准农业、物联网等),突破资源约束,最大化单亩产值;同时利用区块链确权存证,建立透明分配机制,解决传统农业中收益不均问题。技术赋能生产,制度重塑分配,实现效率与公平的平衡,助力乡村振兴与产业升级。典型场景显示,该模式可显著提升单亩价值并确保增值公平分配。

191 10
|
7月前
|
人工智能
|

Open AI Model

Open AI Model is an open model for defining AI. Focused on AI rather than application, Open AI Model [OAM] brings simplest but most powerful design for modeling AI.

333 140
|
7月前
|
数据可视化 搜索推荐
|

Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手

Ollama Deep Researcher 是一款完全本地化的网络研究助手,可使用Ollama托管的任何 LLM 。输入一个主题,它将生成网络搜索查询,收集网络搜索结果(默认通过Tavily),总结网络搜索结果,反思总结以检查知识差距,生成新的搜索查询以解决差距,搜索并改进总结,循环次数由用户定义。它将为用户提供最终的 markdown 摘要,其中包含所有使用的来源。

263 2
|
7月前
|
机器学习/深度学习 人工智能 物联网
|

开源8B参数全能扩散模型Flex.2-preview:把线稿变商稿,还能边画边改!

Flex.2-preview是Ostris开源的80亿参数文本到图像扩散模型,支持512token长文本输入和多类型控制引导,内置修复功能并兼容主流AI绘画工具链。

338 3
来自: 多模态  版块
|
7月前
|
人工智能 JSON 定位技术
|

地图类MCP 从0-1构建行程规划Agent 之 DeepNLP MCP应用市场

本文重点介绍借助DeepNLP的MCP应用市场中 MCP Server的JSON文件配置,在 Cursor客户端 从0-1构建一个行程规划AI AGENT,为行程规划类的AI AGENT。五一假期期间帮助用户把自己电脑变成一个超级AI AGENT智能体。目前主要使用了Google Map/Baidu Map和高德AMAP的MCP,实现如北京到上海的三天火车旅行规划。内容涵盖基础设置准备、Agent Mode测试及不同地图服务的横向对比与具体配置方法(如NPX、Docker、Python等)。

240 10
|
7月前
|
机器学习/深度学习 人工智能 IDE
|

14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型

DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型,通过强化学习微调在LiveCodeBench达到60.6%准确率,开源训练数据与系统优化方案。

355 3
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能
|

OmniCam:浙大联合上海交大推出多模态视频生成框架,虚拟导演打造百万级影视运镜

OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架,通过LLM与视频扩散模型结合实现高质量视频生成,支持文本、轨迹和图像等多种输入模态。

163 1
来自: 多模态  版块
|
7月前
|
人工智能 测试技术 API
|

PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力

PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。

434 30
来自: 自然语言处理  版块
|
7月前
|
人工智能 测试技术 定位技术
|

WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽

WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试,通过基于相机轨迹的布局规范和3000个多样化样本,全面评测生成内容的可控性、质量与动态性。

416 46
来自: 计算机视觉  版块
|
7月前
|
传感器 人工智能 机器人
|

杭州六小龙最新开源「空间理解模型」,保姆级教程来了!

前几天,“杭州六小龙”之一「群核科技」在GTC 2025大会开源了空间理解模型:SpatialLM。

266 3
|
7月前
|
机器学习/深度学习 自然语言处理 人机交互
|

重磅发布|支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦!

在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。

456 0
|
7月前
|
人工智能 API 计算机视觉
|

AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果

AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。

507 18
来自: 计算机视觉  版块
|
8月前
|
人工智能 编解码 测试技术
|

TripoSG:3D生成新纪元!修正流模型秒出高保真网格,碾压传统建模

TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术,能够从单张图像生成细节丰富的 3D 网格模型,在工业设计、游戏开发等领域具有广泛应用前景。

312 15
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 人工智能 机器人
|

上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

302 1
|
8月前
|
存储 人工智能 自然语言处理
|

YT Navigator:AI秒搜YouTube!自然语言直达视频关键帧

YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具,通过自然语言查询快速定位视频中的关键信息,支持与视频内容对话,适用于研究人员、学生和内容创作者。

439 0
来自: 自然语言处理  版块
|
8月前
|
存储 文件存储 Windows
|

小白尖叫!DeepSeek安装竟偷占C盘?这样做路径配置 直接根治存储焦虑

惊! 完蛋了! DeepSeek占满了我的C盘~~~~ DeepSeek让我C盘爆炸~~~再见了,DeepSeek

437 3
|
8月前
|
机器学习/深度学习 人工智能 安全
|

论文推荐:CoSTAast、Transformers without Normalization

由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。

158 0
|
8月前
|
人工智能 并行计算 异构计算
|

MT-TransformerEngine:国产训练核弹!FP8+算子融合黑科技,Transformer训练速度飙升300%

MT-TransformerEngine 是摩尔线程开源的高效训练与推理优化框架,专为 Transformer 模型设计,通过算子融合、并行加速等技术显著提升训练效率,支持 FP8 混合精度训练,适用于 BERT、GPT 等大型模型。

379 10
来自: 科学计算  版块
|
8月前
|
机器学习/深度学习 人工智能 并行计算
|

NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!

NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。

747 15
来自: 多模态  版块
|
8月前
|
人工智能 编解码 数据建模
|

MIT颠覆传统!分形生成模型效率暴涨4000倍,高分辨率图像秒级生成

Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法,基于分形思想,通过递归调用模块构建自相似架构,显著提升计算效率,适用于高分辨率图像生成、医学图像模拟等领域。

275 0
来自: 计算机视觉  版块
|
10月前
|
机器学习/深度学习 人工智能 运维
|

CodeFuse团队2024年10篇论文总结

CodeFuse 是蚂蚁集团开发的多语言代码大型语言模型(LLM),基于海量高质量代码数据和多任务微调技术,已在内部研发人员的编码、测试、运维等场景中广泛应用。2024年,CodeFuse 在国际顶会如ICSE、ICDE、KDD等发表多篇论文,涵盖CodeLLM、机器学习、AI等领域,并开源多个自研大模型,总下载量近200万。项目持续迭代,欢迎贡献和建议。

390 11
|
10月前
|
存储 人工智能 自然语言处理
|

OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程

OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。

547 12
来自: 自然语言处理  版块
|
10月前
|
人工智能 达摩院 并行计算
|

VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力

VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。

523 17
来自: 计算机视觉  版块
|
10月前
|
机器学习/深度学习 人工智能 云计算
|

与阿里合作项目荣获2024年度教育部产学合作协同育人项目优秀案例

该项目强调利用阿里云计算有限公司的低代码开发平台和算力资源,开发创新性的教学案例,以支持机器学习和深度学习等前沿技术课程的教学和实验。项目部分成果纳入了即将出版的《深度学习实战案例》教材中,该教材由人民邮电出版社出版。

514 10
|
10月前
|
编解码 自然语言处理 JavaScript
|

智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

11月29日,智谱正式提出 GLM-OS 概念,并发布 AutoGLM 和 GLM-PC 两款 Agent 产品。近期GLM-PC 的基座模型—— CogAgent-9B 开源,供社区进一步开发。

511 8
|
10月前
|
人工智能 UED
|

VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节

VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。

200 8
来自: 计算机视觉  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

1
今日
14407
内容
6
活动
3698
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互