|
8月前
|
物联网 异构计算 Python
|

麦橘超然上线魔搭社区,免费生图和训练,文末返图有奖

麦橘超然是麦橘制作的基于Flux.1的模型,可以生成高度摄影写实和富有光影感的图片,尤其擅长表现人物的脸部和肌肤细节。麦橘之前的作品麦橘写实是各大文生图开源站点最受欢迎的模型之一。

594 11
|
8月前
|
人工智能 运维 Prometheus
|

AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期

AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。

414 13
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 测试技术
|

PsycoLLM:开源的中文心理大模型,免费 AI 心理医生,支持心理健康评估与多轮对话

PsycoLLM 是合肥工业大学推出的中文心理大语言模型,基于高质量心理数据集训练,支持心理健康评估、多轮对话和情绪识别,为心理健康领域提供技术支持。

2552 51
来自: 自然语言处理  版块
|
8月前
|
人工智能 前端开发 API
|

Gemini Coder:基于 Google Gemini API 的开源 Web 应用生成工具,支持实时编辑和预览

Gemini Coder 是一款基于 Google Gemini API 的 AI 应用生成工具,支持通过文本描述快速生成代码,并提供实时代码编辑和预览功能,简化开发流程。

447 38
来自: 自然语言处理  版块
|
8月前
|
人工智能 搜索推荐 前端开发
|

MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索

MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索引擎,支持网页、学术论文、YouTube 视频等多种内容搜索,提供代码解释、天气预报等功能。

272 17
来自: 多模态  版块
|
8月前
|
人工智能 搜索推荐 定位技术
|

AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型

AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型,通过图像-文本对齐和地理匹配技术,实现街道级精度的定位,适用于城市管理、社交媒体、旅游导航等场景。

1123 30
来自: 计算机视觉  版块
|
8月前
|
人工智能
|

CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化

CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术,通过大规模数据集和孪生多模态扩散变换器,实现高质量图像生成与布局优化。

241 20
来自: 计算机视觉  版块
|
8月前
|
人工智能 自动驾驶 安全
|

Cosmos:英伟达生成式世界基础模型平台,加速自动驾驶与机器人开发

Cosmos 是英伟达推出的生成式世界基础模型平台,旨在加速物理人工智能系统的发展,特别是在自动驾驶和机器人领域。

742 15
来自: 多模态  版块
|
8月前
|
人工智能 知识图谱 Docker
|

KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答

KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。

2299 46
来自: 自然语言处理  版块
|
8月前
|
自然语言处理 前端开发 开发者
|

使用 modelscope-studio 构建你的 Gradio 应用

modelscope-studio是一个基于 Gradio 的三方组件库,它可以为开发者提供更定制化的界面搭建能力和更丰富的组件使用形式。

548 26
|
8月前
|
自然语言处理 人机交互 数据库
|

TransferTOD:利用LLM解决TOD系统在域外场景槽位难以泛化的问题

任务型对话系统旨在高效处理任务导向的对话,如何利用任务型对话系统准确、高效、合理地完成信息采集的工作一直是一项关键且具有挑战性的任务。

305 18
|
8月前
|
人工智能 安全 API
|

OpenHands:能自主检索外部知识的 AI 编程工具,自动执行命令、网页浏览和生成代码等操作

OpenHands 是一款基于 AI 的编程工具,支持多智能体协作,能够自动生成代码、执行命令、浏览网页等,显著提升开发效率。

716 26
来自: 自然语言处理  版块
|
8月前
|
人工智能 搜索推荐
|

PersonaMagic:人像与风格融合!快速生成个性化的头像

PersonaMagic 是一种创新的高保真人脸定制技术,通过阶段调节的文本条件策略和动态嵌入学习,能够根据单张图像生成个性化角色,广泛应用于娱乐、游戏、影视等领域。

197 25
来自: 计算机视觉  版块
|
8月前
|
人工智能 数据处理
|

LatentSync:根据音频生成高分辨率、动态逼真的唇形同步视频

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,能够生成高分辨率、动态逼真的唇同步视频,适用于影视、教育、广告等多个领域。

709 19
来自: 计算机视觉  版块
|
8月前
|
人工智能 物联网
|

如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台

如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台

186 10
|
8月前
|
并行计算
|

关于qwen2-vl微调最佳实践

272 2
来自:多模态 版块
|
8月前
|
自然语言处理 Swift 人工智能
|

llamaindex整合modelscope本地模型,启动报错

445 1
来自:自然语言处理 版块
|
8月前
|
机器学习/深度学习 人工智能 文字识别
|

魔搭社区每周速递(12.29-1.4)

魔搭ModelScope本期社区进展:828个模型,72个数据集,61个创新应用,9篇内容

245 10
|
8月前
|
数据采集 人工智能
|

LLM2LLM:LLM2LLM:用 LLM 来增强 LLM !通过教师模型合成数据,增强学生模型的训练数据集

LLM2LLM 是一种创新的迭代数据增强技术,通过教师模型生成合成数据,显著提升大语言模型在数据稀缺任务中的性能。

461 90
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 数据采集 人工智能
|

GeneralDyG:南洋理工推出通用动态图异常检测方法,支持社交网络、电商和网络安全

GeneralDyG 是南洋理工大学推出的通用动态图异常检测方法,通过时间 ego-graph 采样、图神经网络和时间感知 Transformer 模块,有效应对数据多样性、动态特征捕捉和计算成本高等挑战。

227 18
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 编解码
|

Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。

232 21
来自: 计算机视觉  版块
|
8月前
|
人工智能 自然语言处理 数据处理
|

FlexRAG:不再局限于文本的 RAG!中科院开源多模态 RAG 助手,支持多数据类型、上下文压缩和多种检索器类型

FlexRAG 是中科院推出的高性能多模态 RAG 框架,支持多数据类型、上下文压缩和多模态数据处理,显著提升生成模型的表现。

1001 17
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 算法
|

RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化

RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架,支持快速训练与推理,能够根据任务特定奖励函数生成高质量图像。

156 12
来自: 计算机视觉  版块
|
8月前
|
人工智能 物联网 Python
|

VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理

VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。

305 11
来自: 计算机视觉  版块
|
8月前
|
人工智能 开发框架 安全
|

Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库

Smolagents 是 Hugging Face 推出的轻量级开源库,旨在简化智能代理的构建过程,支持多种大语言模型集成和代码执行代理功能。

628 69
来自: 自然语言处理  版块
|
8月前
|
人工智能 自然语言处理 并行计算
|

VITRON:开源像素级视觉大模型,同时满足图像与视频理解、生成、分割和编辑等视觉任务

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型,支持图像与视频的理解、生成、分割和编辑,适用于多种视觉任务。

551 13
来自: 计算机视觉  版块
|
8月前
|
人工智能 搜索推荐 网络架构
|

TryOffAnyone:快速将模特服装图还原为平铺商品图,生成标准化的服装展示效果

TryOffAnyone 是一款基于 AI 技术的工具,能够将模特穿着服装的图像快速还原为平铺商品图,支持智能识别、自动优化等功能,适用于电商平台和虚拟试衣场景。

438 12
来自: 计算机视觉  版块
|
8月前
|
存储 机器学习/深度学习 人工智能
|

Memory Layers:如何在不增加算力成本的情况下扩大模型的参数容量?Meta 开源解决方法

Meta 开源的 Memory Layers 技术,通过键值查找机制扩展大模型参数,显著提升模型性能,尤其适用于事实性任务。

169 10
来自: 自然语言处理  版块
|
8月前
|
人工智能 搜索推荐
|

SoulChat2.0:低成本构建 AI 心理咨询师,华南理工开源心理咨询师数字孪生大语言模型

SoulChat2.0 是华南理工大学推出的心理咨询师数字孪生大语言模型,能够低成本、快速构建个性化咨询风格的心理健康大模型,辅助心理咨询师工作。

1243 9
来自: 自然语言处理  版块
|
8月前
|
人工智能 API 数据库
|

Cognita:小白也能搭建 RAG 系统,提供交互界面的开源模块化 RAG 框架,支持多种文档检索技术

Cognita 是一个面向生产环境的开源模块化 RAG 框架,支持本地部署、无代码 UI 和增量索引,帮助开发者轻松构建和扩展生产级应用。

450 11
来自: 自然语言处理  版块
|
8月前
|
数据采集 人工智能 搜索推荐
|

SocraticLM:通过 AI 提问引导学生主动思考,中科大与科大讯飞联合推出苏格拉底式教育大模型

SocraticLM 是由中科大和科大讯飞联合开发的苏格拉底式教学大模型,通过提问引导学生主动思考,提供个性化教学,显著提升教学效果。

414 9
来自: 自然语言处理  版块
|
8月前
|
人工智能 Python
|

ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成

ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。

571 8
来自: 自然语言处理  版块
|
8月前
|
程序员 API 开发者
|

实战阿里qwen2.5-coder 32B,如何配置Cline的Ollama API接口。

阿里Qwen2.5大模型开源免费,适合编程应用。在Ollama平台下载时,推荐选择带有“cline”字样的Qwen2.5-Coder版本,仅需额外下载适配文件,无需重复下载模型文件。Ollama环境永久免费,配置简单,效果出色,适合开发者使用。

5026 77
|
8月前
|
人工智能 JSON 自然语言处理
|

Jina Reader:一键将网页内容转为适合 LLM 处理的文本格式,自动抓取和清洗网页内容,支持多种输出格式

Jina Reader 是一款由 Jina AI 推出的开源工具,能够将网页内容快速转换为适合大型语言模型(LLMs)处理的纯文本格式,支持多种输出格式和动态内容处理。

1178 20
来自: 自然语言处理  版块
|
8月前
|
人工智能 运维 测试技术
|

SEMIKONG:专为半导体领域设计的大型语言模型,支持制造优化、辅助 IC 设计等半导体制造任务

SEMIKONG 是专为半导体行业定制的大型语言模型,能够优化制造过程、辅助 IC 设计,并整合专家知识,推动领域特定 AI 模型的研究与应用。

579 7
来自: 自然语言处理  版块
|
8月前
|
人工智能 API
|

MMedAgent:专为医疗领域设计的多模态 AI 智能体,支持医学影像处理、报告生成等多种医疗任务

MMedAgent 是专为医疗领域设计的多模态AI智能体,支持多种医疗任务,包括医学影像处理、报告生成等,性能优于现有开源方法。

477 19
来自: 多模态  版块
|
8月前
|
人工智能 JSON API
|

LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力

LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。

416 77
来自: 多模态  版块
|
8月前
|
人工智能 自然语言处理 开发工具
|

Languine:专为开发者设计的 AI 多语言翻译工具,快速生成100+种语言的准确翻译,简化应用程序的 i18n 国际化配置

Languine 是一款面向开发者的 AI 翻译工具,支持 100+ 种语言,自动化翻译流程,提升多语言应用开发效率。

304 15
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析

MarS 是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础模型 LMM,支持无风险环境下的交易策略测试、风险管理和市场分析。

280 8
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆

AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。

965 12
来自: 多模态  版块
|
8月前
|
人工智能 物联网
|

AI电影从这个LoRA开始:魔搭AIGC1月赛题公布&12月赛题获奖作品新鲜出炉

魔搭社区LoRA创意挑战赛月度赛第三期来啦! 1月赛题揭晓:电影风格模型训练大赛

184 15
|
8月前
|
编解码 自然语言处理 JavaScript
|

智谱发布GLM-OS概念及Agent产品,CogAgent-9B模型开源助力GUI交互场景

11月29日,智谱正式提出 GLM-OS 概念,并发布 AutoGLM 和 GLM-PC 两款 Agent 产品。近期GLM-PC 的基座模型—— CogAgent-9B 开源,供社区进一步开发。

439 8
|
8月前
|
数据处理 语音技术 项目管理
|

人人都是音乐家!中科大&科大讯飞重磅开源OpenMusic:音乐生成更高质量,更有乐感

提出了一种质量感知训练范式,使模型在训练过程中能够感知数据集的质量,从而在音乐性(美学角度)和音频质量方面实现卓越的音乐生成效果。

367 9
|
8月前
|
人工智能
|

TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索

TITAN 是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示,生成病理报告。

336 8
来自: 多模态  版块
|
8月前
|
人工智能 数据挖掘 API
|

R2R:开源的 RAG 集成系统,支持多模态处理、混合搜索、知识图谱构建等增强检索技术

R2R 是一款先进的 AI 检索增强生成平台,支持多模态内容处理、混合搜索和知识图谱构建,适用于复杂数据处理和分析的生产环境。

695 3
来自: 自然语言处理  版块
|
8月前
|
存储 人工智能 JSON
|

RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控

RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。

365 7
来自: 自然语言处理  版块
|
8月前
|
敏捷开发 人工智能 JavaScript
|

Figma-Low-Code:快速将Figma设计转换为Vue.js应用,支持低代码渲染、数据绑定

Figma-Low-Code 是一个开源项目,能够直接将 Figma 设计转换为 Vue.js 应用程序,减少设计师与开发者之间的交接时间,支持低代码渲染和数据绑定。

512 3
来自: 计算机视觉  版块
|
8月前
|
人工智能 测试技术 异构计算
|

TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换

TangoFlux 是由英伟达与新加坡科技设计大学联合开发的文本到音频生成模型,能够在3.7秒内生成30秒的高质量音频,支持文本到音频的直接转换和用户偏好优化。

223 6
来自: 语音  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14269
内容
6
活动
3609
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互