|
7月前
|
并行计算 异构计算
|

llama factory微调报错CUDA未被检测!

779 0
|
7月前
|
安全 开发工具 数据库
|

免费源码资源源码站同城搭子系统源码多人语音聊天全套源码

对于免费源码资源,可访问GitHub、GitLab、SourceForge等开源平台,或通过开发者论坛、博客获取。同城搭子系统源码涉及社交、活动管理等功能,建议从开源社区搜索或购买商业源码。多人语音聊天源码较复杂,可在GitHub等平台搜索开源项目,或使用第三方SDK。务必注意版权、安全及技术支持。

245 1
|
7月前
|
算法 API 数据格式
|

PromptScope: 一个灵活高效的In-Context Training框架

PromptScope 是一个同时支持中英文的 In-Context Training 框架,专为大型语言模型(LLM)性能调优设计。

156 6
|
7月前
|
机器学习/深度学习 存储 文字识别
|

阿里国际Ovis2系列模型开源:多模态大语言模型的新突破

Ovis是阿里巴巴国际化团队提出的新型多模态大模型架构,通过巧妙地将视觉和文本嵌入进行结构化对齐,为解决模态间嵌入策略差异这一局限性提供了方案。

475 2
|
7月前
|
人工智能 JSON PyTorch
|

TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%

TPO(Test-Time Prompt Optimization)框架,通过奖励模型和迭代反馈优化大语言模型输出,无需训练即可显著提升性能,支持动态对齐人类偏好,降低优化成本。

481 8
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

BioMedGPT-R1:生物医药ChatGPT诞生!蒸馏DeepSeek R1突破人类专家水平,分子解析+靶点预测一键搞定

BioMedGPT-R1 是清华大学与水木分子联合开发的多模态生物医药大模型,支持跨模态问答、药物分子理解与靶点挖掘,性能显著提升。

374 5
来自: 自然语言处理  版块
|
7月前
|
人工智能 前端开发 API
|

MoneyPrinterTurbo:23.9K Star!这个AI把写文案+找素材+剪视频全包了,日更10条不是梦

MoneyPrinterTurbo 是一款功能强大的 AI 工具,支持通过主题或关键词自动生成视频文案、素材、字幕与背景音乐,并合成高清短视频,适合批量生成与多语言支持。

469 4
来自: 多模态  版块
|
7月前
|
机器学习/深度学习 人工智能 编解码
|

Evo 2:基因编程AI革命!!DNA版GPT-4问世:100万碱基全解析,自动设计基因编辑器

Evo 2 是一款由 Acr 研究所、英伟达和斯坦福大学联合开发的 DNA 语言模型,可处理长达百万碱基对的序列,支持基因组设计、变异预测及合成生物学研究。

504 5
来自: 科学计算  版块
|
7月前
|
数据采集 机器学习/深度学习 人工智能
|

Sitcom-Crafter:动画师失业警告!AI黑科技自动生成3D角色动作,剧情脚本秒变动画

Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统,通过多模块协同工作,支持人类行走、场景交互和多人交互,适用于动画、游戏及虚拟现实等领域。

336 4
来自: 计算机视觉  版块
|
7月前
|
人工智能 自然语言处理 API
|

ComfyUI-Copilot:阿里把AI助手塞进ComfyUI:一句话生成工作流,自动布线/调参/选模型,小白秒变大神!

ComfyUI-Copilot 是阿里推出的基于 ComfyUI 的 AI 智能助手,支持自然语言交互、智能节点推荐和自动工作流辅助,降低开发门槛并提升效率。

1914 6
来自: 自然语言处理  版块
|
7月前
|
人工智能 分布式计算 监控
|

AgentSociety:告别纸上谈兵!AI社会模拟器预判政策漏洞:输入新规秒看30年后社会形态

AgentSociety 是清华大学推出的基于大语言模型的社会模拟器,通过构建类人心智的智能体模拟复杂社会行为,适用于政策沙盒测试、危机预警等场景。

321 6
来自: 多模态  版块
|
7月前
|
人工智能 数据可视化 API
|

自动查文献+写代码+跑数据+出报告!港大开源 Auto Deep Research 搞定科研全流程

Auto-Deep-Research 是一款由香港大学开源的个人 AI 助理,基于模块化多 Agent 架构,专注于深度研究任务,兼容多种大语言模型,并提供一键启动和文件解析等强大功能。

536 4
来自: 自然语言处理  版块
|
7月前
|
人工智能 监控 自动驾驶
|

Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!

Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

214 3
来自: 计算机视觉  版块
|
7月前
|
算法框架/工具 PyTorch 开发工具
|

RetinaFace下载下来的模型验证失败

218 1
来自:计算机视觉 版块
|
7月前
|
数据采集 人工智能 监控
|

Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%

Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。

377 4
来自: 自然语言处理  版块
|
7月前
|
存储 人工智能 关系型数据库
|

HiveChat:告别模型选择困难!开源ChatGPT聚合神器上线:一键切换10+模型,权限管控全免费

HiveChat 是一款专为中小团队设计的开源 AI 聊天应用,支持多种主流 AI 模型,提供高效的团队沟通和智能辅助功能。

240 9
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
|

BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半

BioEmu 是微软推出的生成式深度学习系统,可在单个 GPU 上每小时生成数千种蛋白质结构样本,支持模拟动态变化、预测热力学性质,并显著降低计算成本。

356 2
来自: 科学计算  版块
|
7月前
|
人工智能 文字识别 安全
|

Stirling-PDF:51.4K Star!用Docker部署私有PDF工作站,支持50多种PDF操作,从此告别在线工具

Stirling-PDF 是一款基于 Docker 的本地化 PDF 编辑工具,支持 50 多种 PDF 操作,包括合并、拆分、转换、压缩等,同时提供多语言支持和企业级功能,满足个人和企业用户的多样化需求。

561 6
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 Linux
|

OSUM:告别ASR单一功能,西工大开源的语音大模型会「读心」!识别+情感分析+年龄预测等8大任务1个模型全搞定

OSUM 是西北工业大学开发的开源语音理解模型,支持语音识别、情感分析、说话者性别分类等多种任务,基于 ASR+X 训练策略,具有高效和泛化能力强的特点。

582 8
来自: 语音  版块
|
7月前
|
存储 人工智能 搜索推荐
|

HealthGPT:你的AI医疗助手上线了:支持X光到病理切片,诊断建议+报告生成全自动

HealthGPT 是浙江大学联合阿里巴巴等机构开发的先进医学视觉语言模型,具备医学图像分析、诊断辅助和个性化治疗方案建议等功能。

873 5
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 JavaScript
|

Aider:27.6K Star!这个终端AI编程神器能用语音改代码,自动生成Git记录并提交,接入DeepSeek斩获编程基准最高分

Aider 是一款基于命令行的开源 AI 编程助手,支持多种编程语言和主流 LLM,可自动完成代码修改、Git 提交及语音交互。

992 1
来自: 多模态  版块
|
7月前
|
机器学习/深度学习 人工智能 算法
|

ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究

ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台,支持强化学习、模仿学习和零样本模拟到现实转移,适用于运动操作研究和多场景应用。

643 3
来自: 多模态  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接

Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。

403 2
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 数据可视化
|

Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%

Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。

299 1
来自: 自然语言处理  版块
|
7月前
|
XML 机器学习/深度学习 人工智能
|

CLaMP 3:音乐搜索AI革命!多模态AI能听懂乐谱/MIDI/音频,用27国语言搜索全球音乐

CLaMP 3是由清华大学团队开发的多模态、多语言音乐信息检索框架,支持27种语言,能够进行跨模态音乐检索、零样本分类和音乐推荐等任务。

321 1
来自: 多模态  版块
|
7月前
|
机器学习/深度学习 人工智能 测试技术
|

MoBA:LLM长文本救星!月之暗面开源新一代注意力机制:处理1000万token能快16倍,已在Kimi上进行验证

MoBA 是一种新型注意力机制,通过块稀疏注意力和无参数门控机制,显著提升大型语言模型在长上下文任务中的效率。

384 3
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

DynamicCity:上海AI Lab开源4D场景神器助力自动驾驶场景!128帧动态LiDAR生成,1:1还原城市早晚高峰

DynamicCity 是上海 AI Lab 推出的 4D 动态场景生成框架,专注于生成具有语义信息的大规模动态 LiDAR 场景,适用于自动驾驶、机器人导航和交通流量分析等多种应用场景。

184 1
来自: 计算机视觉  版块
|
7月前
|
人工智能
|

SPO来袭:Prompt工程师90%不存在了?AI自动优化时代开启!

当你点进这个标题时内心是怎样复杂的心情,质疑,鄙夷,或者是惊讶?这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个

317 0
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
|

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

2025 年 2 月 18 号,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。

514 0
|
7月前
|
自然语言处理 开发者
|

GDC2025 | 探索最前沿的开源大模型技术与创新,2025全球开发者先锋大会,上海见!

2025全球开发者先锋大会将于2月21-23日在徐汇盛大召开!大会以“模塑全球 无限可能”为主题,定位“社区的社区”,旨在促进基模、垂模、语料、算力、基金、开发者、软件服务等产业生态深度对接。

310 0
|
7月前
|
数据采集 机器学习/深度学习 人工智能
|

SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

997 92
来自: 计算机视觉  版块
|
7月前
|
人工智能 自然语言处理 数据可视化
|

AutoAgents:比LangChain更激进的AI开发神器!自然语言生成AI智能体军团,1句话搞定复杂任务

AutoAgents 是基于大型语言模型的自动智能体生成框架,能够根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务。支持动态生成智能体、任务规划与执行、多智能体协作等功能。

1429 91
来自: 自然语言处理  版块
|
7月前
|
人工智能 Linux API
|

Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网

Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。

776 94
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 语音技术
|

Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演

Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。

972 91
来自: 语音  版块
|
7月前
|
机器学习/深度学习 人工智能 异构计算
|

SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控

SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。

614 23
来自: 计算机视觉  版块
|
7月前
|
人工智能 Python
|

Light-A-Video:好莱坞级打光自由!上海AI Lab开源视频打光AI,无需训练秒改画面氛围,3步让阴天变夕阳

Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法,支持高质量、时间一致的光照控制,零样本生成和前景背景分离处理。

221 9
来自: 计算机视觉  版块
|
7月前
|
编解码 API 开发工具
|

ModelScope魔搭25年2月版本发布月报

新春佳节的鞭炮声已经渐渐远去,在刚刚过去的一个月里,小鲸鱼给全球的开发者带来了一个不平凡的春节。DeepSeek-R1一系列开源模型的发布,给大家带来了惊喜和震动。所有人的热情,也给ModelScope社区带来了前所未见的巨大下载需求和流量,在这个月里,我们进行了数次紧急扩容和线上优化,尽量为大家提供更好的支持与服务。非常感谢大家的陪伴和理解,我们会持续进行平台优化和开源工具的建设,服务好整个开源社区。

263 9
|
7月前
|
人工智能
|

GDC2025 | DeepSeek - AI PC 本地部署本周六向你发起挑战!

本次活动以“OpenVINO™ 极客工坊 - 用AI PC点燃你的GenAI创意引擎!”为主题,特邀武卓博士与杨亦诚老师,为大家带来精彩的技术分享与动手实践。

177 7
|
7月前
|
机器学习/深度学习 人工智能 并行计算
|

Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟

Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。

1005 3
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 监控
|

X-R1:3090也能训7B模型!开源框架X-R1把训练成本打下来了:10美元训出企业级LLM

X-R1 是一个基于强化学习的低成本训练框架,能够加速大规模语言模型的后训练开发。仅需4块3090或4090 GPU,1小时内完成训练,成本低于10美元。

356 5
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 API
|

Cline:29.7K Star!一文详解VSCode最强开源AI编程搭子:一键生成代码+自动跑终端+操控浏览器...

Cline 是一款集成于 VSCode 的 AI 编程助手,支持多语言模型,实时检查语法错误,帮助开发者提高编程效率。通过智能化手段,Cline 可以生成代码、执行终端命令、调试 Web 应用,并扩展更多功能。

2387 73
来自: 自然语言处理  版块
|
7月前
|
人工智能 Serverless API
|

测评报告:零门槛、轻松部署您的专属 DeepSeek 模型

### 测评报告:零门槛、轻松部署您的专属 DeepSeek 模型 DeepSeek 是一款强大的推理模型,尤其擅长数学、代码和自然语言处理任务。由于算力限制,官方服务支持不稳定,阿里云提供了四种云上调用及部署方案,包括基于百炼调用API、PAI平台部署、函数计算部署和GPU云服务器部署。测评显示,PAI平台最具灵活性和易用性,但整体方案在文档指引、部署时间和成本方面仍有改进空间。建议优化文档和技术支持,提升用户体验。

398 3
|
7月前
|
人工智能 小程序 机器人
|

GDC2025 | DeepSeek-Qwen 模型蒸馏极限挑战赛,来了!(预赛报名)

欢迎您关注由魔搭社区 x SwanLab平台联合举办的 DeepSeek-Qwen 模型蒸馏极限挑战赛!本赛事将作为2025全球开发者先锋大会(GDC)的活动之一,欢迎具备大模型训练/微调实战经验的独立开发者前来挑战!详细报名规则见后文。

279 3
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

魔搭社区模型速递(1.19-2.15)

魔搭ModelScope本期社区进展:6205个模型,823个数据集,333个创新应用, 26篇内容。

443 2
|
7月前
|
机器学习/深度学习 决策智能 网络架构
|

C-3PO:多智能体强化学习赋能检索增强生成

检索增强生成(Retrieval-augmented generation,RAG)作为一种关键范式,它通过融入外部知识来提升大型语言模型(LLMs)的能力。RAG的有效性很大程度上取决于检索器和大语言模型之间的对齐程度以及各组件间的紧密交互和协作。

130 1
|
7月前
|
数据可视化 API 开发者
|

R1类模型推理能力评测手把手实战

随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。

589 2

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

2
今日
14270
内容
6
活动
3611
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互