|
4月前
|
自然语言处理 监控 安全
|

阿里云发布可观测MCP!支持自然语言查询和分析多模态日志

阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询

470 0
|
6月前
|
机器学习/深度学习 人工智能 监控
|

阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%

R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务,结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。

800 10
来自: 多模态  版块
|
6月前
|
人工智能 自然语言处理 开发者
|

魔搭社区模型速递(2.16-3.1)

🙋魔搭ModelScope本期社区进展:📟2621个模型,Ovis2系列模型等,📁276个数据集,🎨203个创新应用,📄 12篇技术内容

379 2
|
7月前
|
人工智能 前端开发 API
|

MoneyPrinterTurbo:23.9K Star!这个AI把写文案+找素材+剪视频全包了,日更10条不是梦

MoneyPrinterTurbo 是一款功能强大的 AI 工具,支持通过主题或关键词自动生成视频文案、素材、字幕与背景音乐,并合成高清短视频,适合批量生成与多语言支持。

438 4
来自: 多模态  版块
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
|

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源

2025 年 2 月 18 号,阶跃星辰宣布开源了两款 Step 系列多模态模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。

486 0
|
7月前
|
人工智能 Rust 安全
|

DeepClaude:结合 DeepSeek R1 和 Claude AI 各自优势开发的 AI 应用平台,支持 API 调用和零延迟的即时响应

DeepClaude 是一个开源的 AI 应用开发平台,结合了 DeepSeek R1 和 Claude 模型的优势,提供即时响应、端到端加密和高度可配置的功能。

582 4
来自: 自然语言处理  版块
|
7月前
|
存储 人工智能 JSON
|

Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3

Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。

1598 16
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 算法
|

基于强化学习的专家优化系统

基于强化学习的专家优化系统

522 24
|
8月前
|
测试技术
|

通义千问团队开源全新的过程奖励模型PRM!

近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。

653 14
|
9月前
|
编解码 人工智能 自然语言处理
|

Ruyi:图森未来推出的图生视频大模型,支持多分辨率、多时长视频生成,具备运动幅度和镜头控制等功能

Ruyi是图森未来推出的图生视频大模型,专为消费级显卡设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,能够降低动漫和游戏内容的开发周期和成本,是ACG爱好者和创作者的理想工具。

506 33
来自: 计算机视觉  版块
|
9月前
|
数据采集 人工智能 编解码
|

书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型

书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。

612 7
来自: 多模态  版块
|
9月前
|
人工智能 物联网 PyTorch
|

ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本

ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。

621 5
来自: 语音  版块
|
11月前
|
人工智能 运维 自然语言处理
|

对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来

当整个行业的智慧都集中在一件事情上时,比起闭门造车,开源一定能带来更好的技术迭代和发展。CodeFuse 「编码挑战季」活动火热进行中,诚邀广大开发者们参与编码挑战

418 3
|
18天前
|
人工智能
|

【千问海报大赛·地方风物】创意征集令!用AI解锁家乡新名片,万元奖金等你来战!

用Qwen-Image打破常规!将家乡的地标、方言、美食或热梗,通过错位混搭(赛博山水×古风建筑?霓虹城市×传统小吃?)或风格化创作(复古卡通、漫画方言…)焕发全新视觉冲击力!

100 9
|
19天前
|
人工智能 监控 安全
|

《当普通人也能当侦探:一个AI小工具的诞生》

我计划参加魔搭(ModelScope)平台上的Qwen-Coder比赛,通过制作一段视频,分享我开发人脸识别工具的过程。这段视频将以轻松幽默的方式,结合生活中的真实案例,展现如何利用AI技术解决普通人面临的隐私与安全问题。

131 1
|
24天前
|
物联网 开发者
|

LoRA 模型的全新玩法——AutoLoRA 带你体验 LoRA 检索与融合的魔法

LoRA 模型的全新玩法——AutoLoRA 带你体验 LoRA 检索与融合的魔法

174 0
|
4月前
|
人工智能 数据可视化 物联网
|

Reasoning模型蒸馏实践:用大模型提升小模型能力

DeepSeek-R1的爆火让更多开发者注意到模型蒸馏技术——这种让小模型也能"开小灶"习得大模型知识精华的秘诀。今天我们就用Qwen2.5-1.5B小模型(相当于AI界的初中生)来进行实践!

314 5
|
5月前
|
前端开发 机器人 API
|

答疑机器人实践:AgentScope多智能体带你玩转多源召回

答疑机器人实践:AgentScope多智能体带你玩转多源召回

199 3
|
5月前
|
传感器 人工智能 算法
|

傅利叶开源人形机器人,提供完整的开源套件!Fourier N1:具备23个自由度和3.5米/秒运动能力

傅利叶推出的开源人形机器人N1搭载自研动力系统与多模态交互模块,具备23个自由度和3.5米/秒运动能力,提供完整开源套件助力开发者验证算法。

386 3
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 存储 文字识别
|

Llama 4上线魔搭社区!社区推理、微调实战教程来啦!

近期,Meta推出了Llama 4系列的首批模型: Llama 4 Scout 和 Llama 4 Maverick。

430 12
|
6月前
|
人工智能 自然语言处理 搜索推荐
|

WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

427 5
|
6月前
|
存储 人工智能 自然语言处理
|

YT Navigator:AI秒搜YouTube!自然语言直达视频关键帧

YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具,通过自然语言查询快速定位视频中的关键信息,支持与视频内容对话,适用于研究人员、学生和内容创作者。

317 0
来自: 自然语言处理  版块
|
6月前
|
人工智能 自然语言处理 算法
|

MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。

411 18
来自: 科学计算  版块
|
7月前
|
机器学习/深度学习 人工智能 监控
|

X-R1:3090也能训7B模型!开源框架X-R1把训练成本打下来了:10美元训出企业级LLM

X-R1 是一个基于强化学习的低成本训练框架,能够加速大规模语言模型的后训练开发。仅需4块3090或4090 GPU,1小时内完成训练,成本低于10美元。

341 5
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 机器人
|

TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声

TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。

354 6
来自: 语音  版块
|
7月前
|
人工智能 安全 数据挖掘
|

MedRAX:专注于胸部X光检查的AI医学推理智能体,帮助医生快速解读胸部X光片

MedRAX 是一款专门用于胸部X光检查的医学推理AI智能体,整合了多种最先进的分析工具,支持多模态推理和动态任务分解。

381 10
来自: 多模态  版块
|
8月前
|
人工智能 编解码
|

CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。

760 5
来自: 计算机视觉  版块
|
8月前
|
Web App开发 人工智能 JSON
|

AutoMouser:AI Chrome扩展程序,实时跟踪用户的浏览器操作,自动生成自动化操作脚本

AutoMouser是一款Chrome扩展程序,能够实时跟踪用户交互行为,并基于OpenAI的GPT模型自动生成Selenium测试代码,简化自动化测试流程。

493 17
来自: 多模态  版块
|
9月前
|
人工智能 文字识别 安全
|

Qwen开源视觉推理模型QVQ,更睿智地看世界!

在人类的思维中,语言和视觉紧密交织,塑造着我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆之中。那么,当我们将这些能力赋予人工智能时,会发生什么呢?如今的大语言模型已经展现出卓越的推理能力,但我们不禁思考:它们能否通过掌握视觉理解的力量,攀登认知能力的新高峰?

938 5
|
9月前
|
传感器 人工智能 自然语言处理
|

RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务

RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。

576 22
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 自然语言处理 数据安全/隐私保护
|

探索Qwen2.5大模型在车险理赔领域的应用

本文探讨了Qwen2.5大模型在车险理赔领域的应用,特别是通过微调模型来优化理赔流程、提高反欺诈能力。文章介绍了车险理赔的数据特点和业务流程,展示了如何准备数据、微调模型,并进行了模型评估和部署的示例。通过这些方法,Qwen2.5能够显著提升理赔效率和准确性,减少人工干预。

657 1
|
10月前
|
人工智能 测试技术 Apache
|

SmolVLM:Hugging Face推出的轻量级视觉语言模型

SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求,并完全开源,所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可证下发布。

592 7
来自: 多模态  版块
|
10月前
|
算法 物联网 开发者
|

In-Context LoRA实现高效多任务图像生成,开启视觉创作新篇章

这篇文章介绍了通义实验室提出的In-Context LoRA,这是一种基于现有文本到图像模型的任务无关性框架,用于实现高质量的多任务图像生成。

1474 11
|
11月前
|
运维 网络协议 Linux
|

linux系统命令 losf详解

**lsof命令**(List Open Files)是Linux系统中一个非常实用的工具,用于列出当前系统上所有打开的文件以及与之关联的进程。以下是对lsof命令的详细介绍: ### 一、基本功能 lsof命令可以显示系统中被进程打开的文件,这些文件可以是普通文件、目录、网络套接字、设备文件等。通过lsof命令,用户可以方便地查看哪些文件被哪些进程打开,以及这些文件的状态信息。 ### 二、基本语法 lsof命令的基本语法为:`lsof [选项] [文件]`。其中,选项用于指定lsof命令的行为,文件则是可选的,用于指定要查询的文件。 ### 三、常用选项 * `-a` 或 `-

502 6
|
1月前
|
传感器 人工智能 自然语言处理
|

魔搭社区模型速递(7.26-8.2)

🙋魔搭ModelScope本期社区进展:1498个模型,130个数据集,85个创新应用, 7 篇内容

295 0
|
2月前
|
机器学习/深度学习 人工智能 算法
|

通义WebSailor开源,首个挑战BrowseComp基准的开源网络智能体!

WebSailor网络智能体可以应用复杂场景下的检索任务,对于模糊问题可迅速在不同的网页中进行快速检索并推理验证,从而在海量信息中通过严密的多步推理和交叉验证中最终得出检索答案。

173 0
|
5月前
|
机器学习/深度学习 人工智能 算法
|

RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策

RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。

476 5
来自: 多模态  版块
|
6月前
|
存储 人工智能 文字识别
|

pdf-craft:PDF秒转Markdown/EPUB!接入DeepSeek轻松生成电子书,自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具,能精准提取正文内容并转换为Markdown/EPUB格式,通过AI算法解决跨页连贯性问题,是学术研究和电子书制作的利器。

1072 10
来自: 自然语言处理  版块
|
6月前
|
人工智能 文字识别 异构计算
|

SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍

SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。

495 1
来自: 多模态  版块
|
6月前
|
人工智能 数据库 决策智能
|

Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体

Archon 是一个开源的 AI 智能体框架,能够自主生成代码并优化智能体性能,支持多智能体协作、领域知识集成和文档爬取等功能,适用于企业、教育、智能家居等多个领域。

591 10
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 前端开发
|

Flame:开源AI设计图转代码模型!生成React组件,精准还原UI+动态交互效果

Flame 是一款开源的多模态 AI 模型,能够将 UI 设计图转换为高质量的现代前端代码,支持 React 等主流框架,具备动态交互、组件化开发等功能,显著提升前端开发效率。

776 1
来自: 多模态  版块
|
7月前
|
人工智能 文字识别 安全
|

Stirling-PDF:51.4K Star!用Docker部署私有PDF工作站,支持50多种PDF操作,从此告别在线工具

Stirling-PDF 是一款基于 Docker 的本地化 PDF 编辑工具,支持 50 多种 PDF 操作,包括合并、拆分、转换、压缩等,同时提供多语言支持和企业级功能,满足个人和企业用户的多样化需求。

527 6
来自: 自然语言处理  版块
|
7月前
|
存储 机器学习/深度学习 人工智能
|

如何使用非结构化 API 高效处理文档

手动处理非结构化文档面临格式不一致、数据噪声多和信息检索困难等挑战,导致低效率和合规风险。Unstructured API 通过自动化文档处理,利用AI技术简化分类、归类和异常检测,节省时间和提高准确性。Supametas.AI 作为领先平台,支持多种文件类型(如文本、图片、视频),适用于各行各业,可与Salesforce、Zendesk等工具无缝集成,确保数据流动顺畅并提升工作效率。其强大的功能包括数据摄取、处理技术、检索增强生成、灵活性、可扩展性和集成能力,帮助企业和小公司高效处理大量非结构化数据,实现业务增长和优化工作流程。

362 4
来自: 多模态  版块
|
7月前
|
存储 人工智能 自然语言处理
|

ACE++:输入想法就能完成图像创作和编辑!阿里通义推出新版自然语言驱动的图像生成与编辑工具

ACE++ 是阿里巴巴通义实验室推出的升级版图像生成与编辑工具,支持多种任务,如高质量人物肖像生成、主题一致性保持和局部图像编辑。

414 8
来自: 计算机视觉  版块
|
8月前
|
数据采集 人工智能 自然语言处理
|

OpenCSG开源SmolTalk Chinese数据集

近年来,人工智能(AI)领域尤其是自然语言处理(NLP)技术的迅猛发展,正在深刻改变着各行各业的运作模式。从智能客服到内容生成,从自动翻译到智能搜索,NLP技术的广泛应用使得语言模型在全球范围内的重要性日益凸显。与此密切相关的预训练模型(Pre-trained Models),凭借在海量数据上的训练积累了丰富的知识,成为NLP技术进步的核心支柱。然而,预训练模型的成功在很大程度上依赖于其背后数据集的质量。

142 13
|
8月前
|
敏捷开发 人工智能 JavaScript
|

Figma-Low-Code:快速将Figma设计转换为Vue.js应用,支持低代码渲染、数据绑定

Figma-Low-Code 是一个开源项目,能够直接将 Figma 设计转换为 Vue.js 应用程序,减少设计师与开发者之间的交接时间,支持低代码渲染和数据绑定。

467 3
来自: 计算机视觉  版块
|
8月前
|
人工智能 算法 测试技术
|

StockMixer:上海交大推出预测股票价格的 MLP 架构,通过捕捉指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价

StockMixer 是上海交通大学推出的基于多层感知器的股票价格预测架构,通过指标、时间和股票混合实现高效预测。

474 11
来自: 多模态  版块
|
8月前
|
人工智能 JSON 安全
|

DeepSeek Engineer:集成 DeepSeek API 的开源 AI 编程助手,支持文件读取、编辑并生成结构化响应

DeepSeek Engineer 是一款开源AI编程助手,通过命令行界面处理用户对话并生成结构化JSON,支持文件操作和代码生成。

1204 6
来自: 自然语言处理  版块
|
8月前
|
人工智能 文字识别 自然语言处理
|

Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式

Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。

1117 19
来自: 多模态  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

4
今日
14247
内容
6
活动
3580
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互