|
9天前
|
人工智能 算法 测试技术
|

轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源

继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。

340 51
|
5月前
|
SQL 自然语言处理 数据可视化
|

📊 Quick BI 真实体验评测:小白也能快速上手的数据分析工具!

作为一名软件开发工程师,我体验了阿里云的Quick BI工具。从申请试用账号到上传数据、创建数据集,再到搭建仪表板和使用智能小Q功能,整个过程流畅且简单易用。尤其对非专业数据分析人士来说,拖拽式设计和自然语言问数功能极大降低了操作门槛。虽然在试用入口明显度和复杂语义理解上还有提升空间,但整体体验令人满意。Quick BI让我改变了对数据分析的认知,值得推荐给需要快速制作报表的团队成员。

644 3
|
9月前
|
存储 人工智能 API
|

AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署

AgentScope是阿里巴巴集团开源的多智能体开发平台,旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持,内置多种模型API和本地模型部署选项,支持多模态数据处理。

2507 4
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 API
|

Cline:29.7K Star!一文详解VSCode最强开源AI编程搭子:一键生成代码+自动跑终端+操控浏览器...

Cline 是一款集成于 VSCode 的 AI 编程助手,支持多语言模型,实时检查语法错误,帮助开发者提高编程效率。通过智能化手段,Cline 可以生成代码、执行终端命令、调试 Web 应用,并扩展更多功能。

2126 73
来自: 自然语言处理  版块
|
5月前
|
人工智能 API 开发者
|

FastAPI开发者福音!FastAPI-MCP:将FastAPI秒变MCP服务器的开源神器,无需配置自动转换!

FastAPI-MCP是一款能将FastAPI应用端点自动转换为符合模型上下文协议(MCP)的开源工具,支持零配置自动发现接口并保留完整文档和模式定义。

2618 112
来自: 自然语言处理  版块
|
14天前
|
人工智能 物联网 测试技术
|

Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效

通义千问团队开源发布Qwen-Image-Edit,基于20B的Qwen-Image模型,支持语义与外观双重编辑,可精准修改图片中的文字内容,并具备强大的跨基准性能表现,适用于IP创作、虚拟形象生成等多种场景,提供丰富的图像编辑能力。

362 6
|
7月前
|
机器学习/深度学习 存储 人工智能
|

MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。

4619 22
来自: 多模态  版块
|
5天前
|
机器学习/深度学习 人工智能 数据处理
|

混元开源又+1:视频音效可以自动生成了

AI生成的视频音效,已经可以用于视频制作了。

125 32
|
4天前
|
JSON 人工智能 Java
|

基于Spring AI构建智能Text-to-SQL转换器:一个完整的MCP

Spring AI 更新结构化输出转换器,弃用旧版 Parser 类,引入与 Spring 框架对齐的 Converter 体系,提升命名规范与功能兼容性。新版本支持 JSON、XML 及 Java 对象转换,确保 LLM 输出结构化,便于下游应用处理。

122 1
|
2月前
|
监控 安全 NoSQL
|

【SpringBoot】OAuth 2.0 授权码模式 + JWT 令牌自动续签 的终极落地指南,包含 深度技术细节、生产环境配置、安全加固方案 和 全链路监控

【SpringBoot】OAuth 2.0 授权码模式 + JWT 令牌自动续签 的终极落地指南,包含 深度技术细节、生产环境配置、安全加固方案 和 全链路监控

802 1
|
8月前
|
数据采集 人工智能 自然语言处理
|

FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据

FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。

2767 71
来自: 自然语言处理  版块
|
9天前
|
编解码 人工智能 小程序
|

魔搭社区模型速递(8.17-8.23)

🙋魔搭ModelScope本期社区进展:📟1652个模型,📁216个数据集,🎨54个创新应用,📄 4篇内容

235 8
|
6天前
|
编解码 自然语言处理
|

通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作

今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。

129 10
|
6天前
|
机器学习/深度学习 编解码 人工智能
|

面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快

今天,面壁智能正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

128 9
|
5月前
|
机器学习/深度学习 存储 人工智能
|

Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研

Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。

1318 87
来自: 自然语言处理  版块
|
5月前
|
人工智能 自然语言处理 知识图谱
|

Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库

Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台,支持多格式文档处理和复杂知识关系查询,具备多模型适配和智能体拓展能力。

988 55
来自: 自然语言处理  版块
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代

Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。

2162 50
来自: 语音  版块
|
5月前
|
人工智能 缓存 自然语言处理
|

全球首款开源通用型AI智能体上线!Suna:自动处理Excel/爬数据/写报告等复杂任务一句话搞定

Suna是由Kortix推出的开源通用型AI智能体项目,通过自然语言交互实现浏览器自动化、文件管理、数据分析等复杂任务处理,支持自托管部署,为研究分析和日常工作提供智能辅助。

1188 55
来自: 自然语言处理  版块
|
8月前
|
XML 人工智能 文字识别
|

Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理,能够通过视觉感知自主完成复杂的移动设备操作任务,支持跨应用操作和纯视觉解决方案。

2552 10
来自: 多模态  版块
|
5月前
|
人工智能 自然语言处理 数据可视化
|

让AI单次生成4万字!WriteHERE:开源AI长文写作框架,单次生成超长文本,小说报告一键搞定!

WriteHERE是基于异质递归规划技术的开源AI写作框架,能动态分解写作任务并管理任务依赖关系,支持单次生成超过4万字的专业报告。

524 55
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 文字识别 测试技术
|

Qwen2.5-VL-32B: 更聪明、更轻量!

年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:

2039 0
|
8月前
|
人工智能 编解码 JSON
|

Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。

3216 18
来自: 计算机视觉  版块
|
8天前
|
测试技术 Swift 开发者
|

可调节推理预算,字节Seed团队开源大型语言模型 Seed-OSS 系列!

字节跳动 Seed 团队正式发布了 Seed-OSS 系列开源大型语言模型,提供强大的长上下文、推理、代理和通用功能,以及对开发者友好的多功能特性。

129 9
|
26天前
|
Apache 开发工具 数据格式
|

OpenAI 重返开源!gpt-oss系列社区推理、微调实战教程到!

时隔N年,OpenAI开放模型权重啦!欢迎使用gpt-oss 系列,专为强大的推理、代理任务和多用途开发场景设计。

532 0
|
2月前
|
编解码 物联网 开发者
|

FLUX.1 Kontext 的全生态教程来啦!AIGC专区在线试玩!

Flux.1 Kontext [dev] 开源模型大家都用上了吗?小编汇总了3个使用教程,打包送上!

1537 1
|
22天前
|

智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!

视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。

257 0
|
7月前
|
人工智能 Linux iOS开发
|

exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型

exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。

1571 100
来自: 科学计算  版块
|
5月前
|
人工智能 自然语言处理 运维
|

让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!

ChatTS-14B是字节跳动开源的时间序列专用大模型,基于Qwen2.5-14B微调优化,通过合成数据对齐技术显著提升分析能力,支持自然语言交互完成预测推理等复杂任务。

771 1
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 人工智能 vr&ar
|

LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理

阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。

1234 0
来自: 计算机视觉  版块
|
6月前
|
开发者 异构计算
|

高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!

通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇

5653 23
|
7月前
|
人工智能 资源调度 API
|

AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程

AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。

5334 18
来自: 多模态  版块
|
7月前
|
数据采集 编解码 缓存
|

通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成

2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!

4250 8
|
22天前
|
数据采集 机器学习/深度学习 编解码
|

小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5

小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5

202 0
|
7月前
|
机器学习/深度学习 人工智能 编解码
|

阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频

Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。

2145 2
来自: 多模态  版块
|
6月前
|
文字识别 测试技术 语音技术
|

看听说写四维突破:Qwen2.5-Omni 端到端多模态模型开源!

今天,通义千问团队发布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

1083 6
|
4月前
|
人工智能 API 开发者
|

用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频

魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。

1530 41
|
9月前
|
人工智能 自然语言处理 人机交互
|

CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。

6536 22
来自: 语音  版块
|
10月前
|
JavaScript 计算机视觉
|

FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接

Black Forest Labs 发布了 FLUX.1 Tools,一套增强 FLUX.1 文本转图像模型的工具集,包括 FLUX.1 Fill、FLUX.1 Depth、FLUX.1 Canny 和 FLUX.1 Redux,分别用于图像修复、深度引导、边缘检测和图像重组。提供详细的安装指南和模型下载链接,支持用户快速上手并优化图像处理流程。

3644 4
|
16天前
|
人工智能 自然语言处理 物联网
|

魔搭社区模型速递(8.10-8.16)

🙋魔搭ModelScope本期社区进展:📟5285个模型,📁497个数据集,🎨59个创新应用,📄 9篇内容

227 0
|
3月前
|
Python 语音技术 Windows
|

IndexTTS 部署报错:No module named 'tn'

465 1
|
6月前
|
机器学习/深度学习 人工智能 NoSQL
|

JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型

随着大模型的越来越盛行,现在很多企业开始接入大模型的接口,今天我从java开发角度来写一个demo的示例,用于接入DeepSeek大模型,国内的大模型有很多的接入渠道,今天主要介绍下阿里云的百炼模型,因为这个模型是免费的,只要注册一个账户,就会免费送百万的token进行学习,今天就从一个简单的可以执行的示例开始进行介绍,希望可以分享给各位正在学习的同学们。

1002 3
来自: 多模态  版块
|
9月前
|
人工智能 监控 算法
|

3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。

1626 18
来自: 语音  版块
|
6月前
|
人工智能 自然语言处理 IDE
|

Trae 接入 Claude 3.7:AI 编程工具界的“卷王”,完全免费使用!

Trae 是一款完全免费的AI编程工具,现已接入 Claude 3.7 模型,提供代码生成、调试等强大功能,支持多模态输入和上下文理解,用户可享受24小时高速服务,无需担心付费限制。Trae 支持多平台,安装简便,适合开发者快速上手。

2548 1
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 API
|

ComfyUI-Copilot:阿里把AI助手塞进ComfyUI:一句话生成工作流,自动布线/调参/选模型,小白秒变大神!

ComfyUI-Copilot 是阿里推出的基于 ComfyUI 的 AI 智能助手,支持自然语言交互、智能节点推荐和自动工作流辅助,降低开发门槛并提升效率。

1770 6
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口

智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。

2401 14
来自: 多模态  版块
|
7月前
|
人工智能 物联网 测试技术
|

FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。

2055 17
来自: 语音  版块
|
8月前
|
文字识别
|

统一多模态Embedding, 通义实验室开源GME系列模型

随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。

1370 6

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14239
内容
6
活动
3572
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互