|
14天前
|
机器学习/深度学习 人工智能 搜索推荐
|

万字长文深度解析最新Deep Research技术:前沿架构、核心技术与未来展望

近期发生了什么自 2025 年 2 月 OpenAI 正式发布Deep Research以来,深度研究/深度搜索(Deep Research / Deep Search)正在成为信息检索与知识工作的全新范式:系统以多步推理驱动大规模联网检索、跨源证据。

950 57
|
12天前
|
文字识别 测试技术 开发者
|

Qwen3-VL新成员 2B、32B来啦!更适合开发者体质

Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!

845 11
|
20天前
|
编解码 自然语言处理 文字识别
|

Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大

凌晨,Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,并完整保留了Qwen3-VL的全部表现,评测指标表现优秀。

1068 7
|
9月前
|
机器学习/深度学习 存储 人工智能
|

MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。

6409 80
来自: 多模态  版块
|
11月前
|
存储 人工智能 API
|

AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署

AgentScope是阿里巴巴集团开源的多智能体开发平台,旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持,内置多种模型API和本地模型部署选项,支持多模态数据处理。

5142 77
来自: 多模态  版块
|
8天前
|
传感器 人工智能 API
|

仅100多元,他给视障人群装上AI“眼睛”

上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。

318 4
|
6天前
|
机器学习/深度学习 人工智能 文字识别
|

全新框架 Glyph 开源:用视觉理解文本,3–4 倍上下文压缩,近 5 倍推理提速!

清华CoAI与智谱AI提出Glyph新范式,将长文本渲染为图像,通过视觉语言模型实现高效长上下文处理。3-4倍压缩比,性能媲美主流大模型,显存占用降2/3,低成本支持百万token任务,开源可商用。

184 2
|
1月前
|
Prometheus 监控 Cloud Native
|

78_资源监控:NVIDIA-SMI进阶

在大语言模型(LLM)训练和推理过程中,GPU资源的高效监控和管理至关重要。随着模型规模的不断增长和计算需求的提升,如何精确监控GPU利用率、及时发现性能瓶颈并进行优化,成为AI研究人员和工程师面临的重要挑战。NVIDIA-SMI作为NVIDIA官方提供的GPU监控工具,提供了丰富的功能来监控和管理GPU资源。本文将深入探讨NVIDIA-SMI的进阶使用方法,以及如何利用其与其他工具结合构建高效的GPU利用率可视化监控系统。

469 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Dolphin:40语种+22方言!清华联合海天瑞声推出的语音识别大模型,识别精度超Whisper两代

Dolphin是清华大学与海天瑞声联合研发的语音识别大模型,支持40种东方语言和22种中文方言,采用CTC-Attention混合架构,词错率显著低于同类模型。

3362 50
来自: 语音  版块
|
10月前
|
人工智能 编解码 JSON
|

Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。

4239 18
来自: 计算机视觉  版块
|
21天前
|
机器学习/深度学习 人工智能 API
|

用Macbook微调Qwen3!手把手教你用微调给Qwen起一个新名字

本文介绍如何在MacBook上使用苹果MLX框架高效微调Qwen3大模型。借助MLX的高性能计算与统一内存架构,仅需2分钟即可完成训练,内存占用低至2GB,推理速度达400 Token/s,并支持快速部署为本地API服务,展现Mac轻薄本的强大AI生产力潜力。

557 16
|
9月前
|
人工智能 自然语言处理 API
|

Cline:29.7K Star!一文详解VSCode最强开源AI编程搭子:一键生成代码+自动跑终端+操控浏览器...

Cline 是一款集成于 VSCode 的 AI 编程助手,支持多语言模型,实时检查语法错误,帮助开发者提高编程效率。通过智能化手段,Cline 可以生成代码、执行终端命令、调试 Web 应用,并扩展更多功能。

2976 73
来自: 自然语言处理  版块
|
26天前
|
人工智能 测试技术 API
|

智谱旗舰模型GLM-4.6开源发布,代码能力对齐Claude Sonnet 4

作为GLM系列的最新版本,GLM-4.6是系列最强的代码Coding模型(较GLM-4.5提升27%)

791 14
|
7月前
|
机器学习/深度学习 存储 人工智能
|

Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研

Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。

2320 87
来自: 自然语言处理  版块
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
|

UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式

通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。

123 1
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局

Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。

829 15
来自: 计算机视觉  版块
|
7月前
|
人工智能 API 开发者
|

FastAPI开发者福音!FastAPI-MCP:将FastAPI秒变MCP服务器的开源神器,无需配置自动转换!

FastAPI-MCP是一款能将FastAPI应用端点自动转换为符合模型上下文协议(MCP)的开源工具,支持零配置自动发现接口并保留完整文档和模式定义。

3860 112
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口

智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。

3157 14
来自: 多模态  版块
|
8月前
|
人工智能 编解码 自动驾驶
|

RF-DETR:YOLO霸主地位不保?开源 SOTA 实时目标检测模型,比眨眼还快3倍!

RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型,结合Transformer架构与DINOv2主干网络,支持多分辨率灵活切换,为安防、自动驾驶等场景提供高精度实时检测方案。

1172 6
来自: 计算机视觉  版块
|
9月前
|
人工智能 资源调度 API
|

AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程

AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。

6278 76
来自: 多模态  版块
|
11月前
|
人工智能 监控 算法
|

3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。

2293 18
来自: 语音  版块
|
11月前
|
人工智能 自然语言处理 人机交互
|

CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。

7188 22
来自: 语音  版块
|
8月前
|
开发者 异构计算
|

高效部署通义万相Wan2.1:ComfyUI文生/图生视频实战,工作流直取!

通义万相Wan2.1开源不到一周,已登顶HuggingFace Model 和 Space 榜双榜首,在HuggingFace和ModelScope平台的累计下载量突破100万次,社区热度持续攀升!为响应小伙伴们对ComfyUI工作流运行Wan2.1的强烈需求,社区开发者整理了实战教程👇

6392 23
|
9月前
|
数据采集 编解码 缓存
|

通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成

2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!

4831 8
|
1月前
|
存储 数据采集 人工智能
|

97_微调基础:全参数 vs LoRA

在2025年的大模型时代,微调技术已经成为将通用大语言模型(LLM)适配到特定领域和任务的核心技术手段。随着模型规模的不断膨胀——从早期的数十亿参数到如今的数千亿甚至万亿参数,如何在有限的计算资源下高效地微调大模型,成为AI工程师面临的关键挑战。本文将深入探讨两种主流的微调方法:全参数微调和LoRA(Low-Rank Adaptation)低秩适应微调,从原理、技术实现、资源需求、性能表现等多个维度进行全面对比分析,帮助读者在实际项目中做出最优的技术选择。

340 0
|
9月前
|
人工智能 搜索推荐 Docker
|

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手

DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手

5742 119
来自: 自然语言处理  版块
|
1月前
|
存储 机器学习/深度学习 缓存
|

85_多轮对话:上下文管理与压缩

在大语言模型(LLM)的应用场景中,多轮对话已经成为最核心的交互模式之一。随着2025年LLM技术的快速发展,用户对持续、连贯、个性化的对话体验要求越来越高。然而,多轮对话面临着严峻的技术挑战:首先,LLM的上下文窗口长度虽然在不断扩展(如GPT-5已支持100K tokens),但依然是有限资源;其次,随着对话轮次增加,历史信息不断累积,导致token消耗激增;第三,过长的上下文可能导致模型对早期信息的关注度下降,影响回复质量。

255 0
|
10月前
|
XML 人工智能 文字识别
|

Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理,能够通过视觉感知自主完成复杂的移动设备操作任务,支持跨应用操作和纯视觉解决方案。

3323 10
来自: 多模态  版块
|
8月前
|
存储 人工智能 Docker
|

Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑

Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。

3270 8
来自: 多模态  版块
|
9月前
|
人工智能 开发框架 机器人
|

AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程

AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。

4847 38
来自: 多模态  版块
|
7月前
|
人工智能 并行计算 Linux
|

斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画

斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。

1465 19
来自: 多模态  版块
|
11月前
|
人工智能 自然语言处理 Java
|

FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel

FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。

2280 65
来自: 自然语言处理  版块
|
9月前
|
人工智能 物联网 测试技术
|

FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。

2722 17
来自: 语音  版块
|
9月前
|
存储 人工智能 数据库
|

Agno:18.7K Star!快速构建多模态智能体的轻量级框架,运行速度比LangGraph快5000倍!

Agno 是一个用于构建多模态智能体的轻量级框架,支持文本、图像、音频和视频等多种数据模态,能够快速创建智能体并实现高效协作。

2113 22
来自: 多模态  版块
|
10月前
|
文字识别
|

统一多模态Embedding, 通义实验室开源GME系列模型

随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。

1829 6
|
11月前
|
人工智能 自然语言处理 监控
|

video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述

video-analyzer 是一款开源视频分析工具,结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,能够提取视频关键帧、转录音频并生成详细描述,支持本地运行和多种应用场景

2036 6
来自: 计算机视觉  版块
|
1月前
|
人工智能 自然语言处理 TensorFlow
|

134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南

在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥远的愿景,而是正在成为现实的技术实践。

430 39
|
4月前
|
监控 安全 NoSQL
|

【SpringBoot】OAuth 2.0 授权码模式 + JWT 令牌自动续签 的终极落地指南,包含 深度技术细节、生产环境配置、安全加固方案 和 全链路监控

【SpringBoot】OAuth 2.0 授权码模式 + JWT 令牌自动续签 的终极落地指南,包含 深度技术细节、生产环境配置、安全加固方案 和 全链路监控

1618 1
|
8月前
|
机器学习/深度学习 文字识别 测试技术
|

Qwen2.5-VL-32B: 更聪明、更轻量!

年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:

2815 0
|
12月前
|
存储 人工智能 搜索推荐
|

Memoripy:支持 AI 应用上下文感知的记忆管理 Python 库

Memoripy 是一个 Python 库,用于管理 AI 应用中的上下文感知记忆,支持短期和长期存储,兼容 OpenAI 和 Ollama API。

625 6
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 知识图谱
|

Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库

Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台,支持多格式文档处理和复杂知识关系查询,具备多模型适配和智能体拓展能力。

1507 55
来自: 自然语言处理  版块
|
8月前
|
人工智能 自然语言处理 IDE
|

Trae 接入 Claude 3.7:AI 编程工具界的“卷王”,完全免费使用!

Trae 是一款完全免费的AI编程工具,现已接入 Claude 3.7 模型,提供代码生成、调试等强大功能,支持多模态输入和上下文理解,用户可享受24小时高速服务,无需担心付费限制。Trae 支持多平台,安装简便,适合开发者快速上手。

3093 24
来自: 多模态  版块
|
22天前
|
自然语言处理 物联网 vr&ar
|

图像理解与生成统一模型——前沿模型架构理解

前言生成式多模态模型近年来一直是业界的研究热点。视觉语言模型(VLM)一直是多模态文本生成领域的核心路线,能够完成图像理解任务;扩散模型(Diffusion Model)则一直是图像和视频生成领域的核心方法。

330 9
|
7月前
|
自然语言处理 测试技术 Serverless
|

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

1656 22
|
9月前
|
存储 缓存 小程序
|

微信小程序数据缓存与本地存储:优化用户体验

本文深入探讨微信小程序的数据缓存与本地存储,介绍其意义、机制及应用场景。通过合理使用内存和本地缓存,可减少网络请求、提升加载速度和用户体验。文中详细讲解了常用缓存API的使用方法,并通过一个新闻列表案例展示了缓存的实际应用。最后提醒开发者注意缓存大小限制、时效性和清理,以确保最佳性能。

1486 0
|
10月前
|
人工智能 自然语言处理 API
|

百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。

2956 5
来自: 语音  版块
|
9月前
|
机器学习/深度学习 人工智能 编解码
|

阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频

Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。

2665 2
来自: 多模态  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

4
今日
14406
内容
6
活动
3695
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互