|
7月前
|
人工智能 测试技术 API
|

PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力

PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。

432 30
来自: 自然语言处理  版块
|
8月前
|
人工智能 自然语言处理 API
|

Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统

Oliva是一款基于Langchain和Superlinked的开源语音RAG助手,通过实时语音交互在Qdrant向量数据库中进行语义搜索,支持多智能体协作处理复杂查询任务。

399 4
来自: 语音  版块
|
8月前
|
人工智能 文字识别 异构计算
|

SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍

SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。

594 1
来自: 多模态  版块
|
8月前
|
人工智能 自然语言处理 机器人
|

今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok

由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。

405 2
|
8月前
|
人工智能 监控 搜索推荐
|

MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%

MedRAG是南洋理工大学推出的医学诊断模型,结合知识图谱与大语言模型,提升诊断准确率11.32%,支持多模态输入与智能提问,适用于急诊、慢性病管理等多种场景。

436 32
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 物联网
|

微软Phi-4系列开源:多模态与文本处理的创新突破

微软近期推出 Phi-4-multimodal 和 Phi-4-mini,这些模型是 Microsoft Phi 系列小型语言模型 (SLM) 中的最新模型。Phi-4-multimodal 能够同时处理语音、视觉和文本,为创建创新且具有上下文感知能力的应用程序开辟了新的可能性。另一方面,Phi-4-mini 在基于文本的任务方面表现出色,以紧凑的形式提供高精度和可扩展性。

374 4
|
8月前
|
人工智能 自然语言处理 搜索推荐
|

ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档

ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。

416 8
来自: 多模态  版块
|
9月前
|
人工智能 负载均衡 算法
|

DeepSeek开源周第四弹之二!EPLB:专为V3/R1设计的专家并行负载均衡器,让GPU利用率翻倍!

EPLB 是 DeepSeek 推出的专家并行负载均衡器,通过冗余专家策略和负载均衡算法,优化大规模模型训练中的 GPU 资源利用率和训练效率。

432 1
来自: 科学计算  版块
|
9月前
|
数据采集 人工智能 监控
|

Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%

Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。

422 4
来自: 自然语言处理  版块
|
9月前
|
人工智能 自然语言处理 数据可视化
|

AutoAgents:比LangChain更激进的AI开发神器!自然语言生成AI智能体军团,1句话搞定复杂任务

AutoAgents 是基于大型语言模型的自动智能体生成框架,能够根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务。支持动态生成智能体、任务规划与执行、多智能体协作等功能。

1488 91
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 监控
|

X-R1:3090也能训7B模型!开源框架X-R1把训练成本打下来了:10美元训出企业级LLM

X-R1 是一个基于强化学习的低成本训练框架,能够加速大规模语言模型的后训练开发。仅需4块3090或4090 GPU,1小时内完成训练,成本低于10美元。

432 5
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
|

魔搭社区模型速递(1.19-2.15)

魔搭ModelScope本期社区进展:6205个模型,823个数据集,333个创新应用, 26篇内容。

528 2
|
9月前
|
人工智能 自然语言处理 Shell
|

深度评测 | 仅用3分钟,百炼调用满血版 Deepseek-r1 API,百万Token免费用,简直不要太爽。

仅用3分钟,百炼调用满血版Deepseek-r1 API,享受百万免费Token。阿里云提供零门槛、快速部署的解决方案,支持云控制台和Cloud Shell两种方式,操作简便。Deepseek-r1满血版在推理能力上表现出色,尤其擅长数学、代码和自然语言处理任务,使用过程中无卡顿,体验丝滑。结合Chatbox工具,用户可轻松掌控模型,提升工作效率。阿里云大模型服务平台百炼不仅速度快,还确保数据安全,值得信赖。

358509 71
|
10月前
|
人工智能
|

RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位

RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。

387 11
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务

Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。

816 10
来自: 语音  版块
|
11月前
|
人工智能 自然语言处理 算法
|

Devika AI:开源的 AI 软件开发工具,理解和执行复杂的人类指令

Devika AI 是一款开源的 AI 软件开发工具,能够理解和执行复杂的人类指令。它通过分解任务、信息搜集和代码生成,帮助开发者提高效率,减少人工干预。本文将详细介绍 Devika AI 的功能、技术原理以及如何运行和配置该工具。

363 9
来自: 自然语言处理  版块
|
12月前
|
机器学习/深度学习 人工智能 监控
|

AutoTrain:Hugging Face 开源的无代码模型训练平台

AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。

984 4
|
12月前
|
存储 监控 安全
|

开发者的黄金时代:原生鸿蒙应用市场的全生命周期服务

2024年10月22日,华为发布了HarmonyOS NEXT,标志着鸿蒙生态进入商用发展阶段。原生鸿蒙应用市场全面焕新,不仅在UI设计、互动体验和隐私安全机制上进行了重塑,还为开发者和用户提供了从开发到分发的全生命周期服务。通过统一上架、多端分发、隐私合规保障等措施,原生鸿蒙应用市场助力开发者实现高效、安全的应用开发与分发,为全球数亿鸿蒙用户带来更流畅、更安全的使用体验。

628 1
|
1月前
|
机器学习/深度学习 存储 人工智能
|

106_模型合并:Task Arithmetic

在大语言模型(LLM)时代,模型合并技术正在成为高效整合不同模型能力的关键方法。随着开源模型的爆发式增长,如何在不进行昂贵的重新训练的情况下,将多个专用模型的知识整合到一个统一模型中,成为了研究和工业界的重要课题。Task Arithmetic作为一种新兴的模型合并方法,通过向量操作实现权重融合,为这一挑战提供了创新解决方案。

134 2
|
1月前
|
机器学习/深度学习 算法 PyTorch
|

125_训练加速:FlashAttention集成 - 推导注意力优化的独特内存节省

2025年,大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加,传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法,通过创新的内存访问模式和计算优化,显著提升了训练效率和内存利用。

132 3
|
2月前
|
人工智能 自然语言处理 前端开发
|

魔搭社区模型速递(8.30-9.06)

🙋魔搭ModelScope本期社区进展:3361个模型,313个数据集,73个创新应用, 8篇内容

309 1
|
5月前
|
测试技术
|

字节Seed开源统一多模态理解和生成模型 BAGEL!

近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。

330 3
|
6月前
|
机器学习/深度学习 开发框架 数据可视化
|

B站开源SOTA动画视频生成模型 Index-AniSora!

B站升级动画视频生成模型Index-AniSora技术并开源,支持番剧、国创、漫改动画、VTuber、动画PV、鬼畜动画等多种二次元风格视频镜头一键生成!

583 32
|
7月前
|
人工智能 搜索推荐 API
|

AI赋能大学计划·大模型技术与应用实战学生训练营——华东师范大学站圆满结营

4月24日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行大模型应用实战学生训练营——华东师范大学站圆满结营。

276 2
|
7月前
|
存储 机器学习/深度学习 芯片
|

微软推出bitnet-b1.58-2B-4T:极致的量化,小巧而强大

随着大语言模型的发展,参数量逐渐扩大,大语言模型的训练和运行通常需要大量的计算资源,这也限制了大语言模型在一些场景尤其是端侧的应用,所以,探索剪枝,蒸馏等量化方式,已经成为大语言模型研究的一个重要方向。

394 3
|
7月前
|
人工智能 计算机视觉
|

漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图

MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。

545 20
来自: 计算机视觉  版块
|
7月前
|
人工智能 搜索推荐 前端开发
|

OpenDeepSearch:搜索引擎革命!这个开源深度搜索工具让AI代理直接读懂网页,复杂问题一键拆解

OpenDeepSearch是基于开源推理模型的深度搜索工具,通过语义重排和多源整合优化检索效果,支持与AI代理无缝集成,提供快速和专业两种搜索模式。

489 10
来自: 自然语言处理  版块
|
8月前
|
存储 人工智能 人机交互
|

Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务

Multi-Agent Orchestrator 是亚马逊开源的多智能体框架,能够动态分配代理、维护上下文、支持多种代理类型,适用于客户服务、智能交通、物流配送等复杂场景。

325 9
来自: 自然语言处理  版块
|
8月前
|
人工智能 编解码 自然语言处理
|

Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务

在当今快速发展的 AI 领域,多模态模型正逐渐成为推动技术革新的重要力量。Google 最新推出的 Gemma 3 模型,凭借其轻量级、多模态的特性,为文本生成和图像理解任务带来了全新的可能性。它不仅支持文本和图像输入,还具备强大的语言处理能力,覆盖超过 140 种语言,并且能够在资源有限的设备上高效运行。从问答到摘要,从推理到图像分析,Gemma 3 正在重新定义 AI 模型的边界,为开发者和研究人员提供了一个极具潜力的工具。

620 0
|
8月前
|
小程序 Java 关系型数据库
|

weixin049校园外卖平台设计与实现+ssm(文档+源码)_kaic

本文介绍了一款校园外卖平台的设计与实现过程。该平台采用Java的SSM框架进行后台管理开发,使用MySQL作为本地数据库,并通过微信小程序为用户提供便捷的操作界面。系统包括管理员、用户和商家三个角色,功能涵盖个人中心、用户及商家管理、菜品分类与信息管理、订单处理等。管理员可在浏览器上登录管理后台数据,用户与商家则通过微信小程序注册登录,分别实现订餐与菜品管理功能。此平台具备界面清晰、操作简单、功能齐全的特点,有助于提升校园外卖管理的效率与规范性。

317 8
|
8月前
|
人工智能 自然语言处理 算法
|

MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。

525 18
来自: 科学计算  版块
|
8月前
|
机器学习/深度学习 人工智能 机器人
|

阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1

QwQ-32B 是阿里巴巴开源的新型推理模型,基于强化学习训练,具备强大的数学推理和编程能力,性能媲美更大参数量的模型。

792 8
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 并行计算
|

NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!

NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。

743 15
来自: 多模态  版块
|
9月前
|
机器学习/深度学习 人工智能 编解码
|

Evo 2:基因编程AI革命!!DNA版GPT-4问世:100万碱基全解析,自动设计基因编辑器

Evo 2 是一款由 Acr 研究所、英伟达和斯坦福大学联合开发的 DNA 语言模型,可处理长达百万碱基对的序列,支持基因组设计、变异预测及合成生物学研究。

593 5
来自: 科学计算  版块
|
9月前
|
人工智能 数据可视化 API
|

自动查文献+写代码+跑数据+出报告!港大开源 Auto Deep Research 搞定科研全流程

Auto-Deep-Research 是一款由香港大学开源的个人 AI 助理,基于模块化多 Agent 架构,专注于深度研究任务,兼容多种大语言模型,并提供一键启动和文件解析等强大功能。

692 4
来自: 自然语言处理  版块
|
9月前
|
人工智能
|

SPO来袭:Prompt工程师90%不存在了?AI自动优化时代开启!

当你点进这个标题时内心是怎样复杂的心情,质疑,鄙夷,或者是惊讶?这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个

374 0
|
9月前
|
机器学习/深度学习 人工智能 编解码
|

Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。

531 17
来自: 计算机视觉  版块
|
10月前
|
人工智能 编解码 测试技术
|

Mini-InternVL:轻量级多模态大模型,4B 参数量媲美 InternVL2-76B

Mini-InternVL 是上海AI Lab联合清华等机构推出的轻量级多模态大模型,支持高效推理、跨领域适应和动态分辨率输入,适用于多种场景。

574 12
来自: 多模态  版块
|
10月前
|
人工智能 搜索推荐 开发工具
|

24.7K Star!用 KHOJ 打造你的AI第二大脑,自动整合和更新多源知识,轻松构建个人知识库

KHOJ 是一款开源的个人化 AI 助手,支持多源知识整合、语义搜索、个性化图像生成等功能,帮助用户高效管理知识库。

922 23
来自: 多模态  版块
|
10月前
|
人工智能 数据处理 C#
|

AI Dev Gallery:微软开源 Windows AI 模型本地运行工具包和示例库,助理开发者快速集成 AI 功能

微软推出的AI Dev Gallery,为Windows开发者提供开源AI工具包和示例库,支持本地运行AI模型,提升开发效率。

481 13
来自: 多模态  版块
|
10月前
|
机器学习/深度学习 人工智能 算法
|

FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案

FinRobot 是一个开源的 AI Agent 平台,专注于金融领域的应用,通过大型语言模型(LLMs)构建复杂的金融分析和决策工具,提供市场预测、文档分析和交易策略等多种功能。

967 13
来自: 多模态  版块
|
11月前
|
数据采集 人工智能 自然语言处理
|

FineWeb 2:开源的多语言预训练数据集,覆盖超过 1000 种语言

FineWeb 2 是由 Hugging Face 推出的多语言预训练数据集,覆盖超过 1000 种语言,支持多种 NLP 任务,如机器翻译和文本分类。该数据集通过定制化的数据处理流程,包括语言识别、去重、内容过滤和 PII 匿名化,提升了多语言模型的性能和泛化能力。

595 5
来自: 自然语言处理  版块
|
12月前
|
算法 人机交互 UED
|

响应时间指标的探索

本文探讨了响应时间在人机交互中的重要性及发展。从1968年Rober B.Miller首次定义响应时间的多个维度,到1991年Stuart K.Card等人提出的立即响应时间常数,再到1993年Jakob Nielsen将响应时间划分为三个关键阈值,直至2020年Google提出的RAIL模型,强调了以用户为中心的性能衡量标准。这些研究为提升用户体验提供了理论基础和技术指导。

938 5
|
1月前
|
存储 人工智能 数据中心
|

138_绿色计算:碳排放优化 - 估算部署的碳足迹与LLM环境友好型部署最佳实践

随着大语言模型(LLM)在各个行业的广泛应用,其计算需求和环境影响正日益受到关注。根据最新研究,训练一个大型LLM模型可能产生数百吨二氧化碳当量的排放,这相当于普通家庭几十年的碳足迹。在全球气候变化和可持续发展的背景下,如何优化LLM部署的碳足迹,实现环境友好型AI应用,已成为行业面临的重要挑战。

143 2
|
1月前
|
机器学习/深度学习 监控 安全
|

102_灾难性遗忘:微调过程中的稳定性挑战

在大型语言模型(LLM)的微调过程中,我们常常面临一个关键挑战:当模型学习新领域或任务的知识时,它往往会忘记之前已经掌握的信息和能力。这种现象被称为"灾难性遗忘"(Catastrophic Forgetting),是神经网络学习中的经典问题,在LLM微调场景中尤为突出。

127 1
|
1月前
|
机器学习/深度学习 存储 缓存
|

129_量化技术:INT8与动态量化 - 推导压缩的精度损失公式

在2025年的大语言模型(LLM)时代,随着模型规模的指数级增长,部署这些庞然大物变得越来越具有挑战性。GPT-5和Claude 3等最新模型的参数量已经达到数千亿甚至上万亿,这给计算资源和内存带来了巨大压力。模型量化作为一种有效的压缩技术,正在成为解决这一挑战的关键方案。本文将深入探讨LLM量化技术,特别是INT8和动态量化方法,推导其精度损失公式,并提供2025年最新的优化策略和实现代码。

195 4
|
1月前
|
并行计算 PyTorch 算法框架/工具
|

74_调试技巧:OOM与性能瓶颈

在大型语言模型(LLM)的开发与部署过程中,内存溢出(Out of Memory,简称OOM)错误和性能瓶颈问题是开发者经常面临的两大挑战。随着模型规模的不断扩大(从最初的BERT、GPT-2到现在的GPT-4、Claude 3等千亿甚至万亿参数的模型),这些问题变得更加突出。据2025年最新的开发者调查报告显示,超过78%的LLM开发者在模型训练或推理过程中遇到过OOM错误,而性能瓶颈则影响了约65%的生产环境部署。

125 0
|
2月前
|
API 网络安全
|

调用Dashscope接口时报错

182 1
|
2月前
|
人工智能 物联网 API
|

ModelScope魔搭25年9月发布月报

ModelScope魔搭25年9月发布月报

276 10

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14403
内容
6
活动
3692
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互