|
10月前
|
人工智能 计算机视觉
|

漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图

MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。

841 20
来自: 计算机视觉  版块
|
10月前
|
机器学习/深度学习 人工智能 搜索推荐
|

AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式

AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。

1089 16
来自: 多模态  版块
|
11月前
|
人工智能 自然语言处理 搜索推荐
|

WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

1134 5
|
11月前
|
人工智能 编解码 自动驾驶
|

RF-DETR:YOLO霸主地位不保?开源 SOTA 实时目标检测模型,比眨眼还快3倍!

RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型,结合Transformer架构与DINOv2主干网络,支持多分辨率灵活切换,为安防、自动驾驶等场景提供高精度实时检测方案。

2477 6
来自: 计算机视觉  版块
|
11月前
|
人工智能 物联网 UED
|

Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动

Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。

790 13
来自: 语音  版块
|
11月前
|
人工智能 自然语言处理 算法
|

HippoRAG 2:开源RAG框架革新知识检索,多跳推理+持续学习全搞定

HippoRAG 2 是俄亥俄州立大学推出的检索增强生成框架,通过个性化PageRank算法和知识图谱技术,显著提升了RAG系统在复杂问答任务中的表现。

1591 2
来自: 自然语言处理  版块
|
11月前
|
人工智能 编解码 算法
|

VideoFusion:开源视频处理神器!一键去黑边水印,AI提升画质+批量剪辑全搞定

VideoFusion 是一款开源的AI视频剪辑工具,支持自动去除视频黑边、水印和字幕,提供批量处理、画质提升等功能,适合视频创作者和自媒体运营者使用。

1466 3
|
14天前
|
存储 数据采集 安全
|

微调与安全隐私 —— 大模型落地的合规必修课

本文聚焦大模型微调中的安全与隐私合规风险,系统剖析数据集、训练、输出三大环节的典型隐患(如敏感信息泄露、版权侵权、模型反演等),提出“脱敏+加密+过滤”全流程防护方案,并推荐合规认证平台与实操工具,助力企业实现技术落地与法律合规双保障。(239字)

104 9
|
17天前
|
人工智能 安全 前端开发
|

D2大会 界面即推理:解读 Google A2UI 如何探索 Agent 交互新标准

Google A2UI开源项目,以声明式JSON协议让AI按需生成安全、跨平台的动态界面,破解Agent交互“最后一公里”难题。D2大会将揭秘其设计哲学、多智能体UI协作及开源路线图。

133 4
|
1月前
|
人工智能 安全 搜索推荐
|

你的错题本里藏着金矿,但你却只把它当成了回收站——用AI给大脑做一次深度Debug

把学习比作软件开发,错题就是Bug。大多数人只改答案(打补丁),却忽略了底层的逻辑漏洞。本文分享一套"错题分析AI指令",利用Root Cause Analysis(根因分析)思维,帮助你用AI深度Debug大脑,将每一个错误转化为认知的核心资产。

175 2
|
2月前
|
存储 编译器 开发工具
|

C 语言项目实战入门:从 0 到 1 搭建简易学生信息管理系统

本文以“简易学生信息管理系统”为例,系统讲解C语言项目开发全流程,涵盖需求分析、数据结构设计、模块化编码、文件操作与调试优化,帮助初学者掌握结构体、指针、动态内存管理等核心技能,实现学生信息的增删改查与持久化存储,夯实C语言实战基础。

176 0
|
2月前
|
存储 算法 安全
|

C 语言初学者常见 10 大误区与避坑指南

本文总结C语言初学者常见的10类错误,涵盖语法、内存管理、指针、字符串等方面,结合案例分析成因,提供实用解决方案,帮助新手建立正确编程思维,提升学习效率,夯实基础,少走弯路,顺利迈向嵌入式与底层开发。

136 0
|
3月前
|
人工智能 自然语言处理 搜索推荐
|

贝聿铭的 “数字续作”:蚂蚁百宝箱 × 苏州博物馆,用 AI 重构文化地标

苏州博物馆携手蚂蚁百宝箱推出AI助手“小苏苏”,集成展讯、导览、文创推荐等功能,打造“咨询—导览—消费”闭环,以智能服务提升参观体验,助力文博场馆数字化升级。

330 3
来自: 自然语言处理  版块
|
3月前
|
数据采集 人工智能 自然语言处理
|

Meta SAM3开源:让图像分割,听懂你的话

Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。

2026 6
|
4月前
|
人工智能 Unix API
|

50_选择模型:开源vs闭源

在大型语言模型(LLM)技术快速发展的今天,企业和开发者面临着一个关键决策:是选择开源LLM模型还是闭源LLM服务?这个选择直接影响到项目的成本结构、开发灵活性、数据安全性以及长期战略规划。随着2025年LLM技术的进一步成熟,开源与闭源模型之间的竞争格局也发生了显著变化。

666 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|

88_多模态提示:图像与文本融合

在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。

721 0
|
4月前
|
人工智能 缓存 自然语言处理
|

86_自动化提示:AutoPrompt工具

在当今人工智能领域,提示工程(Prompt Engineering)已成为释放大语言模型(LLM)潜能的关键技术。随着LLM规模和能力的不断增长,如何设计高效、精确的提示词成为研究和应用的焦点。然而,传统的手工提示工程面临着巨大挑战

389 0
|
7月前
|
人工智能 自然语言处理 资源调度
|

魔搭社区模型速递(7.20-7.26)

魔搭ModelScope本期社区进展:1698个模型,216个数据集,103个创新应用, 7 篇内容

466 0
|
10月前
|
自然语言处理 测试技术 Serverless
|

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

2597 22
|
10月前
|
数据采集 人工智能 数据处理
|

覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集

SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集,包含202位75岁及以上老年人的55.53小时语音数据,涵盖16个省市的不同地域口音。

1310 5
来自: 语音  版块
|
10月前
|
人工智能 并行计算 测试技术
|

从商业海报到二次元插画多风格通吃!HiDream-I1:智象未来开源文生图模型,17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型,采用扩散模型技术和混合专家架构,在图像质量、提示词遵循能力等方面表现优异,支持多种风格生成。

995 2
来自: 多模态  版块
|
10月前
|
人工智能 自然语言处理 API
|

AutoAgent:无需编程!接入DeepSeek用自然语言创建和部署AI智能体!港大开源框架让AI智能体开发变成填空题

香港大学推出的AutoAgent框架通过自然语言交互实现零代码创建AI智能体,支持多模型接入与自动化工作流编排,在GAIA基准测试中表现优异。

1425 16
来自: 自然语言处理  版块
|
11月前
|
存储 人工智能 文字识别
|

pdf-craft:PDF秒转Markdown/EPUB!接入DeepSeek轻松生成电子书,自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具,能精准提取正文内容并转换为Markdown/EPUB格式,通过AI算法解决跨页连贯性问题,是学术研究和电子书制作的利器。

2209 10
来自: 自然语言处理  版块
|
11月前
|
人工智能 网络协议 Java
|

RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块

RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。

2313 77
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 文字识别
|

解读 | 金融长上下文基准测试FailSafeQA:解锁金融领域LLM真实的审慎性和容错性

近年来,大型语言模型(LLMs)在金融领域的应用如火如荼,从风险分析到客户服务,它们正逐步改变行业的游戏规则。然而,这些模型是否真的足够“靠谱”?面对复杂的金融数据和多变的用户输入,它们还能保持精准和稳健吗?

304 8
|
11月前
|
存储 人工智能 固态存储
|

DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统

3FS是DeepSeek开源的高性能分布式文件系统,专为AI训练和推理任务设计,提供高达6.6 TiB/s的读取吞吐量,支持强一致性保障和通用文件接口,优化AI工作负载。

1634 2
来自: 科学计算  版块
|
2月前
|
缓存 前端开发 API
|

Python 开发进阶:从初级到全栈工程师的能力提升路径

本文系统梳理了Python开发者从初级到全栈的进阶路径:突破脚本思维,掌握框架原理、性能优化与工程化实践;通过分阶段技能升级与真实项目演练,逐步构建全链路开发能力,实现从“会写代码”到“独立交付完整系统”的跨越。

143 0
|
2月前
|
存储 Linux 编译器
|

C 语言学习资源精选:从入门到精通的高效资源清单

本文为C语言学习者提供从入门到精通的完整资源指南,涵盖各阶段的优质视频、书籍、博客、项目及工具,助你高效掌握C语言核心技能,轻松进阶嵌入式与底层开发。

105 0
|
4月前
|
数据采集 存储 自然语言处理
|

113_数据收集:Common Crawl过滤与高质量LLM训练数据构建

在大型语言模型(LLM)的训练过程中,数据质量直接决定了模型的性能上限。即使拥有最先进的模型架构和训练算法,如果没有高质量的训练数据,也难以训练出优秀的语言模型。Common Crawl作为目前互联网上最大的公开网络爬虫数据集之一,为LLM训练提供了宝贵的资源。然而,从原始的Common Crawl数据中提取高质量的训练素材并非易事,需要经过严格的过滤和清洗。本文将全面探讨Common Crawl数据集的特性、过滤策略的设计原则、以及2025年最新的过滤技术,为构建高质量的LLM训练语料提供系统指导。

658 0
|
4月前
|
存储 机器学习/深度学习 数据采集
|

101_参数高效微调_QLoRA技术深度解析与实践

在大型语言模型(LLM)时代,高效微调成为降低大模型应用门槛的关键技术。随着模型规模的不断扩大,传统的全参数微调方法面临着巨大的计算资源消耗和内存需求挑战。QLoRA(Quantized Low-Rank Adaptation)作为一种创新的参数高效微调技术,以其独特的量化+低秩适应双重策略,成功地在大幅降低资源消耗的同时保持了接近全精度微调的性能。本文将深入剖析QLoRA的技术原理、实现细节、性能特点,并提供丰富的实践案例,帮助读者全面掌握这一2025年仍然广泛应用的高效微调方法。

603 1
|
4月前
|
存储 机器学习/深度学习 人工智能
|

46_LLM幻觉问题:来源与早期研究_深度解析

大型语言模型(LLM)在自然语言处理领域展现出了令人惊叹的能力,能够生成连贯的文本、回答复杂问题、进行创意写作,甚至在某些专业领域提供见解。然而,这些强大模型的一个根本性缺陷——幻觉问题,正成为限制其在关键应用中广泛部署的主要障碍。幻觉(Hallucination)指的是LLM生成的内容与事实不符、上下文矛盾、逻辑错误,或者完全虚构信息的现象。

568 0
|
4月前
|
存储 数据采集 自然语言处理
|

56_大模型微调:全参数与参数高效方法对比

随着大型语言模型(LLM)规模的不断增长,从数百亿到数千亿参数,传统的全参数微调方法面临着计算资源消耗巨大、训练效率低下等挑战。2025年,大模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法,以及多种技术融合的复杂策略。本文将深入对比全参数微调和参数高效微调的技术原理、适用场景、性能表现和工程实践,为研究者和工程师提供全面的技术参考。

846 0
|
4月前
|
canal 人工智能 缓存
|

82_Chain-of-Thought:推理步骤拆解

在大语言模型(LLM)的发展历程中,推理能力一直是衡量模型智能水平的关键指标。尽管模型规模的扩大带来了知识覆盖和语言理解能力的显著提升,但在解决复杂推理问题时,单纯增加参数数量并不总能带来预期的性能提升。2022年,Jason Wei等人提出了一项革命性技术——Chain-of-Thought提示(CoT),这项技术通过引导模型生成中间推理步骤,显著增强了LLM在多步推理任务上的表现。

560 0
|
4月前
|
存储 边缘计算 人工智能
|

79_边缘设备环境:Raspberry Pi搭建

在当今人工智能快速发展的时代,大语言模型(LLM)已经成为自然语言处理领域的核心技术。然而,传统的LLM部署通常需要强大的服务器资源,这限制了其在资源受限环境中的应用。随着边缘计算的兴起,在轻量级设备上部署和运行LLM成为了新的技术趋势。树莓派(Raspberry Pi)作为一款广泛使用的单板计算机,凭借其小巧的体积、低功耗特性和不断提升的计算能力,成为了边缘部署LLM的理想选择。

691 0
|
5月前
|
API 网络安全
|

调用Dashscope接口时报错

461 1
|
5月前
|
人工智能 安全 Devops
|

AI 驱动的 DevOps:通过智能命令执行实现基础设施自动化

本文探讨了如何利用能够根据自然语言提示执行命令、管理基础设施和自动部署的 AI 技术,来革新 DevOps 流程。通过模型上下文协议(MCP),AI 助手不仅能回答问题,还能直接操作终端、编辑文件并管理开发环境,从而简化复杂的 DevOps 任务,提高效率并降低错误率。

496 3
|
5月前
|
人工智能 并行计算 语音技术
|

魔搭社区模型速递(8.23-8.30)

🙋魔搭ModelScope本期社区进展:📟4924个模型,📁357个数据集,🎨99个创新应用,📄 9篇内容:

562 3
|
6月前
|
测试技术 Swift 开发者
|

可调节推理预算,字节Seed团队开源大型语言模型 Seed-OSS 系列!

字节跳动 Seed 团队正式发布了 Seed-OSS 系列开源大型语言模型,提供强大的长上下文、推理、代理和通用功能,以及对开发者友好的多功能特性。

709 9
|
7月前
|
自然语言处理 API 开发者
|

腾讯混元开源首款混合推理MoE模型Hunyuan-A13B,性能优异,激活参数仅13B

6月27日,腾讯混元宣布开源混元-A13B模型,总参数800亿,激活参数仅130亿,在效果比肩顶尖开源模型的同时,大幅降低推理延迟与计算开销。这意味着,开发者可以用更低门槛的方式获得更好的模型能力。

514 1
|
8月前
|
机器学习/深度学习 算法 API
|

MiniMax-M1开源:支持百万级上下文窗口的混合MoE推理模型!

MiniMax最新发布了全球首个开源大规模混合架构的推理模型——MiniMax-M1!

561 0
|
9月前
|
人工智能 自然语言处理 搜索推荐
|

魔搭社区模型速递(4.27-5.10)

🙋魔搭ModelScope本期社区进展:📟2341个模型,206个数据集,🎨224个创新应用,📄 15篇内容

651 20
|
10月前
|
人工智能 自然语言处理 监控
|

Cooragent:清华 LeapLab 开源 AI Agent 协作框架,一句话召唤AI军团!

Cooragent 是清华大学 LeapLab 团队推出的开源 AI Agent 协作框架,支持基于简单描述快速创建 Agent 并实现多 Agent 协作,具备 Prompt-Free 设计和本地部署能力。

1130 6
来自: 自然语言处理  版块
|
10月前
|
人工智能 JSON 自然语言处理
|

让AI听懂你的建模需求!BlenderMCP:自然语言指令直接操控 Blender,一句话生成复杂3D场景

BlenderMCP通过MCP协议实现Blender与Claude AI的无缝集成,支持通过自然语言指令完成3D建模、材质调整等复杂操作,显著提升创作效率。

1257 1
来自: 自然语言处理  版块
|
10月前
|
人工智能 算法 API
|

多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!

上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。

1501 6
来自: 多模态  版块
|
10月前
|
数据采集 人工智能 自然语言处理
|

AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言

ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。

1109 20
来自: 语音  版块
|
11月前
|
人工智能 自然语言处理 算法
|

MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。

855 18
来自: 科学计算  版块
|
11月前
|
机器学习/深度学习 数据格式
|

R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见

随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。

779 12
|
11月前
|
人工智能 自然语言处理 PyTorch
|

Chat2SVG – 文本描述实现高质量矢量图形的生成框架

Chat2SVG 是一个创新的文本到矢量图形生成框架,结合大型语言模型和图像扩散模型,通过多阶段流程生成高质量的 SVG 图形,支持自然语言指令编辑,适用于设计、教育和艺术创作等领域。

624 8
来自: 自然语言处理  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉答疑群:44837352

0
今日
15094
内容
6
活动
3976
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互