|
人工智能 算法 云栖大会
|
置顶

开启云上 AIGC 动手实践,探索技术创意

面向 GenAI 时代,阿里云人工智能平台 PAI 平台自带海量开箱即用、实时更新的大模型最佳实践,提供高性能、高稳定的大模型工程化能力。本电子书精选 2024 云栖大会动手实践教程,覆盖大语言模型应用、多模态大模型微调训练、低代码 AIGC 创意设计等热门领域,为您带来 AIGC 开发全新体验。

941
来自: 人工智能平台PAI  版块
|
10小时前
|
C++
|

从“能跑通微调”到“敢上线模型”,中间差了什么

本文揭示微调项目常卡在“能跑通却不敢上线”的困境,指出从训练成功到真实交付之间存在六道关键鸿沟:行为不确定性、极端风险、系统视角缺失、失控预案空白、用户视角缺位与模型冻结勇气不足。上线靠的不是模型多好,而是你是否已将不确定性关进笼子。

17 0
|
10小时前
|
C++
|

有些问题,调一百次参数也解决不了

本文揭示微调中一个关键认知:参数仅能优化模型内部行为,无法解决数据偏差、评估错位、系统约束缺失、RAG证据结构错误、不可解释性及拒绝能力缺失等六类根本问题。盲目调参实为逃避系统设计责任——真正的工程成熟,在于果断识别并止步于参数的边界。

21 0
|
11小时前
|
人工智能 自然语言处理 搜索推荐
|

RAG不只是问答!看完这些应用案例,才发现它的潜力这么大

RAG(检索增强生成)技术正赋能企业知识管理、智能客服、辅助决策、内容创作与教育培训等多元场景,通过语义检索+精准生成,提升信息获取效率与AI实用性,助力零代码构建专属智能系统。

28 2
|
11小时前
|
物联网 C++
|

不是调不动了,而是该停了:微调止损时刻

本文揭示微调项目失败的真相:非“调不好”,而是“停太晚”。当参数调整不再提升核心能力,仅改变错误形式、降低可复现性、掩盖风险时,即应果断停止。提出六大停调信号与实用判断流程,强调“敢于放手”才是工程成熟的关键。

23 1
|
14小时前
|
人工智能 自然语言处理 安全
|

Gemini:2026年最强AI模型之一,如何在实际应用中挑战GPT与Claude的地位?

2026年,大模型竞争正从“谁更强”转向“谁更稳、更适配工程”。Gemini凭借推理结构一致性、长上下文稳定性及多模型协同友好性,成为生产系统关键选项,推动AI架构向“可调度的模型能力”演进。

32 1
来自: 人工智能平台PAI  版块
|
18小时前
|
安全 物联网 测试技术
|

为什么 loss 看起来很好,模型却更危险了

本文揭示大模型微调中一个关键陷阱:loss持续下降≠模型更安全。相反,当loss“好看”时,模型可能因过度拟合训练数据中的偏差、模板或错误表达而变得更危险——回答更笃定、拒答率下降、边界问题越界更隐蔽。根本原因在于:loss衡量的是“复现训练文本”的能力,而非“行为是否可靠/合规”。工程上应转向以事实正确率、拒答率、自信度、越界率等为核心的行为评估体系,将loss仅作为训练健康度的辅助信号。

28 1
|
18小时前
|
数据采集 人工智能 监控
|

天猫商品详情API全解析

天猫商品详情API是淘宝开放平台提供的官方接口,合规、高效获取天猫商品全量结构化数据(价格、销量、规格等),支持精准筛选与实时同步,助力选品决策、竞品分析与智能运营,规避爬虫风险。(239字)

28 1
|
21小时前
|
人工智能 JSON 自然语言处理
|

智能体来了从 0 到 1:工作流在智能体系统中的真实作用

本文探讨生成式AI落地关键:工作流(Workflow)是智能体从模型能力迈向工程能力的核心。它通过结构化拆解任务、编排逻辑、调度工具、拦截风险,为大模型注入确定性与可控性,成为生产级智能体的基石。

39 7
|
1天前
|
SQL 人工智能 安全
|

手把手教你调出“懂你”的AI:大模型微调实战与资源管理

本文深入浅出讲解大模型微调核心知识:用生活化比喻解析学习率、训练轮数、批量大小、截断长度和LoRA秩五大关键参数;提供适配不同显存的实操配置表;分享Liger Kernel、DeepSpeed等省显存技巧;并强调定量、定性与效率三维评估。零基础也能快速上手定制专属AI。

40 9
|
1天前
|
存储 人工智能 关系型数据库
|

传统数据库与向量数据库:一个管“是什么”,一个管“像什么”

向量数据库是AI时代的语义检索引擎,将文本、图片等非结构化数据转化为“语义向量”,支持基于相似性的毫秒级搜索。它不替代MySQL等传统数据库,而是作为大模型的“海马体”,赋能RAG、智能问答与多模态应用,实现从“关键词匹配”到“理解含义”的跃迁。(239字)

32 7
|
1天前
|
机器学习/深度学习 算法 安全
|

大模型微调参数设置:你调的不是效果,是不确定性

本文揭示大模型微调中参数的本质:它们并非提升性能的“旋钮”,而是分配不确定性的“阀门”。learning rate 决定行为漂移半径,batch size 影响共识强度,epoch 加速偏差固化,正则项约束激进程度。参数间存在风险耦合,调参实为风险管理——目标不是最优指标,而是可控的系统行为。

43 10
|
1天前
|
数据采集 人工智能 安全
|

2026AI元年:AI 落地范式转移:已被反复验证的产业级实践共识

本文探讨AI从技术竞赛迈向产业落地的关键转型:2026年成规模化应用分水岭。强调落地核心不在模型参数,而在数据治理、工作流重构、RAG工程化、推理可控性、人类协同机制及四大落地准则——场景对齐、知识解耦、架构弹性、迭代闭环。

43 0
|
1天前
|
C++
|

证据不足 vs 证据冲突:哪个对模型更致命

本文揭示RAG系统中模型“胡说”的真相:问题常非幻觉(hallucination),而是**证据冲突**所致——当上下文混入矛盾信息,模型被迫自信编造答案;而证据不足反而易显犹豫、可控。工程上,宁可精简上下文、主动拒答,也不纵容冲突输入。

28 1
|
1天前
|
机器学习/深度学习 SQL 数据挖掘
|

Pandas 入门指南

Pandas是Python最核心的数据分析库,基于NumPy构建,提供高效、直观的结构化数据处理能力。其核心数据结构DataFrame(二维表格)和Series(一维序列)支持混合类型、自动索引对齐、缺失值处理与向量化运算,轻松完成清洗、筛选、分组、聚合等任务,是数据获取、分析到建模准备的全流程基石。(239字)

38 5
|
1天前
|
安全
|

为什么 TopK 越大,模型反而越爱胡说

本文揭示RAG中TopK参数的致命误区:增大TopK并非提升召回,而是扩大模型决策空间,导致证据冲突加剧、关键信息稀释、模型被迫“自圆其说”。实证表明,TopK=3–5才是稳定安全区间;盲目调大只会用不确定性换表面流畅,本质是为切分、检索等深层问题背锅。

22 0

切分 + TopK:最容易被一起调坏的一对参数

RAG系统“慢性失效”常源于切分与TopK的错误联动:切分过碎导致语义碎片化,盲目调大TopK则放大噪声与冲突,而非提升效果。二者非独立参数,而是相互放大的风险组合——切分决定知识完整性,TopK决定坏信息进入决策层的数量。

25 1
|
2天前
|
人工智能 分布式计算 算法
|

量子云服务:当量子计算不再关在实验室里

量子云服务:当量子计算不再关在实验室里

41 5
|
2天前
|
数据采集 人工智能 自然语言处理
|

“数据不干净,AI 再聪明也白搭”——聊聊生成式 AI 的数据质量评估与去重那些坑

“数据不干净,AI 再聪明也白搭”——聊聊生成式 AI 的数据质量评估与去重那些坑

33 3
|
2天前
|
自然语言处理
|

混合检索不是折中,而是工程理性

本文深入剖析混合检索的工程本质:它不是技术折中,而是对现实复杂性的理性回应。纯向量缺乏确定性与可解释性,纯关键词难应语义多样性;真正成熟的混合检索,是按问题类型分层分工——用关键词保障稳与准,用向量应对模糊与探索,职责清晰、风险可控、长期可维护。

33 1
|
2天前
|
人工智能 调度
|

当西南传统产业遇上智能体来了时代:一场效率与韧性的深度变革

智能体以“感知-决策-执行”闭环能力,正驱动西南传统产业系统性升级:从川渝汽车制造到云南普洱茶、贵州白酒、重庆火锅等场景,实现动态感知、自主优化与闭环执行,突破经验依赖与规则局限,推动单点优化迈向生态重构。

33 3
|
2天前
|
数据采集 人工智能 自然语言处理
|

在Claude code上的MCP数据爬虫具体怎么实现呀?

36 0
|
2天前
|
存储 消息中间件 监控
|

Fluss在阿里双11万亿规模场景下的落地实践

阿里采集分析平台负责人吴宝国在Flink Forward Asia 2025深圳站分享Fluss大规模落地实践:以列式流存储替代传统消息队列,解决成本高、湖流割裂痛点;支撑双11 4PB/天、1亿TPS;实现多级分区、过滤下推、湖流一体,助力淘天、饿了么等业务降本增效。

33 0
来自: 实时计算 Flink  版块
|
2天前
|
存储 SQL 人工智能
|

数据工程实践:智能制造企业如何通过NoETL指标平台为数据资产“瘦身”,实现TCO最优?

将开放性的“写代码”问题,收敛为在已治理的指标库中“做选择”的问题,从根本上 根治幻觉。

34 0
|
2天前
|
人工智能 前端开发 API
|

智能体来了:从0到1:真正的第一步,不是调用API

本文厘清智能体本质:它不是大模型本身,而是以LLM为中枢、具备感知、规划、记忆与工具调用的闭环系统。强调“真正第一步”是构建可失败、可反馈的任务工作流,而非堆砌提示词;主张从垂直场景出发,以业务逻辑为核心,借力平台化工具落地。

44 0
|
2天前
|
人工智能 安全 物联网
|

告别数据泄露:三步构建企业级AI的隐私保护盾

企业微调大模型面临数据不出域与合规强监管的双重挑战。本文详解差分隐私(加噪声)、联邦学习(数据不动模型动)和LoRA(仅调0.1%参数)三重防护技术,覆盖脱敏、训练、部署全链路,并提供可运行代码与ε值选型指南,助你安全打造专属AI。(239字)

47 1
|
2天前
|
机器学习/深度学习 存储 缓存
|

零基础玩转RAG:手把手教你搞定文档切分与大模型微调

本文深入解析RAG中至关重要的文档切分技术,系统对比句子切分、固定长度、重叠窗口、递归切分和语义切分五种策略,结合代码示例与实战技巧(PDF/Markdown/代码处理),并提供量化评估与调优方法,助你夯实RAG基石。(239字)

48 1
|
2天前
|
数据采集 人工智能 JSON
|

给大模型“开小灶”:一文读懂微调原理与实战,让你的AI更懂你

本文深入浅出讲解大模型微调:为何需“开小灶”?详解全量微调、LoRA(装插件)、Prompt Tuning(学咒语)及RLHF等主流方法;手把手演示LoRA三步实践——数据准备、配置训练、测试部署;并提供效果评估与低门槛工具推荐。助力开发者快速打造领域专属AI。(239字)

63 0
|
2天前
|
监控 API
|

金融行情系统中,API 接入常见的 5 个工程问题

本文以黄金、白银等高波动贵金属行情为例,剖析金融系统在API接入层面的五大典型工程问题:数据延迟放大、单点依赖风险、多源维护成本高、异常处理分散、缺乏统一接入层。强调统一、可控、可演进的API设计对系统稳定性与长期演进的关键价值。

43 5
来自: 大数据计算 MaxCompute  版块
|
2天前
|
自然语言处理 数据库 C++
|

为什么有些系统,最后会退回关键词检索

本文破除“退回关键词检索=技术倒退”的误解,指出在系统成熟后,因问题明确化、需可解释性、重规则优先级、TopK失稳或业务被工具反向塑造等原因,主动回归关键词检索实为工程理性选择。它不是否定向量检索,而是回归问题本质——在合适场景选更确定、更可控的方案。

37 6
|
2天前
|
JSON 监控 API
|

关键词搜索淘宝商品列表API指南

本API提供合规、高效的淘宝商品关键词搜索服务,支持价格/销量/店铺类型等多维筛选,实时同步价格与销量(延迟<5分钟),返回含标题、主图、SKU等全字段JSON数据,适配选品、比价、运营等场景。(239字)

43 5
|
2天前
|
SQL 人工智能 自然语言处理
|

数据工程视角:为什么公司会有几百个含义模糊的“DAU”指标?

除了提升开发效率、降低资源成本,更能保障决策一致性、赋能业务敏捷分析,并构成未来 AI 应用不可或缺的 AI-Ready 数据底座

30 1
|
2天前
|
SQL 存储 人工智能
|

数据工程师如何摆脱“写不完的宽表 SQL”?基于 NoETL 语义编织的四步法

数据工程师可以将精力从写不完的宽表 SQL 中解放出来,转向更核心的数据模型设计、业务语义梳理、数据资产治理和性能调优等高价值工作

33 4
|
2天前
|
Web App开发
|

代理ip在浏览器的配置指南

本文分三步详解代理IP配置:①打开浏览器对应设置(Chrome设为“设置”,Firefox为“选项”,Edge为“Internet选项”);②在“局域网设置”中填写代理IP与端口并保存;③百度搜“IP”验证是否生效。附注意事项及稳定IP推荐,操作清晰易上手。

53 3
|
2天前
|
网络架构 索引
|

TeaScript隐式索引与拆分

TeaScript隐式索引与拆分

28 3
|
3天前
|
前端开发 数据库 C++
|

向量数据库项目,什么时候该止损

本文探讨向量数据库项目中常被忽视的关键决策:何时该及时止损。指出许多项目失败并非技术问题,而是因沉没成本心理、误用场景或盲目调优(如TopK膨胀)导致不可控复杂度。提出五大止损信号与实用诊断法,强调“停”是工程成熟的表现——真正负责的是系统稳定性与长期成本,而非工具本身。

52 16
|
3天前
|
数据库
|

向量数据库实战:从建库到第一次翻车

向量数据库首次“建库成功”反而是最危险时刻——表面跑通,实则埋下隐患。真实挑战不在“能否检索”,而在“检出内容能否支撑正确决策”。数据规模扩大、类型变杂后,切分失当、chunk等价化、TopK抖动等问题集中爆发。翻车本质是知识组织问题,而非工具选型问题。

62 10
|
3天前
|
自然语言处理
|

DLM在RAG中的最佳实践

ChatDLM是面向RAG的扩散语言模型,首创将Diffusion范式与MoE架构引入文本生成。通过区块扩散实现线性复杂度长文本处理,结合动态检索-生成协同、多文档深度合成与交互式可控生成,显著突破自回归模型在效率、一致性与可解释性上的瓶颈。

55 7
|
3天前
|
运维 量子技术 芯片
|

一条走“低温暴力美学”,一条玩“光速优雅路线”:聊聊超导量子比特和光子量子比特

一条走“低温暴力美学”,一条玩“光速优雅路线”:聊聊超导量子比特和光子量子比特

42 6
|
3天前
|
SQL 算法 搜索推荐
|

模型复现翻车的第一现场:不是代码,而是你没管好训练数据

模型复现翻车的第一现场:不是代码,而是你没管好训练数据

55 9
|
3天前
|
数据采集 Web App开发 监控
|

【编号2540】闲鱼商品监控与消息自动化工具开发与使用经验分享

闲鱼商品监控工具,闲鱼批量提取商品,闲鱼消息自动发送,闲鱼爬虫工具,闲鱼多线程监控,闲鱼链接批量发消息,闲鱼商品去重提取,闲鱼 Cookie 获取,闲鱼 API 对接,闲鱼新商品提醒,闲鱼商品数据解析,闲鱼定时监控商品,闲鱼自动化发消息,闲鱼二手商品提取

66 3
来自: 智能搜索推荐  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
68928
内容
128
活动
439666
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务