切分 + TopK:最容易被一起调坏的一对参数

RAG系统“慢性失效”常源于切分与TopK的错误联动:切分过碎导致语义碎片化,盲目调大TopK则放大噪声与冲突,而非提升效果。二者非独立参数,而是相互放大的风险组合——切分决定知识完整性,TopK决定坏信息进入决策层的数量。

68 1
|
26天前
|
人工智能 分布式计算 算法
|

量子云服务:当量子计算不再关在实验室里

量子云服务:当量子计算不再关在实验室里

114 5
|
26天前
|
数据采集 人工智能 自然语言处理
|

“数据不干净,AI 再聪明也白搭”——聊聊生成式 AI 的数据质量评估与去重那些坑

“数据不干净,AI 再聪明也白搭”——聊聊生成式 AI 的数据质量评估与去重那些坑

92 3
|
26天前
|
自然语言处理
|

混合检索不是折中,而是工程理性

本文深入剖析混合检索的工程本质:它不是技术折中,而是对现实复杂性的理性回应。纯向量缺乏确定性与可解释性,纯关键词难应语义多样性;真正成熟的混合检索,是按问题类型分层分工——用关键词保障稳与准,用向量应对模糊与探索,职责清晰、风险可控、长期可维护。

73 1
|
26天前
|
人工智能 调度
|

当西南传统产业遇上智能体来了时代:一场效率与韧性的深度变革

智能体以“感知-决策-执行”闭环能力,正驱动西南传统产业系统性升级:从川渝汽车制造到云南普洱茶、贵州白酒、重庆火锅等场景,实现动态感知、自主优化与闭环执行,突破经验依赖与规则局限,推动单点优化迈向生态重构。

87 3
|
26天前
|
数据采集 人工智能 自然语言处理
|

在Claude code上的MCP数据爬虫具体怎么实现呀?

73 0
|
26天前
|
存储 SQL 人工智能
|

数据工程实践:智能制造企业如何通过NoETL指标平台为数据资产“瘦身”,实现TCO最优?

将开放性的“写代码”问题,收敛为在已治理的指标库中“做选择”的问题,从根本上 根治幻觉。

66 0
|
26天前
|
人工智能 前端开发 API
|

智能体来了:从0到1:真正的第一步,不是调用API

本文厘清智能体本质:它不是大模型本身,而是以LLM为中枢、具备感知、规划、记忆与工具调用的闭环系统。强调“真正第一步”是构建可失败、可反馈的任务工作流,而非堆砌提示词;主张从垂直场景出发,以业务逻辑为核心,借力平台化工具落地。

90 0
|
26天前
|
人工智能 安全 物联网
|

告别数据泄露:三步构建企业级AI的隐私保护盾

企业微调大模型面临数据不出域与合规强监管的双重挑战。本文详解差分隐私(加噪声)、联邦学习(数据不动模型动)和LoRA(仅调0.1%参数)三重防护技术,覆盖脱敏、训练、部署全链路,并提供可运行代码与ε值选型指南,助你安全打造专属AI。(239字)

156 1
|
26天前
|
机器学习/深度学习 存储 缓存
|

零基础玩转RAG:手把手教你搞定文档切分与大模型微调

本文深入解析RAG中至关重要的文档切分技术,系统对比句子切分、固定长度、重叠窗口、递归切分和语义切分五种策略,结合代码示例与实战技巧(PDF/Markdown/代码处理),并提供量化评估与调优方法,助你夯实RAG基石。(239字)

124 1
|
26天前
|
数据采集 人工智能 JSON
|

给大模型“开小灶”:一文读懂微调原理与实战,让你的AI更懂你

本文深入浅出讲解大模型微调:为何需“开小灶”?详解全量微调、LoRA(装插件)、Prompt Tuning(学咒语)及RLHF等主流方法;手把手演示LoRA三步实践——数据准备、配置训练、测试部署;并提供效果评估与低门槛工具推荐。助力开发者快速打造领域专属AI。(239字)

201 0
|
26天前
|
监控 API
|

金融行情系统中,API 接入常见的 5 个工程问题

本文以黄金、白银等高波动贵金属行情为例,剖析金融系统在API接入层面的五大典型工程问题:数据延迟放大、单点依赖风险、多源维护成本高、异常处理分散、缺乏统一接入层。强调统一、可控、可演进的API设计对系统稳定性与长期演进的关键价值。

114 5
来自: 大数据计算 MaxCompute  版块
|
26天前
|
自然语言处理 数据库 C++
|

为什么有些系统,最后会退回关键词检索

本文破除“退回关键词检索=技术倒退”的误解,指出在系统成熟后,因问题明确化、需可解释性、重规则优先级、TopK失稳或业务被工具反向塑造等原因,主动回归关键词检索实为工程理性选择。它不是否定向量检索,而是回归问题本质——在合适场景选更确定、更可控的方案。

76 6
|
26天前
|
JSON 监控 API
|

关键词搜索淘宝商品列表API指南

本API提供合规、高效的淘宝商品关键词搜索服务,支持价格/销量/店铺类型等多维筛选,实时同步价格与销量(延迟<5分钟),返回含标题、主图、SKU等全字段JSON数据,适配选品、比价、运营等场景。(239字)

94 5
|
26天前
|
SQL 人工智能 自然语言处理
|

数据工程视角:为什么公司会有几百个含义模糊的“DAU”指标?

除了提升开发效率、降低资源成本,更能保障决策一致性、赋能业务敏捷分析,并构成未来 AI 应用不可或缺的 AI-Ready 数据底座

136 1
|
26天前
|
SQL 存储 人工智能
|

数据工程师如何摆脱“写不完的宽表 SQL”?基于 NoETL 语义编织的四步法

数据工程师可以将精力从写不完的宽表 SQL 中解放出来,转向更核心的数据模型设计、业务语义梳理、数据资产治理和性能调优等高价值工作

72 4
|
26天前
|
Web App开发
|

代理ip在浏览器的配置指南

本文分三步详解代理IP配置:①打开浏览器对应设置(Chrome设为“设置”,Firefox为“选项”,Edge为“Internet选项”);②在“局域网设置”中填写代理IP与端口并保存;③百度搜“IP”验证是否生效。附注意事项及稳定IP推荐,操作清晰易上手。

222 3
|
26天前
|
网络架构 索引
|

TeaScript隐式索引与拆分

TeaScript隐式索引与拆分

46 3
|
27天前
|
前端开发 数据库 C++
|

向量数据库项目,什么时候该止损

本文探讨向量数据库项目中常被忽视的关键决策:何时该及时止损。指出许多项目失败并非技术问题,而是因沉没成本心理、误用场景或盲目调优(如TopK膨胀)导致不可控复杂度。提出五大止损信号与实用诊断法,强调“停”是工程成熟的表现——真正负责的是系统稳定性与长期成本,而非工具本身。

92 16
|
27天前
|
数据库
|

向量数据库实战:从建库到第一次翻车

向量数据库首次“建库成功”反而是最危险时刻——表面跑通,实则埋下隐患。真实挑战不在“能否检索”,而在“检出内容能否支撑正确决策”。数据规模扩大、类型变杂后,切分失当、chunk等价化、TopK抖动等问题集中爆发。翻车本质是知识组织问题,而非工具选型问题。

117 10
|
27天前
|
自然语言处理
|

DLM在RAG中的最佳实践

ChatDLM是面向RAG的扩散语言模型,首创将Diffusion范式与MoE架构引入文本生成。通过区块扩散实现线性复杂度长文本处理,结合动态检索-生成协同、多文档深度合成与交互式可控生成,显著突破自回归模型在效率、一致性与可解释性上的瓶颈。

109 7
|
27天前
|
运维 量子技术 芯片
|

一条走“低温暴力美学”,一条玩“光速优雅路线”:聊聊超导量子比特和光子量子比特

一条走“低温暴力美学”,一条玩“光速优雅路线”:聊聊超导量子比特和光子量子比特

73 6
|
27天前
|
SQL 算法 搜索推荐
|

模型复现翻车的第一现场:不是代码,而是你没管好训练数据

模型复现翻车的第一现场:不是代码,而是你没管好训练数据

103 9
|
27天前
|
数据采集 Web App开发 监控
|

【编号2540】闲鱼商品监控与消息自动化工具开发与使用经验分享

闲鱼商品监控工具,闲鱼批量提取商品,闲鱼消息自动发送,闲鱼爬虫工具,闲鱼多线程监控,闲鱼链接批量发消息,闲鱼商品去重提取,闲鱼 Cookie 获取,闲鱼 API 对接,闲鱼新商品提醒,闲鱼商品数据解析,闲鱼定时监控商品,闲鱼自动化发消息,闲鱼二手商品提取

244 3
来自: 智能搜索推荐  版块
|
27天前
|
安全 算法 C++
|

PPO + DPO 能不能一起用?真实工程答案

本文揭秘PPO与DPO工程化协同的真相:二者并非并行叠加,而是“阶段接力”——PPO先做粗调纠偏(强干预、定方向),经冻结评估后,DPO再精细稳态。错序组合易致信号冲突、行为震荡与风险固化。

82 8
|
27天前
|
人工智能 供应链
|

智能体来了:2026,AI 元年开启的新赛道

2026年,AI从“能说会写”的模型跃升为“能想会做”的智能体:目标驱动、自主规划、调用工具、持续修正。它不再仅是工具,更成为现实世界的参与者。人类由此面临根本命题——重定义“参与者”,重构角色、责任与文明边界。(239字)

150 4
|
27天前
|
数据采集 机器学习/深度学习 人工智能
|

让你的AI更“懂你”:零代码实践指令微调

指令微调是让大模型“听懂人话、精准执行”的关键技术——它不追求模型更聪明,而致力于更贴心、更可靠。本文用生活化类比讲清Flan-T5、InstructGPT、Self-Instruct三大流派原理,手把手带零代码新手完成数据准备、模型选择、训练测试全流程,并提供避坑指南与效果评估方法。(239字)

119 9
|
27天前
|
存储 机器学习/深度学习 人工智能
|

文档切分实战:5种方法详解,打造高效RAG系统的第一步

本文深入解析RAG中至关重要的文档切分技术,系统介绍5种主流策略(句子、定长、重叠、递归、语义切分),结合代码示例与实战调优技巧,涵盖PDF/Markdown/代码等多格式处理,并提供质量评估与避坑指南,助你打造高精度、高效率的私有知识库。

197 7
|
27天前
|
数据采集 人工智能 监控
|

AI也能“专业进修”?不用写代码,教你用微调打造行业专属模型

本文深入浅出解析AI微调(Fine-tuning)技术,聚焦如何让通用大模型成长为行业专才。详解LoRA等高效微调原理,对比RAG优劣,提供数据准备、模型选择、在线训练到效果评估的四步实战指南,助力零基础用户低成本打造专属专业AI。(239字)

105 10
|
27天前
|
人工智能 自动驾驶 算法
|

智能体来了!2026 AI 元年:在全新赛道上重构人类生产力边界

2026年被定义为“智能体元年”:AI从“能说”跃升为“能干”,实现自主决策、跨系统协作与具身执行。产业迎来智能体市场、数字劳动力网络和可信治理三大爆发点,人类角色转向目标设定与智能体调度。技术终指向人的升华。(239字)

193 3
|
27天前
|
机器学习/深度学习 供应链 监控
|

淘宝图片搜索API(taobao.item_search_img)

淘宝图片搜索API是阿里基于深度学习的视觉检索服务,支持以图搜同款/相似商品,毫秒级响应、高准确率。提供商品、交易、店铺等结构化数据,适配选品、同款监控、智能上架等场景,合规高效,助力电商数字化升级。(239字)

204 7
|
27天前
|
缓存 搜索推荐 算法
|

RAG 的上限不在模型,而在你怎么切文档

RAG失效常因切分不当:碎片化chunk导致信息割裂、语义丢失。本文直击核心——切分不是预处理,而是知识工程:需结构感知、保留标题/表格/步骤完整性,以“可独立阅读、可直接引用”为黄金标准,避免“检索准、答案错”。

92 1
|
27天前
|
缓存 网络协议 安全
|

若无 DNS 与代理 IP,我们的上网体验会崩塌吗?

DNS是互联网“快递员”,负责将域名精准解析为IP地址;代理IP则是“神秘信使”,隐匿真实身份、中转请求,保障隐私与访问自由。二者协同如接力赛:DNS先定位代理,代理再查目标IP,共同构建高效、安全、灵活的网络访问通路。

150 3
|
28天前
|
机器学习/深度学习 搜索推荐 算法
|

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

100 0
|
28天前
|
机器学习/深度学习 存储 自然语言处理
|

量子模拟:我们正在用“不确定性”,重新理解这个确定的世界

量子模拟:我们正在用“不确定性”,重新理解这个确定的世界

70 0
|
28天前
|
存储 人工智能 安全
|

重构认知——AI智能体来了从0到1的落地工程全指南

本文系统阐述AI智能体开发方法论:突破“调参”思维,以感知、决策、执行、记忆四大架构为基,提出从场景锁定到评估优化的“五步跃迁法”,助力开发者构建具备行业深度与自主行动力的数字生命。(239字)

159 0
|
28天前
|
机器学习/深度学习 安全 算法
|

为什么很多团队从 PPO 转向 DPO,却又离不开 PPO

PPO与DPO并非新旧替代关系,而是分属对齐不同阶段的工具:PPO用于行为“塑形”(强干预、纠偏乱序),DPO用于偏好“定型”(稳定微调、精细排序)。选型关键看模型是否已基本可控——乱则用PPO,稳则用DPO。

77 1
|
28天前
|
安全 算法 C++
|

PPO 真正的应用场景,和你想的可能不一样

PPO并非“万能增强器”,而是精准解决模型“行为偏好错位”的工具:当模型“会但总选错”(如安全拒答生硬、风格不稳、高风险下过度自信)时,PPO通过人类偏好反馈重塑其选择倾向;若问题本质是“不会”,则PPO无效甚至有害。用对场景,事半功倍。

117 1

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69105
内容
128
活动
439697
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务