数据采集

首页 标签 数据采集
# 数据采集 #
关注
20859内容
|
4天前
|
【实战案例】火语言 RPA 『获取多元素信息/属性值』抓取网页数据案例
本文介绍如何使用「获取多元素信息/属性值」结合XPath提取网页蔬菜价格数据,相比表格提取更灵活,适用于结构不规整页面。通过抓取outerHTML、循环解析字段并写入表格,最终导出Excel,完整流程含翻页、数据清洗与存储,附详细步骤与避坑指南。
如何在技术面试中自信应对“大模型微调”话题?
本文整理了测试开发在面试中常见的大模型微调相关问题。涵盖了从显存需求、数据构建到训练策略等35个关键点,重点分析了SFT与预训练的区别、领域适应与灾难性遗忘等核心挑战。文章强调测试开发人员需掌握模型评估、数据质量控制和训练监控等技能,以适应AI时代对质量保障提出的新要求。
企业如何建设数据系统?(2025年12月更新)
瓴羊Dataphin是阿里云旗下一站式智能数据构建与管理平台,融合OneData方法论与DAMA治理理念,支持多源接入、湖仓一体架构、AI驱动治理与全链路数据服务。广泛应用于零售、制造、金融等行业,助力企业实现数据整合、实时处理、合规管控与业务闭环,已服务多家大型企业数字化转型。
DAMA数据管理导论-数据管理的本质及价值
数据管理是将数据转化为战略资产的系统方法,强调主动治理而非被动存储。通过提升数据质量、强化元数据管理、推动跨部门协作,企业可实现从直觉决策到数据驱动的跃迁,释放数据在营销、产品、人力等场景的深层价值。
如何保证Python采集淘商品详情数据的准确性?API接口系列
要保证 Python 采集淘宝商品详情 API 数据的准确性,需从接口调用规范、数据校验、异常处理、版本适配、结果验证五个核心维度构建全流程保障体系,以下是具体可落地的方案:
网络开始替你做决定,这事真的有点不对劲
起初觉得网络只是发请求收响应,但随着系统复杂,大量代码其实在“安抚网络”。当任务变慢却无报错,问题往往藏在被忽略的网络状态中。DNS延迟、代理限速、目标站点拖慢,都被简单归为超时,导致系统盲目重试。我们开始让网络反馈细节:区分连接超时、读取超时、高延迟等。调度层据此决策:放弃无效请求、更换代理、调整策略。这并非过度设计,而是系统演进到一定规模后的必然选择——网络本就在影响决策,视而不见只会积债难返。
|
5天前
|
AAAI 2026 为什么开源 LLM 搞不定数据分析?浙江大学揭秘核心原因
浙大团队系统研究开源大模型在数据分析中的局限,发现策略规划、交互设计与数据质量是关键瓶颈。提出新型数据合成方法,显著提升模型推理能力,为开源LLM赋能数据智能提供新思路。
|
5天前
|
实战:用Splash搞定JavaScript密集型网页渲染
Splash是一款专为动态网页爬取设计的轻量级浏览器工具,可执行JavaScript并返回完整渲染后的页面。它通过HTTP API与Python爬虫无缝集成,支持截图、Lua脚本控制、代理配置和异步处理,轻松应对React、Vue等前端框架带来的爬取难题,是现代网络抓取的高效解决方案。(238字)
免费试用