数据采集

首页 标签 数据采集
# 数据采集 #
关注
20592内容
|
20小时前
|
爬取多页数据合并为Excel:从入门到精通的实用指南
自动化爬取多页数据并合并至Excel,可高效整合分散信息。结合Python的Requests、BeautifulSoup与OpenPyXL,实现抓取、清洗、存储一体化,提升数据处理效率与分析能力。
|
21小时前
|
从数据管理的角度,理解数据治理的内容
数据治理不仅是高层关注的顶层设计,更是解决数据混乱、质量低下等实际问题的系统性方法。其核心在于通过数据管理实现全生命周期管控,确保数据可信、可用、安全,从而提升决策质量、驱动业务创新。
|
22小时前
|
制造业的"质量管理"如何实现数字化?
制造业质量管理数字化核心在于质量数据的采集、传输、存储与应用。其中,数据采集是最大瓶颈,需借助物联网、自动化检测等技术实现高效、精准获取。
构建AI智能体:十一、语义分析Gensim — 从文本处理到语义理解的奇妙之旅
Gensim是Python中强大的自然语言处理库,擅长从大量中文文本中自动提取主题、生成词向量并计算文档相似度。它支持LDA、Word2Vec等模型,结合jieba分词可有效实现文本预处理、主题建模与语义分析,适用于新闻分类、信息检索等任务,高效且易于扩展。
|
1天前
|
大模型微调实战指南:从零开始定制你的专属 LLM
本文系统讲解大模型微调核心方法,针对开源LLM在垂直场景答非所问、风格不符等问题,详解PEFT、LoRA/QLoRA实战技巧,结合Hugging Face与真实客服数据,助你低成本打造懂业务的专属AI。
别再让CRM变成“客户通讯录”:用数据把客户关系做“熟”
别再让CRM变成“客户通讯录”:用数据把客户关系做“熟”
|
1天前
|
用Redis实现爬虫URL去重与队列管理:从原理到实战的极简指南
本文详解Redis在爬虫中的核心应用:利用SET与BloomFilter实现高效URL去重,结合LIST、BRPOP与ZSET构建高性能任务队列,并支持分布式协作。通过代码示例与实战优化技巧,助你打造亿级规模、高并发的智能爬虫系统,显著提升抓取效率与稳定性。
2025年,不会还有人在手动爬数据吧?Coze AI Agent让你彻底“躺平”
在数字化时代,手动采集数据效率低下且易出错。本文教你使用Coze AI Agent,通过可视化流程实现小红书等平台的数据自动抓取、清洗与分析,集成飞书多维表格,支持定时运行与智能洞察,大幅提升工作效率,助力企业迈向自动化决策。
|
1天前
| |
来自: 云原生
一篇文章带你了解云原生NPM数据采集和指标计算方法
本文介绍云原生NPM中如何采集TCP连接数据,计算网络指标,并关联应用进程。通过构建包含四元组、收发字节数、延迟等字段的数据结构,结合抓包与系统命令获取PID、UID等信息,实现网络与应用的联动分析,助力快速定位故障根源。
免费试用