数据采集

首页 标签 数据采集
# 数据采集 #
关注
20502内容
品《阿里巴巴大数据实践-大数据之路》一书(上)
7月有人推荐阿里巴巴刚出的这本书《阿里巴巴大数据实践-大数据之路》,到亚马逊一看才是预售状态,拍下直到8月才拿到。 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个小时,就把它读完了。
Python爬虫入门教程 14-100 All IT eBooks多线程爬取
1.All IT eBooks多线程-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来。 然后放着,是的,就这么放着.......然后慢慢的遗忘掉.....All IT eBooks多线程-爬虫分析打开网址 http://www.allitebooks.com/ 发现特别清晰的小页面,一看就好爬在点击一本图书进入,发现下载的小链接也很明显的展示在了我们面前,小激动一把,这么清晰无广告的网站不多见了。
德哥PG系列课程直播(第14讲):PostgreSQL 数据清洗、采样、脱敏、批处理、合并
知识点 知识点:数据清洗、去重、采样、脱敏、批处理、合并 学习资料 1、PostgreSQL 数据采样与脱敏标签:PostgreSQL , 采样 , 脱敏PostgreSQL 巧妙的数据采样方法 2、PostgreSQL 数据去重大法标签:PostgreSQL , 去重 , 单列去重 , 多列去重.
11个国内外免费域名解析服务
一般域名使用注册商提供的域名解析服务虽然方便,但功能大多有限,特别是目前国内还会针对某些DNS服务器进行屏蔽,造成网站无法解析的情况出现,因此,使用第三方域名解析服务也是中国网站的必要选择,这里就介绍一些常见的免费域名解析服务。
企业大数据平台下数仓建设思路
介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的
“做好大数据测试,我是认真的!”
阿里妹导读:大数据已然是当下的重要课题,大大小小的企业在重视大数据的同时,也渐渐重视大数据质量的问题。阿里巴巴测试开发专家小郅,今天会分享他对数据测试的系统性思考。文章内容架构清晰,内容较长,建议大家收藏阅读哦~
UI2CODE系列文章|如何批量制造高质量样本
作者:闲鱼技术-楚丰 在 UI2CODE 项目中,我们大量使用了深度学习方法来做一些物体检测。而深度学习模型的训练,避免不了需要大量的样本,因此如何制造大量样本,来满足模型训练需要是我们必须要解决的一个问题。
免费试用