数据采集

首页 标签 数据采集
# 数据采集 #
关注
20794内容
基于urllib和re模块的爬虫简单实战
基于基础库的简单实战 爬取目标是千古刘传在豆瓣上的分享书单,网址为https://www.douban.com/doulist/44773558/ 明确爬取目标: 书名 作者 出版社 出版年 豆瓣评分 刘传评语 查看网页构造: 代码: from urllib import request url = 'https://www.
Python数据分析之简书粉丝敌我差距
最近粉丝涨的飞快,已突破3500大关,虽然比起大咖来说,是微乎其微,但看过我简书风云榜的都知道,3500粉丝也能排上前200名(虽然只爬取了20多万的数据)。
初试php中的curl
关于curl的相关函数,可以点击参考这里: http://www.wapm.cn/phpdoc/zh/ref.curl.html   但试的时候发现google返回的依旧是乱码,而baidu返回的则不是,怀疑可能是提交的时候需要再加一些参数,有空再好好研究一下 :(   curl_setopt 里面详细的参数可以点击这里查看: http://www.wapm.cn/phpdoc/zh/function.curl-setopt.html   下面的代码只是一个很简单的测试例子,获取请求的状态码、并显示获取的页面。
Nginx 优化(学习笔记六)
1、隐藏nginx版本号 2、nginx配置优化 3、fastcgi优化 #fastcgi_cache_path /usr/local/nginx/fastcgi_cache levels=1:2 #keys_zone=TE...
壳牌是如何成为一家数据和AI驱动的公司的?
作为一家全球性的能源和石化企业,壳牌(Shell)正在努力地以数据为驱动,推动业务发展,让数据科学变得和石油物理学一样重要。
中国vs日本之 nginx 爬虫配置
前言  昨天网站突然间挂了 而且出现504 通过监控看出tcp连接增多 查看nginx日志发现德国的ip在爬取公司网站如图。 nginx代码如下: 进入到nginx安装目录下的conf目录,将如下代码保存为 agent_deny.
千里之行,始于足下
上次小白讲了python和pycharm的安装,大家有没有好好去熟悉pycharm的操作了。“千里之行,始于足下”’,在讲爬虫之前了,还是要打下python的基础的,不然后面代码大家看不懂。
中国vs日本之 nginx 爬虫配置
前言  昨天网站突然间挂了 而且出现504 通过监控看出tcp连接增多 查看nginx日志发现德国的ip在爬取公司网站如图。 nginx代码如下: 进入到nginx安装目录下的conf目录,将如下代码保存为 agent_deny.
nofollow标签是什么?如何使用
一、什么是nofollow标签?nofollow标签的意思是在告诉搜索引擎不要对此链接进行索引。那么反过来可以这么理解,这些不被索引的链接也就把索引机会让给了页面上的其他链接,也就是说提高了其他页面的索引机会,加上搜索引擎对网站类型的识别度已经比较明智了,蜘蛛也会根据网站的规模来给予对应的索引规模,当然也要根据网站优化的合理性来判断。
免费试用