罗攀,硕士研究生,《从零开始学Python网络爬虫》和《从零开始学Python数据分析》作者,Python中文社区,Python爱好者社区专栏作者。擅长网络爬虫、数据分析,在web开发,数据库,机器学习等领域有所涉猎,已开设多次爬虫线上课程
最近一直忙着写材料,没给大家写作业的案例,第二期同学很厉害,都是抢着要作业做,哈哈,今天我就给大家写点爬虫的扩展和数据分析,让厉害的同学学起来。 代码 这次除了爬取老师的作业布置的字段外,还爬取了用户的一些信息,如图所示。
图片发自简书App 图片发自简书App
图片发自简书App 图片发自简书App
今天主要讲下一些参数的使用: import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline X=np.
图片发自简书App 图片发自简书App
图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App...
import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline years = [2010,2011,2012,2013,2014,20...
3P模式 简单的来说,就是公私合营的一种模式。针对大型的公共设施建设,这种模式有着很大的优点。 民营资本参入项目,提高效率、降低风险。 很大程度上让民营资本“有利可图”。
在现实生活中,都会存在不同的表,但表之间有相互关系,我们需要进行整理,进行连接,这种过程类似于数据库的连接。 我们先构造用户和订单的dataframe: import pandas as pd import numpy as np import dat...
2017年5月18日 今天有同学问我贴吧为什么信息提取不出来? 下面是同学的源代码: import requests from bs4 import BeautifulSoup start_url = "http://tieba.
花开花落 云卷云舒,爬虫小分队第一期顺利结束。满满回忆涌上心头,第一次催同学交作业、第一次被叫罗指导、第一次完整辅导同学、第一次在熊猫tv给大家直播撸代码......很多第一次尝试都给了你们,也留给了我自己。
good data decides good analyse 数据清洗,是数据分析中不可缺少的一个环节,其处理的好坏在很大程度上影响着数据分析的结果。
Python数据可视化常用的是matplotlib库,matplotlib是底层库,今天学了pandas的数据可视化,相对于matplotlib库来说,简单许多。
对于dataframe的groupby聚合函数来说,我们适当了解下语法糖,会对数据分析起到事半功倍的效果。 对分组进行迭代 首先看下各字段的类型 import numpy as np import pandas as pd import pymysql conn = pymysql.
大家都知道数据库有groupby函数,今天给大家讲讲dataframe的groupby函数。 groupby函数 还是以上文的数据为例子,进行讲解,首先读入数据,通过groupby聚合数据。
今天给大家讲讲pandas库dataframe数据结构的索引问题,今天就讲讲ix的用法。 选择行 依旧读入昨天的文件 import pandas as pd import pymysql conn = pymysql.
Python的数据分析,大部分的教程都是想讲numpy,再讲Dataframe,再讲读取文件。但我看书的时候,前面二章看的实在头晕,所以,我们还是通过读取文件来开始我们的Python数据分析吧。
上次爬虫小分队爬取了贴吧中python问题的精品回答,我自己也用scrapy写了一个程序,爬取了一点信息,存入MongoDB数据库中,代码就不上了,今天主要是通过pandas库读取数据,做问与答的文字云。
爬虫小分队的终极大任务就是简书大数据,以前也做过一次,阅读量也还可以。前段时间简书也是融资成功,简书也有一些改动,这次做分析也是一个不错的机会。 专题URL 这部分是没有变得,因为简书没有用户管理的url,我们只能从专题URL入手,依旧是热门和城市。
今天主要是去打酱油的~在林业局傻站了一天,也忘记拍照了。很多人会问,出差你都是拍的照片,看风景,吃美食,很爽的样子,工作的图片和介绍却很少,其实林业上的项目的资料和数据都是保密的,我们不能够透露。
调查搞起来 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发...
张家界~有山有水有美味 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App ...
简书文章异步加载 之前爬虫小分队的第一次作业就是爬取简书七日热门,同学们应该知道部分数据是异步加载的,对于阅读,评论,喜欢的抓取数据策略为使用正则表达式匹配,收录专题就是找包来获取数据的。
非关系性数据库 NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。
之前电脑安装了anaconda,又安装了python3。anaconda的各环境相互不冲突,很好管理,确实是很方便。但今天想用下之前安装的python3,但在命令行安装库的时候,发现默认情况下是安装到anaconda中的,我尝试输入python,发现果然是这样的,如图。
有点标题党 2017年4月29日 程兄说,五一的标配是和女神游山玩水,你这样说了,那我就免为其难的秀一波,希望你不要打我。 2017年4月30日 第一次在熊猫开直播讲爬虫入门,以前有人在网吧看新闻联播,画CAD,学习,今天也是做了一次网吧的清流。
今天在爬虫群,看到一个有趣的Python代码,可以把GIF图倒序播放,代码很简单,首先要安装pillow库。 代码 from PIL import Image,ImageSequence with Image.
2017年4月27日 付费的运营群也有许多人不学习,一组进度很慢,五一进行一下小培训,给一组补下课。 群主的《深夜代码有毒》看了后,很是感慨,一群忙碌爱学习的人聚在了一起,让生活多了几分色彩。
数学建模已结束,刚开始的目标就是不熬夜,结果还是熬夜了(QAQ),缓了一天就来写简书了,感觉很久没爬虫了,今天就爬下移动端的微博好友圈信息。 代码 import requests import json headers = { 'Cookie':'xxxxxxxx', 'User_Agent':'Mozilla/5.
2017年4月24号 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 通宵走起来
2017年4月23日 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 谢谢群主的书~
2017月4月22月 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书App 图片发自简书A...
2017月4月21日
2017年4月20日 关于童鞋抓取简书文章阅读和评论的问题(喜欢也是一样的)! 童鞋们发现写的xpath爬取不到,有的时候不要怀疑自己写错了(检查一次代码没写错,那就是没写错)。
2017年4月19日,关于简书收录专题爬取的思路。 1.首先是异步加载,这里就不多说,就是找包,下图为收录专题的加载的包。 2.可在Preview中看到json数据的格式,我们可以看到一个total_page,这个为收录专题的总页数(非常重要!!!!)。
2017年4月17日晚8点,爬虫小分队开幕仪式,同学们都很热情,部分学生也在Python爬虫作业专题中写下自己的期望,有一个学生把学Python写为“青苔计划”,深受感发,这就是Python的魅力所在吧。
号外!号外!向右奔跑Python爬虫班就要开课啦!不要998、不要198、只要99。喜大普奔!!!!(这波广告有点硬,大家继续往下看)。 优势 Python形势一片大好 我向来拒绝标题党的,我们拿数据说话: 这是TIOBE网的2017年4月份计算机语言排名情况,可以看出Python语言稳居第五,相对于前四计算机语言来说,Python的使用还是再一直增加的,这么“热”的语言大家不想学习下么。
直接上图 代码 import itchat import math import PIL.Image as Image import os itchat.
问题 制作一元材积表,不懂林学的可能不知道,如图,也就是构造材积和胸径间的关系,这里采用了python的一元线性回归方法(本人用spss做了幂函数非线性回归,效果最好)。
问题 设某苗圃对一花木种子制定了5种不同的处理方法,每种方法处理了6粒种子进行育苗试验。一年后观察苗高获得资料如下表。已知除处理方法不同外,其他育苗条件相同且苗高的分布近似于正态、等方差,试以95%的可靠性判断种子的处理方法对苗木生长是否有显著影响。
问题重述 某厂生产一种弹子锁,其槽数高度可以用1到6中取5个来表示。其限制条件是:至少在5个中有3个不同的数;相邻槽的高度相差不能为5。在实际试验中,发现若二锁对应5个槽的高度中有4个相同,另一个差1则可能互开,否则,不可能互开。
三十年河东,三十年河西,莫欺少年穷!年仅15岁的萧家废物,于此地,立下了誓言,从今以后便一步步走向斗气大陆巅峰!这里是属于斗气的世界,没有花俏艳丽的魔法,有的,仅仅是繁衍到巅峰的斗气! 《斗破苍穹》可谓玄幻小说的巅峰之作,曾经痴迷到彻夜看小说,回不到的过去,等不到的未来!今天就利用python的jieba库以及在线制作词云工具TAGUL,制作《斗破苍穹》词云。
爬虫专题已建立一周有余,做为管理员,也不能白占着位置不干活,今天通过爬虫得到的用户信息和收录文章信息,给大家分析下爬虫专题的优势与不足。 用户信息表 创建者 爬虫专题的创建者为向右奔跑,他同时也是@IT·互联网,今日看点的编辑;2015年9月23号入住简书,平均每天更新文章0.28篇;文章内容多为python爬虫和长跑;通过表,可以看出,每个字段信息都是遥遥领先于其他用户,有这个认真负责的创建者坐镇,大家不赶紧关注一波。
由于开学原因,数据爬取中断,共爬取了347294条数据。 爬取时间为2月14号。 以粉丝量进行排序排名,列出简书千人风云榜。 此文章不代表简书官方数据。
之前爬了一些数据,没有做分析,今天在练习jupyter notebook的使用,干脆拿了2月七号爬取的七日热门数据来进行简单的分析,主要运用了mongodb的pipeline管道等技术加上charts包的使用。
今天开始学习Python数据分析了,说到Python数据分析,大家都会推荐使用anaconda,但作为一个初学者,总是很多疑虑,但在实践中解决了一部分,先和大家分享分享。
最近回老家了一趟,爬取简书的程序也就停下来了,回到长沙继续爬,很高兴的爬到了300W左右,导出来一看,好多重复的,我记得我说过设置过的,拿到代码一看,晕: 插入的是author_infos表,但判断却是author_url表,然后我就打算去重后调用url爬取用户详细信息,可耐mongodb去重不会,自己百度了下也没搞明白;再者,向右前辈说我爬取字段太少,那我就想重新修改爬取好了(已哭晕在厕所)。
PS:这条很重要,我的文章中所说的大数据并不是现在很火的大数据话题,前几天看过一篇大数据的文章,简单来说:当一台电脑没法处理或你现在的条件没法处理的数据就可以谈的上大数据了,这个没有指定的数据量。
昨天安稳的开始了Python数据分析的学习,向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析,像我这种爱好学习(不行,让我吐一下),当然是答应了。说实话,这个实战对我来说,难度很大: 1 数据的获取 :我爬取最大的数据也就是20W+,简单的scrapy还能写一点,但简书用户量巨大,第一次尝试百万级甚至千万级数据的爬取。
受程序员群的影响(自己污的本性),他们总是带我开车,想想我也该收集一些资料了(美女图片) 代码 import requests from lxml import etree urls = ['http://jandan.