罗攀,硕士研究生,《从零开始学Python网络爬虫》和《从零开始学Python数据分析》作者,Python中文社区,Python爱好者社区专栏作者。擅长网络爬虫、数据分析,在web开发,数据库,机器学习等领域有所涉猎,已开设多次爬虫线上课程
写在前面 最近在学习MySQL和Django Web开发,这个月首先会更新MySQL的学习笔记,也都是比较简单的东西,用作复习和巩固。Web开发会更新一些小项目给大家(预计9月份更)。
前言 前段时间,创造101着实火了一把,问我pick哪位小姐姐,当然是唱歌老跑调,跳舞数拍子的杨超越了。其实在看创造101之前,就已经在抖音上关注了她,今天就来爬爬她的抖音视频(杨超越的抖音已经没有更新了),你的样子我都有~ 本文主要讲解: 抖音视频爬虫 视频下载 PS:虽然很多网友骂她没实力,但别人运气是真的好~ 抖音视频爬虫 这里依旧是通过fiddler抓包,现在的抖音有加密算法,之前网上的大部分代码都不能用了,我们先看看有哪些加密字段。
前言 今天继续APP爬虫,今天爬取的是微博榜单(24小时榜)的数据,采集的字段有: 用户id 用户地区 用户性别 用户粉丝 微博内容 发布时间 转发、评论和点赞量 该文分以下内容: 爬虫代码 用户分析 微博分析 ...
一见钟情钟的不是情,是脸 日久生情生的不是脸,是情 项目简介 本项目利用Python爬虫和百度人脸识别API,针对简书交友专栏,爬取用户照片(侵删),并进行打分。
前些日子,女朋友拿我手机玩,说我微信好友女生多,当时我就不服了(跪着认错了),然后两人一个个统计性别,我微信好友不算多,但也有300来个,人工统计实在费事,之后事情也就不了了之了(打了我一顿)。
本系列教程为《Python数据科学——技术详解与商业实践》的读书笔记。该书以Python为实现工具,以商业实战为导向,从技术、业务、商业实战3个维度来展开学习。
K-Means算法 k-均值算法(K-Means算法)是一种典型的无监督机器学习算法,用来解决聚类问题。 算法流程 K-Means聚类首先随机确定 K 个初始点作为质心(这也是K-Means聚类的一个问题,这个K值的不合理选择会使得模型不适应和解释性差)。
PCA PCA(主成分分析),它是一种维度约减算法,即把高维度数据在损失最小的情况下转换为低纬度数据的算法。 实战——人脸识别 数据导入 该数据集可通过sklearn进行下载。
算法原理 对于支持向量机原理,可参考该系列博客(https://www.cnblogs.com/pinard/p/6111471.html)。
文档处理 朴素贝叶斯算法常用于文档的分类问题上,但计算机是不能直接理解文档内容的,怎么把文档内容转换为计算机可以计算的数字,这是自然语言处理(NLP)中很重要的内容。
决策树原理 之前我们详细讲解过决策树的原理,详细内容可以参考该链接(https://www.jianshu.com/p/0dd283516cbe)。
今天不单独讲解某个机器学习算法,而是讲解机器学习中常用的工具或者说是方法。一是绘制学习曲线,看模型的好坏程度(过拟合还是欠拟合);而是减少代码量,利用pipeline构造算法流水线。
算法原理 传送门:机器学习实战之Logistic回归 正则化 这里补充下正则化的知识。当一个模型太复杂时,就容易过拟合,解决的办法是减少输入特征的个数,或者获取更多的训练样本。
线性回归原理 如图所示,这是一组二维的数据,我们先想想如何通过一条直线较好的拟合这些散点了?直白的说:尽量让拟合的直线穿过这些散点(这些点离拟合直线很近)。
天下武功,唯快不破。今天就正式讲解如何通过《sklearn小抄》武林秘籍,成为一代宗师调包侠。欲练此功,必先自宫;就算自宫,未必成功;若不自宫,也能成功。
scikit-learn(以下简称为sklearn)是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具。
如果人类适应了三维,去掉一个维度,进入了二维世界,那么人类就会因为缺少了原来所适应的一个维度,而无法生存。 ——《三体》 在许多科幻电影中,有许多降维的例子。
“回归”与“树” 在讲解树回归之前,我们看看回归和树巧妙结合的原因。 线性回归的弊端 线性回归需要拟合所有样本点,在特征多且特征关系复杂时,构建全局模型的想法就显得太难。
之前我们学习的机器学习算法都是属于分类算法,也就是预测值是离散值。当预测值为连续值时,就需要使用回归算法。本文将介绍线性回归的原理和代码实现。
今天学习的机器学习算法不是一个单独的算法,我们称之为元算法或集成算法(Ensemble)。其实就是对其他算法进行组合的一种方式。俗话说的好:“三个臭皮匠,赛过诸葛亮”。
写在前面 Logistic回归涉及到高等数学,线性代数,概率论,优化问题。本文尽量以最简单易懂的叙述方式,以少讲公式原理,多讲形象化案例为原则,给读者讲懂Logistic回归。
在学习朴素贝叶斯分类模型之前,我们回顾一下之前学习的KNN和决策树,读者本人的总结:不同的机器学习方法有着不同的假设和理论进行支撑,而这些假设和理论在很大程度上体现了该算法的优缺点。
决策树的算法可谓是贴近我们的生活,通过下面的案例,你就会发现我们每天都在有意无意的使用着决策树算法(好厉害的样子)。 小明同学每天早上都要去学校,可步行、乘公交和坐隔壁老王叔叔的车(皮一下很开心)。
本系列教程为《机器学习实战》的读书笔记。首先,讲讲写本系列教程的原因:第一,《机器学习实战》的代码由Python2编写,有些代码在Python3上运行已会报错,本教程基于Python3进行代码的修订;第二:之前看了一些机器学习的书籍,没有进行记录,很快就忘记掉了,通过编写教程也是一种复习的过程;第三,机器学习相对于爬虫和数据分析而言,学习难度更大,希望通过本系列文字教程,让读者在学习机器学习的路上少走弯路。
最近朋友圈刷疯了的几件事: 圣诞节骗我艾特微信官方戴红帽 老的跟树皮似的骗我晒18岁皂片 明明开挂却骗我自己玩的跳一跳 网易云听歌报告告诉我最爱tfboy 支付宝关键词鄙视我太穷丢它脸 个人特别喜欢听网易云音乐的推荐歌单(个人比较懒),但一个高播放量的歌单里的歌曲,不一定都喜欢,所以我爬取了9万多首歌曲,定制化了自己的网易云音乐歌单, 数据情况 本文爬取了部分歌单,及歌单中的歌曲,如图所示。
前段时间在有讲上分享了一个微博粉丝爬虫的代码,爬取的是吴亦凡的部分粉丝(不要问我为什么选择吴亦凡),今天把数据来出来简单分享下,看看吴亦凡小盆友的粉丝妹子多,还是汉子多,嘿嘿。
在二调中,小班的属性都是用的编码,本文以地类编码为例,如何利用python把代码转化为名称。 excel数据 这里需要整理一份分类系统表的数据,如图: python代码 # -*- coding: utf-8 -*- def getdl(j): import xlrd workbook = xlrd.
受有讲公众号的邀请,进行了二次爬虫分享讲座,第一次尝试图文+音频的分享方式,记得当时爬虫小分队刚开始运营的时候,也是图文的方式,但疲于答疑和讲解,开始向视频课方向进军。
折腾了几天,终于完成了第一个web开发项目,其中乐趣多多,坑也是巨多,听我娓娓道来之前,按例给大家上网站链接: 简书推荐作者可视化 由于本人使用的腾讯学生机(小霸王),请稍作等待,不想等待的小伙伴们,直接看下图: 统计 罗罗攀 搜索 项目概述 本项目结合数据的采集、预处理、存储、使用等技术,利用Python语言实现功能,展示了简书推荐作者相应的统计信息,本人的信息以及推荐作者的查询功能。
内联结是inner 外联结分为左右 跟着程老哥学习下MySQL,看到联结表的时候还是很懵逼的,我们用案例看看,这几个联结方式的不同。 首先定义了简单的二个表,一个是用户名的个人信息user,一个是用户名的考试成绩score,看看表的结构。
产品运营的时代到了 刚开始老大准备开线上培训的时候,就说过,希望把这个培训当做一个产品好好运营,而这个事情终于在第四期开始拉开帷幕。 现在有了专业的推广运营的人,有了自己的logo,当然也有我们这些昔日陪伴大家的技术人员(嘿嘿嘿,表示夸奖自己一波)。
M models T templates V views 今天的主要任务是完成表单提交的全过程,通过之前的学习,我们已经完成了表单的制作,已经migrate了我们的数据库,此时就只差填写表单,保存数据了,这里没有按照老师的方法写,而是没有换url,填写完表单还是返回的表单url。
最近粉丝涨的飞快,已突破3500大关,虽然比起大咖来说,是微乎其微,但看过我简书风云榜的都知道,3500粉丝也能排上前200名(虽然只爬取了20多万的数据)。
ORM,是一种程序技术,用于实现面向对象编程语言里不同类型系统的数据之间的转换。 Model from django.utils import timezone # Create your models here.
简书粉丝已破1000粉,为感谢各位看官的支持,给各位看官送波小福利。在本文章下点赞并评论,会从评论中随机抽取5位看官,每人送10元红包一份,抽奖时间为8月6号晚7点~ 虽然1000粉丝不多,但也是对这大半年学习的肯定,本人现在读研,也没有额外的经济收入,看官们不要嫌少,等以后工作了,会给看官们更多更好的福利~ 随机抽奖当然是使用我们的python爬虫啦,以以前的一篇文章为例,进行了代码的编写。
创建app 对于web小白来说,这些专业名称完全懵逼,还好美女姐姐讲的很好,我觉得一个网站相当于一个project的话,那每个小功能就是一个app,这里没有使用美女姐姐的方法,而是在pycharm中使用Terminal创建app: python manage.
高中 1 大宁最近有些反常,一下课就不见人。 这次又踏着铃声回教室。我用笔狠狠戳他的背,一脸鄙夷。 “喂喂喂,刚刚xx过来还书,你去哪了?” 他眉眼一抬,狡黠一笑。
pycharm的安装(注意:必须安装专业版) mysql安装 Navicat安装 这些东西我之前都是安装过的~ Django项目的创建 打开pycharm,创建项目 选择django,定义项目文件位置,选择相应的python环境。
今天中文社区有人要爬MQL5的网站,要和其做的图表一样,这里写上原图和我画的图,代码就不上了~ 以下是我的图片
爬虫分析 这里涉及跨页的爬取,需要理清爬虫的思路。 首先打开网站,需爬取前11个分类的电影数据(经典影片格式不一样,爬虫时过滤掉了)。
开始跟着美女姐姐学web开发啦!享受这10天的学习之旅吧。python web开发框架很多,Django是其中之一,让我们学习吧。 python2.7 美女姐姐使用的python2.7,在这里用anaconda创建一个python2的环境,使用如下代码即可。
上次写到单线程的微打赏爬虫,知道微打赏需要用post请求,那今天看看如何用scrapy完成post请求。 创建项目 打开cmd,输入以下代码即可创建scrapy项目。
昨天有学员问我爬虫的问题,说xpath语法写出来没数据。其实可能是其他地方错了,而不是xpath语法的问题,我们需要学会找错误的原因。 打印下请求的内容,看有没有你要的数据。
人一生都可能无法逆天改命,但你却是要去奋斗一把 本文章主要通过最简单的共线性关系,利用gephi工具绘制择天记的人物关系图。 准备工作 在网上下载《择天记》小说以及创建小说人物的txt。
参加风景园林的暑期学校,收获还是蛮多的啊!有些老师的汇报还是不错的,也结交了一些朋友,班级讨论我都是讲的Python啊~本来想拿一个植物园规划来讲的,想想我又不评优,就干脆来点有意思的Python小项目。
许久不来写文章了,最近夏令营搞的确实没时间。这次把上次直播讲的东西写成文字,带大家开波车。 爬虫代码 import requests from lxml import etree import time import json import re im...
又回到起点学numpy库,最近看了下机器学习的书,用到很多numpy的知识,我是一脸懵逼的。如果是做python数据分析的话,通过pandas库入门更有趣,但要更深入去学习python机器学习,建议numpy必须学好。
手绘图确实很好看,但对于手残党的我,只能呵呵一笑,今天就用代码来实现手绘功能,把普通的图片转换为手绘图片。 代码 from PIL import Image import numpy as np a = np.
四月立了一个flag,五月不断更。在形式上是完成了,但也有许多文章都只是为了打卡,差强人意。不过还是坚持做到了,本来今天是想用Python做下五月文章的分析,然要做项目,没时间搞了。
上次爬取了糗事百科的用户地址,也画了一个段子手分布的地图,今天就讲讲思路,其实也就是如何让地址换为经纬度,因为个人BDP免费版是需要经纬度字段的,今天就调用百度API获取经纬度信息。