sixkery_高分内容_个人页-阿里云开发者社区

发表了文章 2018-10-21

python 分析泰坦尼克号生还率

发表了文章 2018-10-07

349. 两个数组的交集|python

列表推导式很强大。 def section(num1,num2): # 交集并集差集 alist = [i for i in num1 if i in num2] alist2 = [i for i in num1 if i not in num2] alist3 = list(set(num1).

发表了文章 2018-10-04

python中一切皆对象

python中一切皆对象 python中的一切皆对象更加彻底在python中的一切皆对象比Java中的一切皆对象更加彻底，Java中有class，也就是类的概念，object是class的一个实例。

发表了文章 2018-10-02

数据分析第一周

数据分析的结构层次底层数据的收集/产品端收集数据采集简称埋点，收集用户在网页端，产品端，客户端等终端的数据，也包括第三方外部数据。用户行为-原始数据数据业务化/产品需要什么样的数据？将收集的数据转换为可理解，可量化，可观察的业务指标。

发表了文章 2018-09-30

Django搭建个人博客（二）

更换数据表mysql 上文说到编写好了我们的 model 模块，映射生成数据表，之前我们用的是Django 默认的数据库 sqlite3 ，这里我们更改一下使用 mysql。

发表了文章 2018-09-29

安装 mysqlclient 报错

windows python 3.6 32bit python3+版本不用mysql-python，改用 mysqlclient 我们Django中连接数据库要用到 mysqlclient 的驱动，用pip命令下载会报错：报错信息我们到...

发表了文章 2018-09-28

Django搭建个人博客（一）

什么是 Django Django 是一个基于 python 的高级 web 开发框架。它能够让开发人员进行高效且快速的开发。高度集成（不用自己造轮子），免费并且开源。

发表了文章 2018-09-28

[TOC] 目录在哪

发表了文章 2018-09-27

房天下爬虫可分布式

需要观察房天下url的构造，本次爬取的是新房和二手房两个栏目的具体字段。涉及到的知识点有url的拼接，具体字段的解析清洗，页面不规整的情况下，怎样提取。

发表了文章 2018-09-26

python中的min和in用代码实现

min 在 Python 中 min 函数可以直接返回列表中的最小项。现在用代码演示一下，怎么用代码实现在列表中检索一个最小项。 def fn(L): MinIndex = 0 CurrentInder = 1 while C...

发表了文章 2018-09-25

scrapy简书整站爬取

数据同步及异步存储到MySQL 对于ajax 加载的数据用selenium辅助加载解析整站爬取提取url规则 jianshu.py 文件 import scrapy from scrapy.

发表了文章 2018-09-24

scrapy登录豆瓣并修改个人信息

settings.py 文件中添加请求头，robots改为False。代码中注释较为详细，看不懂的私聊哦 import scrapy from urllib import request from PIL import Image class DoubanLoginSpiderSpider(scrapy.

发表了文章 2018-09-24

crawlspider示例和登录

创建crawlspider scrapy startproject wxapp cd wxapp scrapy genspider -t crawl wxappspider www.

发表了文章 2018-09-23

自动登录12306

简单的登录操作，等有空的话写一个自动登录的爬虫吧。 from lxml import etree from selenium import webdriver from selenium.

发表了文章 2018-09-23

selenium爬取拉勾

用到的知识点： selenium 显式等待两个窗口的切换 '''用selenium爬取拉勾''' from lxml import etree from selenium import webdriver from selenium.

发表了文章 2018-09-22

多线程提提速吧

爬虫用线程提速吧，用斗图网来做个对比。普通爬虫，没用线程的例子： import re,os,requests,time from urllib import request from lxml import etree from fake_usera...

发表了文章 2018-09-18

scrapy对接selenium并设置selenium不加载图片

在 middlewares.py 文件中添加： from selenium import webdriver import time from scrapy.

发表了文章 2018-09-17

scrapy突破反爬的几种方式（三）

一些小的技巧配置，让我们的爬虫被识别的概率降低。 cookies 的禁用在settings.py 文件中有一个参数是： COOKIES_ENABLED = False 默认情况下是禁用的，request 就不会把 cookies 带进去。

发表了文章 2018-09-16

scrapy突破反爬的几种方式（二）

上回说到设置随机 User-Agent ，这次来一个随机代理 ip 的设置。代理ip 在爬虫中，为了避免网站将我们的 ip 封掉，我们就要使用代理 ip 。

发表了文章 2018-09-16

scrapy突破反爬的几种方式（一）

最近在学习 scrapy 中，突破反爬限制的几种方法，总结一下，记录学习过程中的收获。在以后的学习中也有可能会用到这些知识。 Downloader Middleware 简单介绍一下 Downloader Middleware 即下载中间件，它处于 Scrapy 的 Request 和 Response 之间的处理模块，在 scrapy 的整个架构中起作用的位置是以下两个在Scheduler 调度出队列的 Request 发给 Downloader 下载之前，也就是我们可以在 Request 执行下载之前对其进行修改。

发表了文章 2018-09-15

个人博客主题设置

默认在你用 hexo + git + github 已经搭建好一个静态博客的情况下配置主题。安装主题安装的过程就一行代码，你需要在博客根目录右键 Git Bash Here 输入以下命令： git clone https://github.com/theme-next/hexo-theme-next themes / next 以上代码的意思是从点这里将next下载到当前目录下的themes里面的next文件夹中。

发表了文章 2018-09-11

python数据清洗excel

python清洗excel的数据还是很简单的这里就列举例子说一下这是原始数据，这里要处理的是地区和薪水两个字段。清洗前数据 import xlrd import codecs import re def get_salary(sal...

发表了文章 2018-09-11

python爬取前程无忧分析一波机械职位信息

秋招这个时候已经开始了，正所谓知己知彼方能百战不殆，今天就从招聘网站下手分析一波机械的就业前景。这次获取数据的网站是前程无忧，之所以选择前程无忧，是因为数据获取没有什么难度，再者前程无忧提供的岗位信息比智联招聘，拉勾提供的数据都多。

发表了文章 2018-09-01

「数组拆分」| leetcode 刷题012

题目给定长度为 2n 的数组, 你的任务是将这些数分成 n 对, 例如 (a1, b1), (a2, b2), ..., (an, bn) ，使得从1 到 n 的 min(ai, bi) 总和最大。

发表了文章 2018-08-25

python爬取猫眼电影 top 100 保存到CSV

代码没含量，希望帮到入门的小白。 import requests import re,json from lxml import etree import csv class Spider(): def open_csv(self): ...

发表了文章 2018-08-22

分析Ajax爬取B站python视频

B 站真是个神奇的网站。找不到资料了，去 B 站逛一逛，保准有你满意的东西。前几天写了个爬虫，用 path、re、BeautifulSoup 爬取的 B 站 python 视频，但是这个爬虫有有个缺陷，没能获取视频的图片信息，如果你去尝试你会发现它根本就不在返回的结果里面。

发表了文章 2018-08-21

上传项目到github

创建仓库先在github上创建一个仓库创建仓库点击之后看下图：详情先点第一个箭头所指的，再点第二个箭头所指的。跳转的网页详情输入上传项目的名称，点击创建。

发表了文章 2018-08-20

「唯一摩尔斯密码词」| leetcode 刷题011

题目国际摩尔斯密码定义一种标准编码方式，将每个字母对应于一个由一系列点和短线组成的字符串，比如: "a" 对应 ".-", "b" 对应 "-...", "c" 对应 "-.-.", 等等。

发表了文章 2018-08-20

多线程与多进程

注：本文是廖大的教程文章，本人也在学习，因为老是记不住，自己手打一边，代码也是亲自测试。廖大传送门多进程和多线程是实现多任务的常用两种方式。现在比较一下这两种方式。

发表了文章 2018-08-19

详解python爬取今日头条街拍美图

之前已经爬过今日头条街拍的美图，今天再次完善一下代码，并详解爬取过程及遇到的坑。废话不多说，抓紧上车啦。分析页面分析索引页我们打开今日头条官网，在在搜索框输入「街拍」首页内容然后点击确定，跳转到街拍的详情页。

发表了文章 2018-08-16

「求众数」| leetcode 刷题010

题目给定一个大小为 n 的数组，找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的，并且给定的数组总是存在众数。

发表了文章 2018-08-16

python之多线程

注：本文是廖大的教程文章，本人也在学习，因为老是记不住，自己手打一边，代码也是亲自测试。廖大传送门多进程多个任务可以由多进程完成，也可以由一个进程内的多线程完成。

发表了文章 2018-08-16

用selenium爬取淘宝美食

这里用淘宝来练习一下 selenium 的使用，可以替换关键字，爬取不同的物品，比如说衣服、鞋子之类的。 from selenium import webdriver from selenium.

发表了文章 2018-08-15

python之多进程

要让python实现多进程「multiprocessing」。我们先来了解操作系统相关知识。 Unix 和 Linux 操作系统提供了一个 fork() 函数系统调用，它非常特殊。

发表了文章 2018-08-14

python骚操作，指定微信好友发送消息

指定好友发送消息大家在测试的时候尽量使用微信小号不要不改代码就测试这里调用了金山词霸的每日一句，你也可以指定文字信息发送，七夕快到了，你懂得。 from threading import Timer from wxpy import * i...

发表了文章 2018-08-14

python爬取糗事百科

闲来无事，找点段子一乐呵，就逛到糗事百科，这次爬取没有什么难度，唯一值得说道的是增加了一点点的代码健壮性。 import requests from lxml import etree class Spider(): def __get_...

发表了文章 2018-08-14

「704. 二分查找」| leetcode 刷题009

题目1 统计字符串中的单词个数，这里的单词指的是连续的不是空格的字符。请注意，你可以假定字符串里不包括任何不可打印的字符。示例: 输入: "Hello, my name is John" 输出: 5 解答 class Solutio...

发表了文章 2018-08-13

「比较含退格的字符串」python之leetcode刷题|008

题目给定 S 和 T 两个字符串，当它们分别被输入到空白的文本编辑器后，判断二者是否相等，并返回结果。 # 代表退格字符。示例 1：输入：S = "ab#c", T = "ad#c" 输出：true 解释：S 和 T 都会变成 “ac”。

发表了文章 2018-08-12

用数据揭秘《一出好戏》好在哪里

黄渤导演的处女作《一出好戏》在八月十号上映，两天累计票房4.37亿，豆瓣评分7.4，网友一片叫好，没想到拍出了一部魔幻现实主义的故事。下面我们用数据来展示一下网友的看法。

发表了文章 2018-08-12

「只出现一次的数字」python之leetcode刷题|007

题目给定一个非空整数数组，除了某个元素只出现一次以外，其余每个元素均出现了三次。找出那个只出现了一次的元素。说明：你的算法应该具有线性时间复杂度。

发表了文章 2018-08-11

「有趣的电影」MySQL之leetcode刷题|006

题目某城市开了一家新的电影院，吸引了很多人过来看电影。该电影院特别注意用户体验，专门有个 LED显示板做电影推荐，上面公布着影评和相关电影描述。作为该电影院的信息部主管，您需要编写一个 SQL查询，找出所有影片描述为非 boring (不无聊) 的并且 id 为奇数的影片，结果请按等级 rating 排列。

发表了文章 2018-08-11

「判断路线成圈」python之leetcode刷题|005

题目初始位置 (0, 0) 处有一个机器人。给出它的一系列动作，判断这个机器人的移动路线是否形成一个圆圈，换言之就是判断它是否会移回到原来的位置。移动顺序由一个字符串表示。

发表了文章 2018-08-10

「翻转字符串」python之leetcode刷题|004

题目1 编写一个函数，其作用是将输入的字符串反转过来。示例 1: 输入: "hello" 输出: "olleh" 示例 2: 输入: "A man, a plan, a canal: Panama" 输出: "amanaP :lanac a ,na...

发表了文章 2018-08-09

「翻转图像」python之leetcode刷题|003

镇楼题目给定一个二进制矩阵 A，我们想先水平翻转图像，然后反转图像并返回结果。水平翻转图片就是将图片的每一行都进行翻转，即逆序。例如，水平翻转 [1, 1, 0] 的结果是 [0, 1, 1]。

发表了文章 2018-08-08

「汉明距离」Leetcode刷题|002

先来了解一下汉明距离在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。

发表了文章 2018-08-08

python虚拟环境安装

1、什么是python的虚拟环境 virtualenv是一个创建隔绝python环境的工具，virtualenv创建一个包含所有必要的可执行文件的文件夹，用来使用Python工程所需的包。

发表了文章 2018-08-08

六步安装scrapy

scrapy在Windows下安装会很麻烦，要安装许多依赖库，本文为你介绍一下怎么安装,scrapy.分为六步 1、安装 wheel 首先要确保你的python配置到环境变量里，否则你的python和pip都无法使用。

发表了文章 2018-08-07

用xpath、bs4、re爬取B站python数据

import requests,re from lxml import etree from bs4 import BeautifulSoup def get_page(page): try: #这里要加上cookie ...

发表了文章 2018-08-07

「大的国家」Leetcode刷题 | 001

打卡第二天，今天的题目是一道SQL查询问题，SQL在工作中经常用到，面试的时候也会出一些基本的SQL语句，我们就从最简单的开始吧。题目：这里有张 World 表 name continent area population gdp Afg...

发表了文章 2018-08-06

「宝石与石头」leetcode刷题 | 000

一直觉得自己的编程能力不怎么好，于是想到了在Leecode上刷题的这个想法。就先从最基础的开始吧。如果你有更好的解答方法，欢迎与我交流。题目：给定字符串J代表石头中宝石的类型，和字符串S代表你拥有的石头。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

sixkery_个人页

个人介绍

擅长的技术

python 分析泰坦尼克号生还率

349. 两个数组的交集|python

python中一切皆对象

数据分析第一周

Django搭建个人博客（二）

安装 mysqlclient 报错

Django搭建个人博客（一）

房天下爬虫可分布式

python中的min和in用代码实现

scrapy简书整站爬取

scrapy登录豆瓣并修改个人信息

crawlspider示例和登录

自动登录12306

selenium爬取拉勾

多线程提提速吧

scrapy对接selenium并设置selenium不加载图片

scrapy突破反爬的几种方式（三）

scrapy突破反爬的几种方式（二）

scrapy突破反爬的几种方式（一）

个人博客主题设置

python数据清洗excel

python爬取前程无忧分析一波机械职位信息

「数组拆分」| leetcode 刷题012

python爬取猫眼电影 top 100 保存到CSV

分析Ajax爬取B站python视频

上传项目到github

「唯一摩尔斯密码词」| leetcode 刷题011

多线程与多进程

详解python爬取今日头条街拍美图

「求众数」| leetcode 刷题010

python之多线程

用selenium爬取淘宝美食

python之多进程

python骚操作，指定微信好友发送消息

python爬取糗事百科

「704. 二分查找 」| leetcode 刷题009

「比较含退格的字符串」python之leetcode刷题|008

用数据揭秘《一出好戏》好在哪里

「只出现一次的数字」python之leetcode刷题|007

「有趣的电影」MySQL之leetcode刷题|006

「判断路线成圈」python之leetcode刷题|005

「翻转字符串」python之leetcode刷题|004

「翻转图像」python之leetcode刷题|003

「汉明距离」Leetcode刷题|002

python虚拟环境安装

六步安装scrapy

用xpath、bs4、re爬取B站python数据

「大的国家」Leetcode刷题 | 001

「宝石与石头」leetcode刷题 | 000

python 分析泰坦尼克号生还率

349. 两个数组的交集|python

python中一切皆对象

数据分析第一周

Django搭建个人博客（二）

安装 mysqlclient 报错

Django搭建个人博客（一）

房天下爬虫可分布式

python中的min和in用代码实现

scrapy简书整站爬取

scrapy登录豆瓣并修改个人信息

crawlspider示例和登录

「704. 二分查找」| leetcode 刷题009