icoders_高分内容_个人页-阿里云开发者社区

发表了文章 2018-02-07

我的博客即将入驻“云栖社区”，诚邀技术同仁一同入驻。

我的博客即将入驻“云栖社区”，诚邀技术同仁一同入驻。所有的努力都值得期许，每一份梦想都应该灌溉！

发表了文章 2018-02-03

Go基础--goroutine和channel

goroutine 在go语言中，每一个并发的执行单元叫做一个goroutine 这里说到并发，所以先解释一下并发和并行的概念：并发：逻辑上具备同时处理多个任务的能力并行：物理上在同一时刻执行多个并发任务当一个程序启动时，其主函数即在一个单独的goroutine中运行，一般这个gor...

发表了文章 2018-01-29

一篇文章帮你解决python的包管理

写python代码的人都知道，一个项目写下下来，不可避免的都需要使用很多第三方包，通常我们都是通过pip install ，然而当我们需要上线的时候问题来了，如果中间你自己不记得自己安装了多少个包，这个时候你就面临着需要导出包名字，这个时候你可能想到了 pip freeze > requirements.txt,但是实际开发中你可能会开发很多个项目，每个项目可能都是pip安装了一堆包，如果每次都是这样，导出的包会越来越多。

发表了文章 2018-01-15

Go基础--终端操作和文件操作

终端操作操作终端相关的文件句柄常量os.Stdin:标准输入os.Stdout:标准输出os.Stderr:标准错误输出关于终端操作的代码例子： package main import "fmt" var ( firstName,lastName,s string i int f float32 input = "56.

发表了文章 2018-01-08

Go基础之--结构体和方法

结构体的定义结构体是将零个或者多个任意类型的命令变量组合在一起的聚合数据类型。每个变量都叫做结构体的成员。其实简单理解，Go语言的结构体struct和其他语言的类class有相等的地位，但是GO语言放弃了包括继承在内的大量面向对象的特性，只保留了组合这个基础的特性。

发表了文章 2017-12-28

go基础之--函数和map

在整理函数之前先整理一下关于指针指针普通类型变量存的就是值，也叫值类型。指针类型存的是地址，即指针的值是一个变量的地址。一个指针指示值所保存的位置，不是所有的值都有地址，但是所有的变量都有。使用指针可以在无序知道变量名字的情况下，间接读取或更新变量的值。

发表了文章 2017-12-27

让你用sublime写出最完美的python代码--windows环境

至少很长一段时间内，我个人用的一直是pycharm，也感觉挺好用的，也没啥大毛病但是pycharm确实有点笨重，啥功能都有，但是有很多可能这辈子我也不会用到，并且pycharm打开的速度确实不敢恭维，即使固态硬盘也只能快了那么一丢丢。

发表了文章 2017-12-13

Go基础之--数组和切片

数组数组的定义：数组是具有固定长度并拥有零个或者多个相同数据类型元素的序列定义一个数组的方法：var 变量名[len] type 例子：var a[5] int //3个整数的数组var a[5]string //3个字符串的数组像上面这种定义方法，我们是指定了数组的长度,但是还有如下定义方法：var a=[.

发表了文章 2017-12-04

Go基础之--位操作中你所不知道的用法

之前一直忽略的就是所有语言中关于位操作，觉得用处并不多，可能用到也非常简单的用法，但是其实一直忽略的是它们的用处还是非常大的，下面先回顾一下位操作符的基础位操作符与操作：&1 & 1 = 11 & 0 = 00 & 1 = 00 & 0 = 0 或操作：！1 | 1 = 11 | 0 = ...

发表了文章 2017-12-01

让你成功安装vscode中go的相关插件

注意：该演示环境是windows环境，linux和mac环境操作思路一样 vscode中有很多go的相关插件，非常好用如下：gocodegopkgsgo-outlinego-symbolsgurugorenamegomodifytagsgoplayimplgodefgoreturnsgolintg...

发表了文章 2017-11-27

初学者没有搞明白的GOROOT,GOPATH,GOBIN,project目录

我们接下来一个一个来看关于Go语言中的三个目录的详细解释先通过go env查看go的环境变量(我这里是mac的环境，所以可能和你的不同) localhost:~ zhaofan$ go env GOARCH="amd64" GOBIN="" GOEXE="" GOHOSTARCH="a...

发表了文章 2017-11-17

一篇文章让你明白python的装饰器

在看闭包问题之前先来看看关于python中作用域的问题变量作用域对于上述代码中出现错误，肯定没什么疑问了，毕竟b并没有定义和赋值，当我们把代码更改如下后：再看一个例子：首先这个错误已经非常明显：说在赋值之前引用了局部变量b 可能很多人觉得会打印10然后打印6，其实这里...

发表了文章 2017-10-16

Python通过future处理并发

future初识通过下面脚本来对future进行一个初步了解：例子1：普通通过循环的方式 1 import os 2 import time 3 import sys 4 5 import requests 6 7 8 POP20_CC = ( 9 ...

发表了文章 2017-10-15

Python 并发编程(一)之线程

常用用法 t.is_alive() Python中线程会在一个单独的系统级别线程中执行（比如一个POSIX线程或者一个Windows线程）这些线程将由操作系统来全权管理。线程一旦启动，将独立执行直到目标函数返回。

发表了文章 2017-10-06

Python协程深入理解

从语法上来看，协程和生成器类似，都是定义体中包含yield关键字的函数。yield在协程中的用法：在协程中yield通常出现在表达式的右边，例如：datum = yield,可以产出值，也可以不产出--如果yield关键字后面没有表达式，那么生成器产出None. 协程可能从调用方接受数据，调用方是通过send(datum)的方式把数据提供给协程使用，而不是next(...)函数，通常调用方会把值推送给协程。

发表了文章 2017-10-04

可迭代对象、迭代器、生成器的理解

所有的生成器都是迭代器关于迭代器和生成器的一种定义：迭代器用于从集合中取出元素；生成器用于凭空生成元素。 Python中，所有的集合都是可以迭代的，在Python语言内部，迭代器用于支持： for 循环构建和扩展集合类型逐行遍历文本文件列表推导，字典推导，集合推导元组拆包 ...

发表了文章 2017-09-17

Python并发编程协程(Coroutine)之Gevent

Gevent官网文档地址：http://www.gevent.org/contents.html 基本概念我们通常所说的协程Coroutine其实是corporate routine的缩写，直接翻译为协同的例程，一般我们都简称为协程。

发表了文章 2017-09-11

pycharm远程linux开发和调试代码

pycharm是一个非常强大的python开发工具，现在很多代码最终在线上跑的环境都是linux，而开发环境可能还是windows下开发，这就需要经常在linux上进行调试，或者在linux对代码进行编写，而pycharm提供了非常便捷的方式。

发表了文章 2017-08-21

Python爬虫从入门到放弃（二十四）之 Scrapy登录知乎

因为现在很多网站为了限制爬虫，设置了为只有登录才能看更多的内容，不登录只能看到部分内容，这也是一种反爬虫的手段，所以这个文章通过模拟登录知乎来作为例子，演示如何通过scrapy登录知乎在通过scrapy登录知乎之前，我们先通过requests模块登录知乎，来熟悉这个登录过程不过在这之前需要了...

发表了文章 2017-08-11

Python爬虫从入门到放弃（二十三）之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换

总架构理解Middleware 通过scrapy官网最新的架构图来理解：这个图较之前的图顺序更加清晰，从图中我们可以看出，在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可以设置中间件，两者是双向的，并且是可以设置多层. 关于Downloader Middleware我在http://www.cnblogs.com/zhaof/p/7198407.html 这篇博客中已经写了详细的使用介绍。

发表了文章 2017-08-09

Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战

爬虫与发爬虫的厮杀，一方为了拿到数据，一方为了防止爬虫拿到数据，谁是最后的赢家？重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫：使用技术手段防止爬虫程序爬取数据误伤：反爬虫技术将普通用户识别为爬虫，这种情况多出现在封ip中，例如学校网络、小区网络再或者网络网络都是共享一个公共ip，这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。

发表了文章 2017-08-08

Python爬虫从入门到放弃（二十一）之 Scrapy分布式部署

按照上一篇文章中我们将代码放到远程主机是通过拷贝或者git的方式，但是如果考虑到我们又多台远程主机的情况，这种方式就比较麻烦，那有没有好用的方法呢？这里其实可以通过scrapyd,下面是这个scrapyd的github地址：https://github.

发表了文章 2017-08-08

Python爬虫从入门到放弃（二十）之 Scrapy分布式原理

关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构，只在本机维护一个爬取队列，Scheduler进行调度，而要实现多态服务器共同爬取数据关键就是共享爬取队列。分布式架构我将上图进行再次更改这里重要的就是我的队列通过什么维护？这里一般我们通过Redis为维护，Redis，非关系型数据库，Key-Value形式存储，结构灵活。

发表了文章 2017-08-07

关于Python3中venv虚拟环境

Python3.3以上的版本通过venv模块原生支持虚拟环境，可以代替Python之前的virtualenv。该venv模块提供了创建轻量级“虚拟环境”，提供与系统Python的隔离支持。每一个虚拟环境都有其自己的Python二进制（允许有不同的Python版本创作环境），并且可以拥有自己独立的一套Python包。

发表了文章 2017-08-04

Python爬虫番外篇之关于登录

常见的登录方式有以下两种：查看登录页面，csrf,cookie;授权；cookie 直接发送post请求,获取cookie 上面只是简单的描述，下面是详细的针对两种登录方式的时候爬虫的处理方法第一种情况这种例子其实也比较多，现在很多网站的登录都是第一种的方法，这里通过以githu...

发表了文章 2017-07-28

站在圈外看待小米公司发展史

站在圈外看待小米公司发展史想起多少年前甚至还是诺基亚的时代的时候，我用的第一部手机还是诺基亚5310，至今还能回想起拿到手机的喜悦感。随着后来苹果的发布，安卓的盛行，直到小米的出现，小米当时也成“火爆预约抢购”的代名词，多少人当年守在电脑前鼠标都差点点坏了也没有抢到一部小米手机。

发表了文章 2017-07-24

Python爬虫从入门到放弃（十九）之 Scrapy爬取所有知乎用户信息(下)

在上一篇文章中主要写了关于爬虫过程的分析，下面是代码的实现，完整代码在：https://github.com/pythonsite/spider items中的代码主要是我们要爬取的字段的定义 class UserItem(scrapy.

发表了文章 2017-07-21

Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)

爬取的思路首先我们应该找到一个账号，这个账号被关注的人和关注的人都相对比较多的，就是下图中金字塔顶端的人，然后通过爬取这个账号的信息后，再爬取他关注的人和被关注的人的账号信息，然后爬取被关注人的账号信息和被关注信息的关注列表，爬取这些用户的信息，通过这种递归的方式从而爬取整个知乎的所有的账户信息。

发表了文章 2017-07-20

Python爬虫番外篇之Cookie和Session

关于cookie和session估计很多程序员面试的时候都会被问到，这两个概念在写web以及爬虫中都会涉及，并且两者可能很多人直接回答也不好说的特别清楚，所以整理这样一篇文章，也帮助自己加深理解什么是Cookie 其实简单的说就是当用户通过http协议访问一个服务器的时候，这个服务器会将一些Name/Value键值对返回给客户端浏览器，并将这些数据加上一些限制条件。

发表了文章 2017-07-18

Python爬虫从入门到放弃（十七）之 Scrapy框架中Download Middleware用法

这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候，所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子，用于修改Scrapy request和response。

发表了文章 2017-07-17

Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法

当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipel...

发表了文章 2017-07-17

Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法

Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以初始的URL初始化Request，并设置回调函数，当该request下载完毕并返回时，将生成response，并作为参数传给回调函数. spider中初始的requesst是通过start_requests()来获取的。

发表了文章 2017-07-16

Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法

Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。

发表了文章 2017-07-15

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解

这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目 scrapy startproject 项目名例子如下： localhost:spider zhaofan$ scrapy startproject test1 New Scrapy project 'test1', us...

发表了文章 2017-07-15

Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理

这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架，Twisted有些特殊的地方是它是事件驱动的，并且比较适合异步的代码。

发表了文章 2017-07-14

Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解

这里是通过爬取伯乐在线的全部文章为例子，让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址：https://github.com/pythonsite/spider/tree/master/jobboleSpider 注：这个文章并不会对详细的用法进行讲解，是为了让对scrapy各个功能有个了解，建立整体的印象。

发表了文章 2017-07-14

爬虫性能相关

这里我们通过请求网页例子来一步步理解爬虫性能当我们有一个列表存放了一些url需要我们获取相关数据，我们首先想到的是循环简单的循环串行这一种方法相对来说是最慢的，因为一个一个循环，耗时是最长的，是所有的时间总和代码如下： import requests url_list = [ 'http://www.

发表了文章 2017-06-29

Python爬虫从入门到放弃（十）之关于深度优先和广度优先

网站的树结构深度优先算法和实现广度优先算法和实现网站的树结构通过伯乐在线网站为例子：并且我们通过访问伯乐在线也是可以发现，我们从任何一个子页面其实都是可以返回到首页，所以当我们爬取页面的数据的时候就会涉及到去重的问题，我们需要将爬过的url记录下来，我们将上图进行更改在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题，因为这涉及到先抓取哪个页面，后抓取哪个页面。

发表了文章 2017-06-27

python爬虫从入门到放弃前奏之学习方法

首谈方法最近在整理爬虫系列的博客，但是当整理几篇之后，发现一个问题，不管学习任何内容，其实方法是最重要的，按照我之前写的博客内容，其实学起来还是很点枯燥不能解决传统学习过程中的几个问题：这个是普通学习中我们都经常会碰到的问题，按照之前我整理的文章，包括我自己学习的过程，其实这是一个非常大的痛点，把每个模块的基本使用，都按照官网配合例子使用，但是这不是一个最好的学习方法，因为这样学完之后，基本上都会觉得还是是一堆需要记住的，但是这些东西不用又很难记住。

发表了文章 2017-06-24

Go 从入门到精通（三）字符串，时间，流程控制，函数

一、strings和strconv的使用 strings strings.HasPrefix(s string,preffix string) bool:判断字符串s是否以prefix开头 stirngs.

发表了文章 2017-06-14

go 从入门到精通（二）基本数据类型和操作符

一、文件名&关键字&标识符所有go源码都是以.go结尾标识符以字母或下划线开头，大小写敏感下划线_是特殊标识符，用户忽略结果保留关键字导入包时可以设置别名下面是保留关键字：二、GO程序的基本结构 package main import ( "fmt" ) func main(){ fmt.

发表了文章 2017-06-12

python爬虫番外篇（一）进程，线程的初步了解

整理这番外篇的原因是希望能够让爬虫的朋友更加理解这块内容，因为爬虫爬取数据可能很简单，但是如何高效持久的爬，利用进程，线程，以及异步IO,其实很多人和我一样，故整理此系列番外篇一、进程程序并不能单独和运行只有将程序装载到内存中，系统为他分配资源才能运行，而这种执行的程序就称之为进程。

发表了文章 2017-06-08

Go从入门到精通（一）go语言初识

一、第一个go程序 package main import ( "fmt" ) func main(){ fmt.Println("hello world") } 对于代码的解释如果是为了将代码编译成一个可执行程序，那么package...

发表了文章 2017-06-07

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

通过前面的文章已经学习了基本的爬虫知识，通过这个例子进行一下练习，毕竟前面文章的知识点只是一个一个单独的散知识点，需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站，只有对要爬取的数据页面分析清楚，才能更方便后面爬取数据目标站和目标数据目标地址：http://www.

发表了文章 2017-06-06

python爬虫从入门到放弃（八）之 Selenium库的使用

一、什么是Selenium selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。

发表了文章 2017-06-01

python爬虫从入门到放弃（六）之 BeautifulSoup库的使用

上一篇文章的正则，其实对很多人来说用起来是不方便的，加上需要记很多规则，所以用起来不是特别熟练，而这节我们提到的beautifulsoup就是一个非常强大的工具，爬虫利器。 beautifulSoup “美味的汤，绿色的浓汤” 一个灵活又方便的网页解析库，处理高效，支持多种解析器。

发表了文章 2017-05-31

python爬虫从入门到放弃（五）之正则的基本使用

什么是正则表达式正则表达式是对字符串操作的一种逻辑公式，就是事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符”，这个“规则字符” 来表达对字符的一种过滤逻辑。正则并不是python独有的，其他语言也都有正则python中的正则，封装了re模块 python正则的详细讲...

发表了文章 2017-05-28

python爬虫从入门到放弃（四）之 Requests库的基本使用

什么是Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Requests它会比urllib更加方便，可以节约我们大量的工作。

发表了文章 2017-05-26

python爬虫从入门到放弃（三）之 Urllib库的基本使用

官方文档地址：https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.

发表了文章 2017-05-24

python爬虫从入门到放弃（二）之爬虫的原理

在上文中我们说了：爬虫就是请求网站并提取数据的自动化程序。其中请求，提取，自动化是爬虫的关键！下面我们分析爬虫的基本流程爬虫的基本流程发起请求通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应获取响应内容如果服务器能正常响...

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

icoders_个人页

个人介绍

擅长的技术

我的博客即将入驻“云栖社区”，诚邀技术同仁一同入驻。

Go基础--goroutine和channel

一篇文章帮你解决python的包管理

Go基础--终端操作和文件操作

Go基础之--结构体和方法

go基础之--函数和map

让你用sublime写出最完美的python代码--windows环境

Go基础之--数组和切片

Go基础之--位操作中你所不知道的用法

让你成功安装vscode中go的相关插件

初学者没有搞明白的GOROOT,GOPATH,GOBIN,project目录

一篇文章让你明白python的装饰器

Python通过future处理并发

Python 并发编程(一)之线程

Python协程深入理解

可迭代对象、迭代器、生成器的理解

Python并发编程协程(Coroutine)之Gevent

pycharm远程linux开发和调试代码

Python爬虫从入门到放弃（二十四）之 Scrapy登录知乎

Python爬虫从入门到放弃（二十三）之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换

Python爬虫从入门到放弃（二十二）之 爬虫与反爬虫大战

Python爬虫从入门到放弃（二十一）之 Scrapy分布式部署

Python爬虫从入门到放弃（二十）之 Scrapy分布式原理

关于Python3中venv虚拟环境

Python爬虫番外篇之关于登录

站在圈外看待小米公司发展史

Python爬虫从入门到放弃（十九）之 Scrapy爬取所有知乎用户信息(下)

Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)

Python爬虫番外篇之Cookie和Session

Python爬虫从入门到放弃（十七）之 Scrapy框架中Download Middleware用法

Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法

Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法

Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法

Python爬虫从入门到放弃（十三）之 Scrapy框架的命令行详解

Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理

Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解

爬虫性能相关

Python爬虫从入门到放弃（十）之 关于深度优先和广度优先

python爬虫从入门到放弃前奏之学习方法

Go 从入门到精通（三）字符串，时间，流程控制，函数

go 从入门到精通（二）基本数据类型和操作符

python爬虫番外篇（一）进程，线程的初步了解

Go从入门到精通（一）go语言初识

python爬虫从入门到放弃（九）之 实例爬取上海高级人民法院网开庭公告数据

python爬虫从入门到放弃（八）之 Selenium库的使用

python爬虫从入门到放弃（六）之 BeautifulSoup库的使用

python爬虫从入门到放弃（五）之 正则的基本使用

python爬虫从入门到放弃（四）之 Requests库的基本使用

python爬虫从入门到放弃（三）之 Urllib库的基本使用

python爬虫从入门到放弃（二）之爬虫的原理

我的博客即将入驻“云栖社区”，诚邀技术同仁一同入驻。

Go基础--goroutine和channel

一篇文章帮你解决python的包管理

Go基础--终端操作和文件操作

Go基础之--结构体和方法

go基础之--函数和map

让你用sublime写出最完美的python代码--windows环境

Go基础之--数组和切片

Go基础之--位操作中你所不知道的用法

让你成功安装vscode中go的相关插件

初学者没有搞明白的GOROOT,GOPATH,GOBIN,project目录

Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战

Python爬虫从入门到放弃（十）之关于深度优先和广度优先

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

python爬虫从入门到放弃（五）之正则的基本使用