有着丰富的爬虫工作经验,从c#语言转入到python语言,擅长各种爬虫技术,熟悉大规模爬虫开发。热爱并喜欢钻研python。
能力说明:
了解Python语言的基本特性、编程环境的搭建、语法基础、算法基础等,了解Python的基本数据结构,对Python的网络编程与Web开发技术具备初步的知识,了解常用开发框架的基本特性,以及Python爬虫的基础知识。
阿里云技能认证
详细说明retrying模块的学习 我们在写爬虫的过程中,经常遇到爬取失败的情况,这个时候我们一般会通过try块去进行重试,但是每次都写那么一堆try块,真的是太麻烦,所以今天就来说一个比较pythonic的模块,retrying. 安装 retring模块的安装很简单直接用匹配安装即可。
redis简介 Redis是一个开源的,高性能的,基于键值对的缓存与存储系统,通过设置各种键值数据类型来适应不同场景下的缓存与存储需求。同时redis的诸多高层级功能使其可以胜任消息队列,任务队列等不同角色。
log文件的路径 #判断在当前的目录下是否有一个logs文件夹。没有则创建 log_dir = os.path.dirname(os.path.dirname(__file__))+'/logs'if not os.
前几天就想写一个爬虫系列的文章,因为比较忙所以没有写(还不是因为懒),趁着现在屋里比较的凉爽,心也比较的静,总结下目前遇到的一些爬虫知识,本系列将从简单的爬虫开始说起,后会逐渐的提升难度,同时会对反爬手段做一个总结,以及用具体的事例来演示,不同的反爬现象和实现手段。
上次我们说到golm的简单应用,glom模块的使用(一) 这次我们继续对glom的其他操作进行学习。 Literal 用法:class glom.Literal(value) 这个方法的功能主要是添加自定义的键值。
Celery 是一个简单、灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需工具。它是一个专注于实时处理的任务队列,同时也支持任务调度。Celery 是语言无关的,虽然它是用 Python 实现的,但他提供了其他常见语言的接口支持。
Mysql存储之原生语句操作(pymysql) 关系型数据库是基于关系模型的数据库,而关系模型是通过二维表时实现的,于是构成了行列的表结构。 表可以看作是某个实体的集合,而实体之间存在联系,这个就需要通过表之间的关联关系来体现,比如主键的关联关系,多个表组成了一个数据库,也就是关系型数据库。
什么是ORM ORM技术:Object-Relational Mapping,把关系数据库的表结构映射到对象上 也就是说不用再操作mysql的底层语句,而是通过操作映射后的对象。 安装与导入Sqlalchemy包 安装需要 pip install sqlalchemy 另外这里用了pymysql作...
javascript反混淆之packed混淆(一) 什么是JavaScript反混淆,在理解这个概念前我们先来看下什么是代码混淆,代码混淆,是将计算机程序的代码,转换成一种功能上等价,但是难于阅读和理解的形式的行为。
glom模块的使用 简单说下glom模块主要是处理结构化数据用的,安装简单pip install glom即可,下面就glom的方法参数做例子讲解。 glom 和模块同名的glom方法使用方法: .glom(target, spec, **kwargs) target参数是结构化数据,一般是json嵌套类型。
glob模块 功能描述:glob模块可以使用Unix shell风格的通配符匹配符合特定格式的文件和文件夹,跟windows的文件搜索功能差不多。glob模块并非调用一个子shell实现搜索功能,而是在内部调用了os.listdir()和fnmatch.fnmatch()。
fnmatch模块的使用 此模块的主要作用是文件名称的匹配,并且匹配的模式使用的unix shell风格。 fnmatch比较简单就4个方法分别是:fnmatch,fnmatchcase,filter,translate 1.fnmatch fnmatch.fnmatch(filename, pattern) 测试filename,是否符合pattern。
平时我们也许用的更多的是requests模块,或者是requests_hml模块,但是他们都属于阻塞类型的不支持异步,速度很难提高,于是后来出现了异步的grequests,开始了异步网络请求,速度得到了大大的提升,但是今天我们要说的另外的一个比较异步网络请求模块-aiohttp。
上次我们简单了解了一下什么是单例模式,今天我们继续探究。 上次的内容点这 上次们讨论的是GoF的单例设计模式,该模式是指:一个类有且只有一个对象。通常我们需要的是让实例共享一个相同的装态 比如数据库连接。
单例设计模式的概念: 单例设计模式即确保类有且只有一个特定类型的对象,并提供全局访问点。一般我们操作数据库的时候为了避免统一资源产生互相冲突,创建单例模式可以维护数据的唯一性。 单例模式的特性: 确保类有且只有一个对象被创建。
Python3.2开始,标准库为我们提供了concurrent.futures模块,它提供了ThreadPoolExecutor和ProcessPoolExecutor两个类,实现了对threading和multiprocessing的进一步抽象,对编写线程池/进程池提供了直接的支持,他属于上层的封装,对于用户来说,不用在考虑那么多东西了。
整理一下最近被问到的一些高频率的面试问题。总结一下方便日后复习巩固用,同时希望可以帮助一些朋友们。前两期点这↓python近期遇到的一些面试问题(一)python近期遇到的一些面试问题(二) 1.请写一个邮箱的正则表达式 电子邮件地址有统一的标准格式:用户名@服务器域名。
1. 解释什么是栈溢出,在什么情况下可能出现。 栈溢出是由于C语言系列没有内置检查机制来确保复制到缓冲区的数据不得大于缓冲区的大小,因此当这个数据足够大的时候,将会溢出缓冲区的范围。 在Python中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。
整理一下高频率的面试问题。希望可以帮助一些朋友们。 1.python的基本数据类型 主要核心类型分为两类 不可变类型: 数字(int float bool complex),字符串(string),元祖(tuple),不可变集合(frozenset)。
爬出基础组成部分了解
一份详细的python异步编程 入门教程
一个爬虫小技巧
有一个好的思路比技巧更重要。
如何使用python下载视频