一个学习python的小白。同名公众号分享学习生活趣事。
列表推导式很强大。 def section(num1,num2): # 交集并集差集 alist = [i for i in num1 if i in num2] alist2 = [i for i in num1 if i not in num2] alist3 = list(set(num1).
python中一切皆对象 python中的一切皆对象更加彻底 在python中的一切皆对象比Java中的一切皆对象更加彻底,Java中有class,也就是类的概念,object是class的一个实例。
数据分析的结构层次 底层数据的收集/产品端收集 数据采集简称埋点,收集用户在网页端,产品端,客户端等终端的数据,也包括第三方外部数据。用户行为-原始数据 数据业务化/产品需要什么样的数据? 将收集的数据转换为可理解,可量化,可观察的业务指标。
更换数据表mysql 上文说到编写好了我们的 model 模块,映射生成数据表,之前我们用的是Django 默认的数据库 sqlite3 ,这里我们更改一下使用 mysql。
windows python 3.6 32bit python3+版本不用mysql-python,改用 mysqlclient 我们Django中连接数据库要用到 mysqlclient 的驱动,用pip命令下载会报错: 报错信息 我们到...
什么是 Django Django 是一个基于 python 的高级 web 开发框架。 它能够让开发人员进行高效且快速的开发。 高度集成(不用自己造轮子),免费并且开源。
[TOC] 目录 在哪
需要观察房天下url的构造,本次爬取的是新房和二手房两个栏目的具体字段。 涉及到的知识点有url的拼接,具体字段的解析清洗,页面不规整的情况下,怎样提取。
min 在 Python 中 min 函数可以直接返回列表中的最小项。 现在用代码演示一下,怎么用代码实现在列表中检索一个最小项。 def fn(L): MinIndex = 0 CurrentInder = 1 while C...
数据同步及异步存储到MySQL 对于ajax 加载的数据用selenium辅助加载解析 整站爬取提取url规则 jianshu.py 文件 import scrapy from scrapy.
settings.py 文件中添加请求头,robots改为False。 代码中注释较为详细,看不懂的私聊哦 import scrapy from urllib import request from PIL import Image class DoubanLoginSpiderSpider(scrapy.
创建crawlspider scrapy startproject wxapp cd wxapp scrapy genspider -t crawl wxappspider www.
简单的登录操作,等有空的话写一个自动登录的爬虫吧。 from lxml import etree from selenium import webdriver from selenium.
用到的知识点: selenium 显式等待 两个窗口的切换 '''用selenium爬取拉勾''' from lxml import etree from selenium import webdriver from selenium.
爬虫用线程提速吧,用斗图网来做个对比。 普通爬虫,没用线程的例子: import re,os,requests,time from urllib import request from lxml import etree from fake_usera...
在 middlewares.py 文件中添加: from selenium import webdriver import time from scrapy.
一些小的技巧配置,让我们的爬虫被识别的概率降低。 cookies 的禁用 在settings.py 文件中有一个参数是: COOKIES_ENABLED = False 默认情况下是禁用的,request 就不会把 cookies 带进去。
上回说到设置随机 User-Agent ,这次来一个随机代理 ip 的设置。 代理ip 在爬虫中,为了避免网站将我们的 ip 封掉,我们就要使用代理 ip 。
最近在学习 scrapy 中,突破反爬限制的几种方法,总结一下,记录学习过程中的收获。 在以后的学习中也有可能会用到这些知识。 Downloader Middleware 简单介绍一下 Downloader Middleware 即下载中间件,它处于 Scrapy 的 Request 和 Response 之间的处理模块,在 scrapy 的整个架构中起作用的位置是以下两个 在Scheduler 调度出队列的 Request 发给 Downloader 下载之前,也就是我们可以在 Request 执行下载之前对其进行修改。
默认在你用 hexo + git + github 已经搭建好一个静态博客的情况下配置主题。 安装主题 安装的过程就一行代码,你需要在博客根目录右键 Git Bash Here 输入以下命令: git clone https://github.com/theme-next/hexo-theme-next themes / next 以上代码的意思是从 点这里 将next下载到当前目录下的themes里面的next文件夹中。
python清洗excel的数据还是很简单的 这里就列举例子说一下 这是原始数据,这里要处理的是地区和薪水两个字段。 清洗前数据 import xlrd import codecs import re def get_salary(sal...
秋招这个时候已经开始了,正所谓知己知彼方能百战不殆,今天就从招聘网站下手分析一波机械的就业前景。 这次获取数据的网站是前程无忧,之所以选择前程无忧,是因为数据获取没有什么难度,再者前程无忧提供的岗位信息比智联招聘,拉勾提供的数据都多。
题目 给定长度为 2n 的数组, 你的任务是将这些数分成 n 对, 例如 (a1, b1), (a2, b2), ..., (an, bn) ,使得从1 到 n 的 min(ai, bi) 总和最大。
代码没含量,希望帮到入门的小白。 import requests import re,json from lxml import etree import csv class Spider(): def open_csv(self): ...
B 站真是个神奇的网站。找不到资料了,去 B 站逛一逛,保准有你满意的东西。 前几天写了个爬虫,用 path、re、BeautifulSoup 爬取的 B 站 python 视频,但是这个爬虫有有个缺陷,没能获取视频的图片信息,如果你去尝试你会发现它根本就不在返回的结果里面。
创建仓库 先在github上创建一个仓库 创建仓库 点击之后看下图: 详情 先点第一个箭头所指的,再点第二个箭头所指的。 跳转的网页 详情 输入上传项目的名称,点击创建。
题目 国际摩尔斯密码定义一种标准编码方式,将每个字母对应于一个由一系列点和短线组成的字符串, 比如: "a" 对应 ".-", "b" 对应 "-...", "c" 对应 "-.-.", 等等。
注:本文是廖大的教程文章,本人也在学习,因为老是记不住,自己手打一边,代码也是亲自测试。廖大传送门 多进程和多线程是实现多任务的常用两种方式。现在比较一下这两种方式。
之前已经爬过今日头条街拍的美图,今天再次完善一下代码,并详解爬取过程及遇到的坑。废话不多说,抓紧上车啦。 分析页面 分析索引页 我们打开今日头条官网,在在搜索框输入「街拍」 首页内容 然后点击确定,跳转到街拍的详情页。
题目 给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在众数。
注:本文是廖大的教程文章,本人也在学习,因为老是记不住,自己手打一边,代码也是亲自测试。廖大传送门 多进程 多个任务可以由多进程完成,也可以由一个进程内的多线程完成。
这里用淘宝来练习一下 selenium 的使用,可以替换关键字,爬取不同的物品,比如说衣服、鞋子之类的。 from selenium import webdriver from selenium.
要让python实现多进程「multiprocessing」。我们先来了解操作系统相关知识。 Unix 和 Linux 操作系统提供了一个 fork() 函数系统调用,它非常特殊。
指定好友发送消息 大家在测试的时候尽量使用微信小号 不要不改代码就测试 这里调用了金山词霸的每日一句,你也可以指定文字信息发送,七夕快到了,你懂得。 from threading import Timer from wxpy import * i...
闲来无事,找点段子一乐呵,就逛到糗事百科,这次爬取没有什么难度,唯一值得说道的是增加了一点点的代码健壮性。 import requests from lxml import etree class Spider(): def __get_...
题目1 统计字符串中的单词个数,这里的单词指的是连续的不是空格的字符。 请注意,你可以假定字符串里不包括任何不可打印的字符。 示例: 输入: "Hello, my name is John" 输出: 5 解答 class Solutio...
题目 给定 S 和 T 两个字符串,当它们分别被输入到空白的文本编辑器后,判断二者是否相等,并返回结果。 # 代表退格字符。 示例 1: 输入:S = "ab#c", T = "ad#c" 输出:true 解释:S 和 T 都会变成 “ac”。
黄渤导演的处女作《一出好戏》在八月十号上映,两天累计票房4.37亿,豆瓣评分7.4,网友一片叫好,没想到拍出了一部魔幻现实主义的故事。下面我们用数据来展示一下网友的看法。
题目 给定一个非空整数数组,除了某个元素只出现一次以外,其余每个元素均出现了三次。找出那个只出现了一次的元素。 说明: 你的算法应该具有线性时间复杂度。
题目 某城市开了一家新的电影院,吸引了很多人过来看电影。该电影院特别注意用户体验,专门有个 LED显示板做电影推荐,上面公布着影评和相关电影描述。 作为该电影院的信息部主管,您需要编写一个 SQL查询,找出所有影片描述为非 boring (不无聊) 的并且 id 为奇数 的影片,结果请按等级 rating 排列。
题目 初始位置 (0, 0) 处有一个机器人。给出它的一系列动作,判断这个机器人的移动路线是否形成一个圆圈,换言之就是判断它是否会移回到原来的位置。 移动顺序由一个字符串表示。
题目1 编写一个函数,其作用是将输入的字符串反转过来。 示例 1: 输入: "hello" 输出: "olleh" 示例 2: 输入: "A man, a plan, a canal: Panama" 输出: "amanaP :lanac a ,na...
镇楼 题目 给定一个二进制矩阵 A,我们想先水平翻转图像,然后反转图像并返回结果。 水平翻转图片就是将图片的每一行都进行翻转,即逆序。例如,水平翻转 [1, 1, 0] 的结果是 [0, 1, 1]。
先来了解一下汉明距离 在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。
1、什么是python的虚拟环境 virtualenv是一个创建隔绝python环境的工具,virtualenv创建一个包含所有必要的可执行文件的文件夹,用来使用Python工程所需的包。
scrapy在Windows下安装会很麻烦,要安装许多依赖库,本文为你介绍一下怎么安装,scrapy.分为六步 1、安装 wheel 首先要确保你的python配置到环境变量里,否则你的python和pip都无法使用。
import requests,re from lxml import etree from bs4 import BeautifulSoup def get_page(page): try: #这里要加上cookie ...
打卡第二天,今天的题目是一道SQL查询问题,SQL在工作中经常用到,面试的时候也会出一些基本的SQL语句,我们就从最简单的开始吧。 题目: 这里有张 World 表 name continent area population gdp Afg...
一直觉得自己的编程能力不怎么好,于是想到了在Leecode上刷题的这个想法。就先从最基础的开始吧。如果你有更好的解答方法,欢迎与我交流。 题目: 给定字符串J代表石头中宝石的类型,和字符串S代表你拥有的石头。