Python爬虫模拟登录京东获取个人信息

简介:

  http://www.xgezhang.com/python_crawler_jingdong.html

先上我的代码。参考了上面链接的文章

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
# -*- coding: utf-8 -*-
# !/usr/bin/python
import  os
import  urllib2
import  urllib
import  cookielib
import  re 
import  sys
from  bs4  import  BeautifulSoup
'''
编码方式的设置,在中文使用时用到中文时的处理方式
'''
default_encoding  =  "utf-8"
if  sys.getdefaultencoding() ! =  default_encoding:
   reload (sys)
   sys.setdefaultencoding( "utf-8" )
def  getHtml(url,data = {}):
     if (data = = {}):
         req = urllib2.Request(url)
     else :
         req = urllib2.Request(url,urllib.urlencode(data))
     html = urllib2.urlopen(req).read()
     return  html
try :
     cookie  =  cookielib.CookieJar()
     cookieProc  =  urllib2.HTTPCookieProcessor(cookie)
except :
     raise
else :
      opener  =  urllib2.build_opener(cookieProc)
      opener.addheaders  =  [( 'User-Agent' , 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11' )]
      urllib2.install_opener(opener)
auth_url = 'https://passport.jd.com/uc/loginService'
#auth_url = 'http://www.nowamagic.net/'
home_url = 'http://usergrade.jd.com/user/consume'
#home_url = 'http://www.nowamagic.net/librarys/nmra/';
url  =  "https://passport.jd.com/uc/login"
login = getHtml(url)
#print login 
loginSoup  =  BeautifulSoup(login, 'html.parser' )
#查找登陆参数中的uuid
uuid  =  loginSoup.find_all( "form" )[ 0 ].find_all( "input" )[ 0 ][ 'value' ]
print  uuid
clrName = loginSoup.find_all( "form" )[ 0 ].find_all( "input" )[ 6 ][ 'name' ]
clrValue = loginSoup.find_all( "form" )[ 0 ].find_all( "input" )[ 6 ][ 'value' ]
'''这俩参数不是必须。。。。
eid=loginSoup.find_all("form")[0].find_all("input")[4]['value']
fp=loginSoup.find_all("form")[0].find_all("input")[5]['value']
'''
#下载验证码图片:
checkPicUrl  =  loginSoup.find_all( "div" , id = "o-authcode" )[ 0 ].find_all( "img" )[ 0 ][ 'src2' ]
req  =  getHtml(checkPicUrl)
checkPic  =  open ( "checkPic.jpg" , "w" )
checkPic.write(req)
checkPic.close()
#调用mac系统的预览(图像查看器)来打开图片文件
os.system( 'open /Applications/Preview.app/ checkPic.jpg' )
checkCode  =  raw_input ( "请输入弹出图片中的验证码:"
#登录URL
url  =  "http://passport.jd.com/uc/loginService"
# 登陆用户名和密码
postData  =  {
     'loginname' : '你自己的账号' ,
     'nloginpwd' : '你自己的密码' ,
     'loginpwd' : '你自己的密码' ,
     # 'machineNet':'',
     # 'machineCpu':'',
     # 'machineDisk':'', 
     str (clrName): str (clrValue),
     'uuid' :uuid,
     'authcode' : checkCode
}
passport = getHtml(url,postData)
print  passport
# 初始化一个CookieJar来处理Cookie
'''
cookieJar=cookielib.CookieJar()
# 实例化一个全局opener
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar))
# 获取cookie
req=urllib2.Request(auth_url,post_data,headers)
result = opener.open(req)
# 访问主页 自动带着cookie信息
'''
result  =  opener. open ( 'http://i.jd.com/user/info' )
# 显示结果
#print result.read()
soup = BeautifulSoup(result, 'html.parser' )
#昵称
nickName  =  soup.find_all( "input" id = "nickName" )[ 0 ][ "value" ]
print  "nickName:" ,
print  nickName

其实在第一次爬的时候确实是成功返回了{“success”:“http://www.jd.com”}。

但是当我回到寝室再次测试的时候却给我返回了“请刷新页面后重新提交”,暂时还没有解决。


本文转自 努力的C 51CTO博客,原文链接:http://blog.51cto.com/fulin0532/1748590


相关文章
|
19小时前
|
数据采集 存储 架构师
上进计划 | Python爬虫经典实战项目——电商数据爬取!
在如今这个网购风云从不间歇的时代,购物狂欢持续不断,一年一度的“6.18年中大促”、“11.11购物节”等等成为了网购电商平台的盛宴。在买买买的同时,“如何省钱?”成为了大家最关心的问题。 比价、返利、优惠券都是消费者在网购时的刚需,但在这些“优惠”背后已产生灰色地带。
|
19小时前
|
数据采集 XML 数据处理
Python爬虫实战:利用BeautifulSoup解析网页数据
本文将介绍如何利用Python中的BeautifulSoup库来解析网页数据,帮助读者更好地开发爬虫程序,实现自动化数据采集与处理。
|
1天前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
2天前
|
数据采集 数据处理 开发者
Python爬虫技术在数据收集与分析中的应用
随着互联网信息的爆炸式增长,数据收集与分析变得愈发重要。本文将介绍Python爬虫技术在实际项目中的应用,探讨其在数据收集、清洗和分析过程中的作用,以及如何利用Python相关库提高爬虫效率。
|
3天前
|
Web App开发 数据采集 前端开发
Python Selenium 爬虫淘宝案例
本文基于Selenium + MongoDB + ChromeDriver + Pyquery实现爬虫淘宝案例。
38 1
|
3天前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)
35 2
|
4天前
|
机器学习/深度学习 数据采集 JSON
Python爬虫requests库详解#3
摘要:python requests库基用法,高级用法
37 0
|
JavaScript 前端开发 Python
Python:模拟登录、点击和执行 JavaScript 语句案例
Python:模拟登录、点击和执行 JavaScript 语句案例
254 0
|
3天前
|
分布式计算 IDE 开发工具
如何提高 Python 编程效率
Python 是一种易学、易用的编程语言,但是在实际开发中,我们也会遇到各种各样的问题。本文将分享一些实用的技巧,帮助你提高 Python 编程效率。
|
4天前
|
机器学习/深度学习 人工智能 数据挖掘
Python编程中的高级技巧
Python编程中的高级技巧
35 1

相关产品

  • 云迁移中心