Python爬虫模拟登录京东获取个人信息

简介:

  http://www.xgezhang.com/python_crawler_jingdong.html

先上我的代码。参考了上面链接的文章

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
# -*- coding: utf-8 -*-
# !/usr/bin/python
import  os
import  urllib2
import  urllib
import  cookielib
import  re 
import  sys
from  bs4  import  BeautifulSoup
'''
编码方式的设置,在中文使用时用到中文时的处理方式
'''
default_encoding  =  "utf-8"
if  sys.getdefaultencoding() ! =  default_encoding:
   reload (sys)
   sys.setdefaultencoding( "utf-8" )
def  getHtml(url,data = {}):
     if (data = = {}):
         req = urllib2.Request(url)
     else :
         req = urllib2.Request(url,urllib.urlencode(data))
     html = urllib2.urlopen(req).read()
     return  html
try :
     cookie  =  cookielib.CookieJar()
     cookieProc  =  urllib2.HTTPCookieProcessor(cookie)
except :
     raise
else :
      opener  =  urllib2.build_opener(cookieProc)
      opener.addheaders  =  [( 'User-Agent' , 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11' )]
      urllib2.install_opener(opener)
auth_url = 'https://passport.jd.com/uc/loginService'
#auth_url = 'http://www.nowamagic.net/'
home_url = 'http://usergrade.jd.com/user/consume'
#home_url = 'http://www.nowamagic.net/librarys/nmra/';
url  =  "https://passport.jd.com/uc/login"
login = getHtml(url)
#print login 
loginSoup  =  BeautifulSoup(login, 'html.parser' )
#查找登陆参数中的uuid
uuid  =  loginSoup.find_all( "form" )[ 0 ].find_all( "input" )[ 0 ][ 'value' ]
print  uuid
clrName = loginSoup.find_all( "form" )[ 0 ].find_all( "input" )[ 6 ][ 'name' ]
clrValue = loginSoup.find_all( "form" )[ 0 ].find_all( "input" )[ 6 ][ 'value' ]
'''这俩参数不是必须。。。。
eid=loginSoup.find_all("form")[0].find_all("input")[4]['value']
fp=loginSoup.find_all("form")[0].find_all("input")[5]['value']
'''
#下载验证码图片:
checkPicUrl  =  loginSoup.find_all( "div" , id = "o-authcode" )[ 0 ].find_all( "img" )[ 0 ][ 'src2' ]
req  =  getHtml(checkPicUrl)
checkPic  =  open ( "checkPic.jpg" , "w" )
checkPic.write(req)
checkPic.close()
#调用mac系统的预览(图像查看器)来打开图片文件
os.system( 'open /Applications/Preview.app/ checkPic.jpg' )
checkCode  =  raw_input ( "请输入弹出图片中的验证码:"
#登录URL
url  =  "http://passport.jd.com/uc/loginService"
# 登陆用户名和密码
postData  =  {
     'loginname' : '你自己的账号' ,
     'nloginpwd' : '你自己的密码' ,
     'loginpwd' : '你自己的密码' ,
     # 'machineNet':'',
     # 'machineCpu':'',
     # 'machineDisk':'', 
     str (clrName): str (clrValue),
     'uuid' :uuid,
     'authcode' : checkCode
}
passport = getHtml(url,postData)
print  passport
# 初始化一个CookieJar来处理Cookie
'''
cookieJar=cookielib.CookieJar()
# 实例化一个全局opener
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar))
# 获取cookie
req=urllib2.Request(auth_url,post_data,headers)
result = opener.open(req)
# 访问主页 自动带着cookie信息
'''
result  =  opener. open ( 'http://i.jd.com/user/info' )
# 显示结果
#print result.read()
soup = BeautifulSoup(result, 'html.parser' )
#昵称
nickName  =  soup.find_all( "input" id = "nickName" )[ 0 ][ "value" ]
print  "nickName:" ,
print  nickName

其实在第一次爬的时候确实是成功返回了{“success”:“http://www.jd.com”}。

但是当我回到寝室再次测试的时候却给我返回了“请刷新页面后重新提交”,暂时还没有解决。


本文转自 努力的C 51CTO博客,原文链接:http://blog.51cto.com/fulin0532/1748590


相关文章
|
21天前
|
数据采集 JSON API
深入解析:使用 Python 爬虫获取淘宝店铺所有商品接口
本文介绍如何使用Python结合淘宝开放平台API获取指定店铺所有商品数据。首先需注册淘宝开放平台账号、创建应用并获取API密钥,申请接口权限。接着,通过构建请求、生成签名、调用接口(如`taobao.items.search`和`taobao.item.get`)及处理响应,实现数据抓取。代码示例展示了分页处理和错误处理方法,并强调了调用频率限制、数据安全等注意事项。此技能对开发者和数据分析师极具价值。
|
2天前
|
数据采集 监控 Python
Python爬虫异常处理:自动跳过无效URL
Python爬虫异常处理:自动跳过无效URL
Python爬虫异常处理:自动跳过无效URL
|
3天前
|
数据采集 JavaScript Python
如何根据目标网站调整Python爬虫的延迟时间?
如何根据目标网站调整Python爬虫的延迟时间?
|
15天前
|
数据采集 XML JavaScript
Python爬虫:从人民网提取视频链接的完整指南
Python爬虫:从人民网提取视频链接的完整指南
|
21天前
|
数据采集 XML 存储
Python爬虫实战:一键采集电商数据,掌握市场动态!
这个爬虫还挺实用,不光能爬电商数据,改改解析规则,啥数据都能爬。写爬虫最重要的是要有耐心,遇到问题别着急,慢慢调试就成。代码写好了,运行起来那叫一个爽,分分钟几千条数据到手。
|
20天前
|
数据采集 Web App开发 API
B站高清视频爬取:Python爬虫技术详解
B站高清视频爬取:Python爬虫技术详解
|
1天前
|
Web App开发 数据采集 前端开发
Python + Chrome 爬虫:如何抓取 AJAX 动态加载数据?
Python + Chrome 爬虫:如何抓取 AJAX 动态加载数据?
|
4月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
240 6
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
375 4
|
8月前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
137 4