用Python实现手机抓包,获取当当图书差评数据!

简介:

在这个万物互联的时代,手机端(App)、电脑端(Web),连接着你我他。

本次学习了手机抓包的相关知识,了解了Charles-mitmproxy-Appium的基本使用,通过对当当图书评论的爬取,得以实践。

那么就让我们来看看当当图书「活着」的差评吧!

/ 01 / Charles

Charles是一个APP抓包工具,与我之前最先使用的Filddler相似,可以得到手机App运行过程中发生的所有网络请求和响应内容。

这里简单说一下安装。

电脑端下载安装完Charles后,需要配置证书,最后开启SSL监听,这个具体大家自己自行百度。

手机端则是需要与电脑在同一网络下,比如都连接家里的WIFI,然后在手机的WIFI高级选项里使用Charles代理,输入电脑的IP地址,端口8888,最后为证书命名。

连好以后,手机打开当当App,到图书「活着」的差评页,不断向下滑动差评页面,便能在电脑上的Charles观察到下面的信息。

50df0eaaf9bb9c5427a4a4961670e4f032ad3fe9

将电脑上的信息与手机上的信息匹配一下。


d5c25312f79e88ee8836aba7661afb08e0b560fd

这样我们通过请求信息,就可以知道App评论的真正API接口了。

不过呢有的时候会碰见App接口带有密匙的,我们不好确定出API接口,那么就轮到mitmproxy上场了。

/ 02 / mitmproxy

mitmproxy也是用来抓包的,是一个控制台形式,我理解的就是没有UI界面,在命令行上展示的(windows上不能用,我瞎理解的...)。

mitmproxy有两个关联组件,一个是mitmdump,是mitmproxy的命令行接口,可以对接Python脚本,用Python实现监听后的处理,也就是用脚本处理信息。

另一个是mitmweb,为Web程序服务,本次不涉及。

mitmproxy的安装同样需要证书配置,电脑端配一个,手机端也要配一个。

这里有个坑,我的华为手机直接识别不了pem格式的文件,无法直接安装,还得从SD卡那才能安装,也就是有权限问题。

手机WIFI代理设置和Charles差不多,只是端口需要改变,这里是8080,。

然后命令行运行我都是在mitmdump.exe所在的文件夹开启的,实在是不想去搞那些烦人的环境变量。

这里就直接讲mitmdump的应用,毕竟windows用不了mitmproxy。

e7f17d0a4ecda50472101433d5c0cab7cf4458df

通过手动下滑差评页面,就能自动处理信息并存储。


c34f438b78a044b58b42f8e539b7907913e1485b

Python脚本如下,第一次深刻接触脚本大佬,以前还只是听说了游戏脚本而已。


 

import json

def response(flow):
url = 'product.mapi.dangdang.com'
page_size = 'page_size=15'
# 对url进行筛选,只选取评论的url
if url and page_size in flow.request.url:
text = flow.response.text
data = json.loads(text)
for item in data['review_list']:
# 获取用户昵称
if len(item['cust_name']) > 0:
name = item['cust_name']
else:
name = '无名'
print(item['cust_name'])
# 获取用户评分
if len(item['score']) > 0:
score = str(item['score'])
else:
score = '0'
print(item['score'] + '\n')
# 获取用户评论
content = item['content'].replace(',', ',').replace('\n', '')
print(item['content'] + '\n')
# 获取用户评论时间
creation_date = item['creation_date']
print(item['creation_date'])
# 获取有用数
if len(str(item['total_helpful_num'])) > 0 :
total_helpful_num = str(item['total_helpful_num'])
else:
total_helpful_num = '0'
print(item['total_helpful_num'])
# 获取无用数
if len(str(item['total_useless_num'])) > 0 :
total_useless_num = str(item['total_useless_num'])
else:
total_useless_num = '0'
print(item['total_useless_num'])
# 获取评论数
if len(str(item['total_reply_num'])) > 0 :
total_reply_num = str(item['total_reply_num'])
else:
total_reply_num = '0'
print(item['total_reply_num'])
print('\n')
# 将获取信息写入csv文件
with open('alive.csv', 'a+', encoding='utf-8-sig') as f:
f.write(name + ',' + score + ',' + content + ',' + creation_date + ',' + total_helpful_num + ',' + total_useless_num + ',' + total_reply_num + '\n')

那么我们现在已经实现了信息的获取和存储,是不是已经完成工作了呢?

并不是,我们还要实现自动化,上面可是手动下滑页面啊!

感谢程序让人解放双手,实现自动化,佩服佩服。

/ 03 / Appium

Appium是移动端自动化测试工具,它可以模拟App内部的各种操作,本次用到就有「点击」和「下滑」。

其实就跟selenium 一样,只不过一个是电脑端自动化,一个是手机端自动化。

Appium安装挺复杂的,而且新版本的命令还不一样。

比如下滑,已经不能使用swip,而是使用TouchAction。

环境变量就是JDK,SDK等,坑太多,小伙伴慢慢体会...

都准备好了之后,将手机和电脑通过数据线连接,打开USB调试,允许访问数据。

用adb命令获取连接情况,及手机型号信息。

用SDK包下的aapt命令获取APK的包名及入口名,这里不细说,有事找度娘。

这样便能配置Appium参数了。

0e18938349616882e856acc06dedd19a1bbee698

点击蓝色按钮,手机便能自动启动当当App啦!

接下来就是操作手机,然后点击Appium的刷新键,获取元素定位代码,这里就完全用Appium上给的定位,懒得想,毕竟对手机网页不是很懂...

{ 左右滑动切换图片 }

690a275aeb0a20ac6ff4909eaac9a86443fca2b8

最后就是使用Python代码驱动App啦。

 

import time
import random
from appium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from appium.webdriver.common.touch_action import TouchAction
from selenium.webdriver.support import expected_conditions as EC


def main():
# 设置驱动配置
server = 'http://localhost:4723/wd/hub'
desired_caps = {
'platformName': 'Android',
'deviceName': 'STF_AL00',
'appPackage': 'com.dangdang.buy2',
'appActivity': 'com.dangdang.buy2.StartupActivity'
}
driver = webdriver.Remote(server, desired_caps)
# 这里获取一下手机屏幕实际大小,可以为设置滑动参数做参考
size = driver.get_window_size()
print(size)
wait = WebDriverWait(driver, 60)
# 因为要叫我切换地区,选择取消
button_1 = wait.until(EC.presence_of_element_located((By.ID, 'com.dangdang.buy2:id/left_bt')))
button_1.click()
# 点击图书榜按钮
button_2 = wait.until(EC.presence_of_element_located((By.ID, 'com.dangdang.buy2:id/index_icon_iv0')))
button_2.click()
# 点击图书「活着」区域块
button_3 = wait.until(EC.presence_of_element_located((By.XPATH, '/hierarchy/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.FrameLayout/android.widget.RelativeLayout/android.support.v4.view.ViewPager/android.widget.RelativeLayout/android.widget.ListView/android.widget.LinearLayout[2]')))
button_3.click()
# 点击评论区域块
button_4 = wait.until(EC.presence_of_element_located((By.ID, 'com.dangdang.buy2:id/product_component_book_score_ll')))
button_4.click()
time.sleep(5)
# 点击差评按钮
button_5 = wait.until(EC.presence_of_element_located((By.XPATH, '/hierarchy/android.widget.FrameLayout/android.widget.LinearLayout/android.widget.FrameLayout/android.widget.RelativeLayout/android.support.v4.view.ViewPager/android.widget.LinearLayout/android.support.v4.view.ViewPager/android.widget.RelativeLayout/android.widget.LinearLayout/android.view.ViewGroup/android.widget.RelativeLayout[6]/android.widget.TextView')))
button_5.click()
# 向下滑动,y轴参数我随便选的,向上滑就对了
while True:
TouchAction(driver).press(x=515, y=1247).move_to(x=515, y=1026).release().perform()
time.sleep(float(random.randint(5, 10)))


if __name__ == '__main__':
main()

手机自动操作就在下面这个视频里,我录下来的(小程序识别)。


aaf8690d4ff7a01ec4e479ec0515330feeb70a16

最后成功存储数据。

1afd0a6472a71a2868351cfe6d5769bd2ad0e976

/ 04 / 数据可视化

词云代码如下。

 

from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import pandas as pd
import jieba

df = pd.read_excel('alive.xlsx', header=None, names=["name", "score", "comment", "date", "up_number", "down_number", "reply_number"])

text = ''
for line in df['comment']:
text += ' '.join(jieba.cut(line, cut_all=False))
backgroud_Image = plt.imread('book.jpg')
stopwords = set('')
stopwords.update(['没有', '什么', '不是', '知道', '怎么', '就是', '本书', '当当', '这个 商品', '一个', '自己', '真的', '商品 不太好', '一本', '这样', '但是', '现在', '你们', '一直', '以后', '这个', '商品'])

wc = WordCloud(
background_color='white',
mask=backgroud_Image,
font_path='C:\Windows\Fonts\STZHONGS.TTF',
max_words=2000,
max_font_size=150,
random_state=30,
stopwords=stopwords
)
wc.generate_from_text(text)
# 看看词频高的有哪些,把无用信息去除
process_word = WordCloud.process_text(wc, text)
sort = sorted(process_word.items(), key=lambda e:e[1], reverse=True)
print(sort[:50])
img_colors = ImageColorGenerator(backgroud_Image)
wc.recolor(color_func=img_colors)
plt.imshow(wc)
plt.axis('off')
wc.to_file("活着.jpg")
print('生成词云成功!')


最后生成差评词云,来看看大家怎么吐槽的。

b317b0c59bc5c36810102ee5c635e2e8b8352061

可以看出主要槽点就是「快递物流」「书本质量」「客服服务」上 。

毕竟「活着」这本书,内容还是不错的,从中深深的体会到生活的不易~

文末点个赞,比心!!!

原文发布时间为: 2018-11-27
本文作者:法纳斯特
本文来自云栖社区合作伙伴“Python数据之道”,了解相关信息可以关注“
Python数据之道”。

相关文章
|
4天前
|
数据采集 数据安全/隐私保护 Python
从零开始:用Python爬取网站的汽车品牌和价格数据
在现代化办公室中,工程师小李和产品经理小张讨论如何获取懂车帝网站的汽车品牌和价格数据。小李提出使用Python编写爬虫,并通过亿牛云爬虫代理避免被封禁。代码实现包括设置代理、请求头、解析网页内容、多线程爬取等步骤,确保高效且稳定地抓取数据。小张表示理解并准备按照指导操作。
从零开始:用Python爬取网站的汽车品牌和价格数据
|
1月前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
2月前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
2月前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
2月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
2月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
2月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
2月前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
126 80
|
21天前
|
存储 缓存 Java
Python高性能编程:五种核心优化技术的原理与Python代码
Python在高性能应用场景中常因执行速度不及C、C++等编译型语言而受质疑,但通过合理利用标准库的优化特性,如`__slots__`机制、列表推导式、`@lru_cache`装饰器和生成器等,可以显著提升代码效率。本文详细介绍了这些实用的性能优化技术,帮助开发者在不牺牲代码质量的前提下提高程序性能。实验数据表明,这些优化方法能在内存使用和计算效率方面带来显著改进,适用于大规模数据处理、递归计算等场景。
58 5
Python高性能编程:五种核心优化技术的原理与Python代码
|
2月前
|
Python
[oeasy]python055_python编程_容易出现的问题_函数名的重新赋值_print_int
本文介绍了Python编程中容易出现的问题,特别是函数名、类名和模块名的重新赋值。通过具体示例展示了将内建函数(如`print`、`int`、`max`)或模块名(如`os`)重新赋值为其他类型后,会导致原有功能失效。例如,将`print`赋值为整数后,无法再用其输出内容;将`int`赋值为整数后,无法再进行类型转换。重新赋值后,这些名称失去了原有的功能,可能导致程序错误。总结指出,已有的函数名、类名和模块名不适合覆盖赋新值,否则会失去原有功能。如果需要使用类似的变量名,建议采用其他命名方式以避免冲突。
51 14

热门文章

最新文章