用Python获取了微信好友数据,进行可视化分析发现~

简介: 大家好,我是志斌~最近志斌因为公众号,加了许多的好友,就想着看看爬取一下微信好友,然后理智的分析一波~~需要源码的读者,加志斌微信获取哈~

01数据采集


我们这次使用的是Itchat库来获取的微信好友数据。


01

登陆


用Itchat库来获取微信好友数据,首先需要先进行登陆。代码如下:


itchat.auto_login(hotReload=True)


其中hotReload=True的作用是,在短时间内获取数据不需要重复进行登陆验证。


02

获取好友数据


Itchat库的get_friends()功能可以获取所有好友的数据。但是它获取的数据类型是一种Itchat类型,因为没我们要用正则来提取数据,所以要将数据转化成字符串类型,代码如下:


all_friends = str(itchat.get_friends())


此时,我们就可以开始对数据进行提取了,这里我们提取的是好友个性签名、好友性别、好友所在省份和地市,这四个数据来进行可视化展示。代码如下:


#签名
Signature = re.findall("'Signature': '([\u4e00-\u9fa5].*?)',",all_friends)
c = 0
for i in Signature:
   with open(r'签名.txt','a') as f:
       try:
           f.write(i)
       except:
           pass
#统计性别数量
Sex = re.findall("'Sex': (.*?),",all_friends)
man = woman = other = 0
for i in Sex:
   if i == '1':
       man+=1
   elif i == '2':
       woman+=1
   else:
       other+=1
#省份和城市数据
shengfens = re.findall(r"'Province': '(.*?)',",all_friends)
chengshis = re.findall(r"'City': '(.*?)',",all_friends)
#绘制朋友省份分布地图
shengfen = []
for i in range(len(shengfens)):
   if shengfens[i] == '':
       pass
   else:
       shengfen.append(shengfens[i])
# 绘制河南省内朋友分布图
chengshi = []
for i in range(len(chengshis)):
   if shengfens[i] == '河南':
       chengshi.append(chengshis[i])


02可视化展示


我们一共获取了973个好友的数据,下面对这些数据,来进行数据可视化展示。


01

签名词云可视化


通过对所有好友的个性签名进行词云可视化,我们发现,努力、生活、时间、世界、没有这几个词语最多,看来我的好友大多倾向于跟这些词汇相关的事情。


46.png

代码如下:


with open("签名.txt",) as f:
   job_title_1 = f.read()
job_title_2 = re.sub('span','',job_title_1)
job_title_3 = re.sub('class','',job_title_2)
job_title_4 = re.sub('emoji','',job_title_3)
job_title_5 = re.sub('自己','',job_title_4)
job_title_6 = re.sub('回复','',job_title_5)
# job_title_7 = re.sub('位于','',job_title_6)
contents_cut_job_title = jieba.cut(job_title_6)
contents_list_job_title = " ".join(contents_cut_job_title)
wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,
              background_color="white",
              font_path=r"K:\苏新诗柳楷简.ttf",
              width=400, height=300, random_state=42,
              mask=imread('xin.jpg', pilmode="RGB")
              )
wc.generate(contents_list_job_title)
wc.to_file("推荐语.png")


02

性别数量图


通过对好友性别进行可视化,我们发现,我们有男性好友543人,女性好友318人,还有112人没有填写这项信息。


47.png



省份分布图


我们通过对这973个好友所在省份进行可视化展示发现,我们的好友最多集中在河南,有263位,其次是广东,有69位。河南的好友最多,很可能是因为志斌是河南人的缘故。


48.gif



代码如下:


province_distribution = dict(Counter(shengfen).most_common())
provice = list(province_distribution.keys())
values = list(province_distribution.values())
map = Map("中国地图",width=1200, height=600)
map.add("", provice, values, visual_range=[0, 200], maptype='china', is_visualmap=True,
visual_text_color='#000',is_label_show=True)
map.render(path="地图.html")


04

河南省内好友分布


通过上面我们分析发现,我们河南的好友最多,那么志斌接着对自己河南省内好友的地市分布进行了可视化展示。


从展示图中我们发现,好友最多集中在郑州,有116位,其次是鹤壁,有38位,志斌家是鹤壁的,在郑州上学,郑州的好友比鹤壁的多,估计是上大学才有手机的缘故导致的。


49.gif


代码如下:


city = []
values = []
for k,v in dict(Counter(chengshi).most_common()).items():
    city.append(k+'市')
    values.append(v)
map2 = Map("河南地图",'河南', width=1200, height=600)
map2.add('河南', city, values, visual_range=[1, 25], maptype='河南', is_visualmap=True, visual_text_color='#000')
map2.render(path="河南地图.html")


03小结


1. 本文详细介绍了用Itchat库获取四类好友数据的方法,并进行可视化展示,有兴趣的读者,可以加志斌微信,获取本文全部代码哈~

2. Itchat库的登陆是网页版登陆,大家使用它的话,要先确保自己可以登陆微信网页版,否则可能无法爬取数据。

3. 本文仅供学习参考,不做其他用途。


相关文章
|
6天前
|
数据采集 数据安全/隐私保护 Python
从零开始:用Python爬取网站的汽车品牌和价格数据
在现代化办公室中,工程师小李和产品经理小张讨论如何获取懂车帝网站的汽车品牌和价格数据。小李提出使用Python编写爬虫,并通过亿牛云爬虫代理避免被封禁。代码实现包括设置代理、请求头、解析网页内容、多线程爬取等步骤,确保高效且稳定地抓取数据。小张表示理解并准备按照指导操作。
从零开始:用Python爬取网站的汽车品牌和价格数据
|
18天前
|
并行计算 安全 Java
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
在Python开发中,GIL(全局解释器锁)一直备受关注。本文基于CPython解释器,探讨GIL的技术本质及其对程序性能的影响。GIL确保同一时刻只有一个线程执行代码,以保护内存管理的安全性,但也限制了多线程并行计算的效率。文章分析了GIL的必要性、局限性,并介绍了多进程、异步编程等替代方案。尽管Python 3.13计划移除GIL,但该特性至少要到2028年才会默认禁用,因此理解GIL仍至关重要。
95 16
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
|
26天前
|
缓存 Rust 算法
从混沌到秩序:Python的依赖管理工具分析
Python 的依赖管理工具一直没有标准化,主要原因包括历史发展的随意性、社区的分散性、多样化的使用场景、向后兼容性的挑战、缺乏统一治理以及生态系统的快速变化。依赖管理工具用于处理项目中的依赖关系,确保不同环境下的依赖项一致性,避免软件故障和兼容性问题。常用的 Python 依赖管理工具如 pip、venv、pip-tools、Pipenv、Poetry 等各有优缺点,选择时需根据项目需求权衡。新工具如 uv 和 Pixi 在性能和功能上有所改进,值得考虑。
84 35
|
28天前
|
数据采集 数据可视化 数据挖掘
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
本文探讨了金融资产波动率建模中的三种主流方法:GARCH、GJR-GARCH和HAR模型,基于SPY的实际交易数据进行实证分析。GARCH模型捕捉波动率聚类特征,GJR-GARCH引入杠杆效应,HAR整合多时间尺度波动率信息。通过Python实现模型估计与性能比较,展示了各模型在风险管理、衍生品定价等领域的应用优势。
247 66
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
|
1月前
|
数据采集 缓存 API
python爬取Boss直聘,分析北京招聘市场
本文介绍了如何使用Python爬虫技术从Boss直聘平台上获取深圳地区的招聘数据,并进行数据分析,以帮助求职者更好地了解市场动态和职位需求。
|
1月前
|
机器学习/深度学习 运维 数据可视化
Python时间序列分析:使用TSFresh进行自动化特征提取
TSFresh 是一个专门用于时间序列数据特征自动提取的框架,支持分类、回归和异常检测等机器学习任务。它通过自动化特征工程流程,处理数百个统计特征(如均值、方差、自相关性等),并通过假设检验筛选显著特征,提升分析效率。TSFresh 支持单变量和多变量时间序列数据,能够与 scikit-learn 等库无缝集成,适用于大规模时间序列数据的特征提取与模型训练。其工作流程包括数据格式转换、特征提取和选择,并提供可视化工具帮助理解特征分布及与目标变量的关系。
74 16
Python时间序列分析:使用TSFresh进行自动化特征提取
|
1月前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python实现基于矩阵分解的长期事件(MFLEs)时间序列分析
在现代数据分析中,高维时间序列数据的处理和预测极具挑战性。基于矩阵分解的长期事件(MFLEs)分析技术应运而生,通过降维和时间序列特性结合,有效应对大规模数据。MFLE利用矩阵分解提取潜在特征,降低计算复杂度,过滤噪声,并发现主要模式。相比传统方法如ARIMA和深度学习模型如LSTM,MFLE在多变量处理、计算效率和可解释性上更具优势。通过合理应用MFLE,可在物联网、金融等领域获得良好分析效果。
63 0
使用Python实现基于矩阵分解的长期事件(MFLEs)时间序列分析
|
1月前
|
数据可视化 算法 数据挖掘
Python时间序列分析工具Aeon使用指南
**Aeon** 是一个遵循 scikit-learn API 风格的开源 Python 库,专注于时间序列处理。它提供了分类、回归、聚类、预测建模和数据预处理等功能模块,支持多种算法和自定义距离度量。Aeon 活跃开发并持续更新至2024年,与 pandas 1.4.0 版本兼容,内置可视化工具,适合数据探索和基础分析任务。尽管在高级功能和性能优化方面有提升空间,但其简洁的 API 和完整的基础功能使其成为时间序列分析的有效工具。
79 37
Python时间序列分析工具Aeon使用指南
|
2月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。

热门文章

最新文章

推荐镜像

更多