玩转itchat,实现好友信息可视化、聊天机器人及性别模型构建

简介: 前些日子,女朋友拿我手机玩,说我微信好友女生多,当时我就不服了(跪着认错了),然后两人一个个统计性别,我微信好友不算多,但也有300来个,人工统计实在费事,之后事情也就不了了之了(打了我一顿)。
img_eddc1f5d4531eac9fe21a36fb101023d.png

前些日子,女朋友拿我手机玩,说我微信好友女生多,当时我就不服了(跪着认错了),然后两人一个个统计性别,我微信好友不算多,但也有300来个,人工统计实在费事,之后事情也就不了了之了(打了我一顿)。
昨天突然想到itchat库可以获取微信好友信息,所以又拿出来玩了一下,为什么说又了?之前用过itchat制作好友全头像,链接(https://www.jianshu.com/p/684cbdf15874)。所以今天继续使用itchat来玩转好友信息。

涉及内容

为了让小白也能自己学会使用,本文涉及的内容包括以下部分:

  • 环境安装
  • 小试牛刀
  • 微信好友统计可视化
  • 微信机器人
  • 性别预测

环境安装

本人使用的是anaconda3的Python环境(该环境拥有数据科学的大部分库,例如:numpy,pandas,sklearn),除此之外,需要安装第三方库。itchat用于获取微信好友信息;pyecharts用于绘制统计图,另外绘制地图需要安装地图 js 文件,不然地图无法显示;jieba用于统计词频,用于绘制词云图。通过下面代码一一安装即可:

pip install itchat
pip install pyecharts
pip install echarts-countries-pypkg
pip install echarts-china-provinces-pypkg
pip install echarts-china-cities-pypkg
pip install echarts-china-counties-pypkg
pip install echarts-china-misc-pypkg
pip install jieba

小试牛刀

安装完itchat,就可以通过下面的代码给文件助手发消息了,这里给自己发没意思,决定给女朋友发一个(首先你得有一个女朋友,其次她愿意扫码登陆)。

import itchat

itchat.auto_login()  ##登陆

itchat.send('美女', toUserName='filehelper')
itchat.send('早上好', toUserName='filehelper')
img_c0776db6a22c80c613ffa9456d672a6a.jpe

微信好友统计可视化

数据收集

首先通过itchat获取好友的信息,第一个其实是自己,所以保存数据需要跳过第一个好友。

friends = itchat.get_friends(update=True)[0:] #获取数据
print(friends[0])
img_8148cd54eeb861b62664617882dd6ad5.png

根据分析情况,获取部分字段数据,并保存在csv文件中。

import csv

f = open('C:/Users/LP/Desktop/1.csv','w+',encoding='utf-8',newline='')
writer = csv.writer(f)
writer.writerow(['NickName','Sex','City','Province','Signature'])

for i in friends[1:]:
    writer.writerow([i['NickName'],i['Sex'],i['City'],i['Province'],i['Signature']])

#pandas读数据
import pandas as pd

df = pd.read_csv(open('C:/Users/LP/Desktop/1.csv',encoding='utf-8'))
df.head()
img_0e6135b0e2e4284be47eadc87bdc3b4d.png
性别分布

首先对性别进行统计(慌得一匹),并使用pyecharts库进行可视化分析。如图可以看出,男性比例还是更多一些的,外星人是没有设置性别的好友。

data1 = df.groupby('Sex')['Sex'].count()

from pyecharts import Pie

attr = ['外星人','男性', '女性']
v1 = list(data1)
pie = Pie('微信好友性别分布')
pie.add("", attr, v1, is_label_show=True)
pie
img_db0b60376470020ec27edb345a9f1414.png
地区分布

地区字段有缺失值,我们通过布尔选择过滤到缺失值后,通过groupby统计个数,利用pyecharts库进行可视化。
由于本人是湖南人,并且求学一直都没有离开过湖南,所以湖南的人数最多,其他省份的人数都是较少的。

new_df2 = df[df['Province'].notnull()]

data = new_df2.groupby('Province')['Province'].count()
# 绘图
from pyecharts import Map

label = list(data.index)
value = list(data)
map = Map('微信好友地区分布情况', width=1200, height=600)
map.add("", label, value, maptype='china', is_visualmap=True,
        visual_text_color='#000')
map
img_6ff740cde6b367f22480069ff0a036c2.png
词云图

最后,通过jieba分词,计算词频,绘制好友个性签名的词云图。曾经我们90后的杀马特QQ昵称、个性签名,大家是否还记得?情殇、浅唱、爱你就是一辈子....还记得我最早的QQ昵称是泷太子...
这里可以看到本人微信好友英语不错的样子,各种英语秀的我头皮发麻,他们时而愤青(个性、随意),不远随波逐流;
时而低落(浅醉、唯心),为生活颠簸;
最后不得而变得中庸(平凡,留不住)。

str_data = ''
for i in range(new_df.shape[0]):
    str_data = str_data + new_df.iloc[i,4]

# 正则去掉部分非法字符
import re
str_data = re.sub('span', '',str_data,re.S)
str_data = re.sub('class', '',str_data,re.S)
str_data = re.sub('emoji', '',str_data,re.S)

# jieba分词统计
import jieba.analyse
tags = jieba.analyse.extract_tags(str_data, topK=50, withWeight=True)
label = []
attr = []
for item in tags:
    label.append(item[0])
    attr.append(int(item[1]*1000))

# 绘图
from pyecharts import WordCloud

wordcloud = WordCloud(width=800, height=620)
wordcloud.add("", label[3:], attr[3:], word_size_range=[20, 100])
wordcloud
img_af896dd496b58c5ec0275ea50821a446.png

微信机器人

首先,我们需要去图灵机器人网站(http://www.tuling123.com/)注册机器人账号,获取apikey,使用自己的apikey即可运行代码,完成微信机器人的工作。

import requests
import itchat

KEY = '这里为申请的apikey'

def get_response(msg):
    apiUrl = 'http://www.tuling123.com/openapi/api'
    data = {
        'key'    : KEY,
        'info'   : msg,
        'userid' : 'wechat-robot',
    }
    try:
        r = requests.post(apiUrl, data=data).json()
        return r.get('text')
    except:
        return

@itchat.msg_register(itchat.content.TEXT)
def tuling_reply(msg):
    defaultReply = 'I received: ' + msg['Text']
    reply = get_response(msg['Text'])
    return reply or defaultReply

itchat.auto_login(hotReload=True)
itchat.run()
img_8bc74953b2389c22b7f278af2460044e.jpe
img_a68f3f786ef0dfd656b1a09f11f0dfd6.jpe

性别预测

最后,我们尝试使用用户昵称来构造分类模型,预测昵称的用户性别。

数据整理

首先导入需要的库,接着合并数据(这里有8份好友数据),然后筛选出用户性别为男和女的用户。

import pandas as pd
import os
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

list_all = os.listdir('C:/Users/LP/Desktop/info_friend')
all_list = []
for i in list_all:
    path = 'C:/Users/LP/Desktop/info_friend/' + i
    df = pd.read_csv(open(path,encoding='utf-8'))
    all_list.append(df)
all_data = pd.concat([all_list[0],all_list[1],all_list[2],all_list[3],all_list[4],all_list[5],all_list[6],all_list[7]])

df = all_data[(all_data['Sex'] == 1) | (all_data['Sex'] == 2)]
数据预处理

这里划分数据集,并通过CountVectorizer将数据转换为词向量。

X_train, X_test, Y_train, Y_test = train_test_split(df['NickName'], df['Sex'], test_size=0.2, random_state=22)

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_cov = count_vect.fit_transform(X_train)
模型训练及评价

用最简单的朴素贝叶斯来进行建模,并进行模型评价。通过结果看出,数据在训练样本精度很高,而在测试样本严重欠拟合。

clf = MultinomialNB(alpha=0.0001)
clf.fit(X_train_cov, Y_train)

clf.score(X_train_cov, Y_train)

X_test_cov = count_vect.transform(X_test)
clf.score(X_test_cov, Y_test)

test = ['陈傻逼','罗罗攀','ace','我是小仙女']
X = count_vect.transform(test)
clf.predict(X)
img_236eb1c67649e998ba3c84e5f76f9b6b.png
不足与讨论

由于时间精力不足,模型预测结果有待优化,读者可尝试以下方法进行优化:

  • 扩大数据集
  • 文本处理
  • 算法选择
  • 模型的优化
相关文章
|
23天前
|
传感器 数据可视化 机器人
【ROS速成】半小时入门机器人ROS系统简明教程之可视化系统(三)
半小时入门机器人ROS系统简明教程之可视化系统
|
3月前
|
数据可视化 机器人 Python
实例9:四足机器人运动学正解平面RR单腿可视化
本文是关于四足机器人正向运动学(FK)的实例教程,通过Python编程实现了简化的mini pupper平面二连杆模型的腿部可视化,并根据用户输入的关节角计算出每个关节相对于基坐标系的坐标。
60 1
|
3月前
|
数据可视化 算法 机器人
实例10:四足机器人运动学逆解可视化与实践
本文是关于四足机器人逆运动学(IK)的实例教程,介绍了逆运动学的概念、求解方法、多解情况和工作空间,并通过Python编程实现了简化的mini pupper平面二连杆模型的逆运动学可视化,包括单腿舵机的校准和动态可视化运动学计算结果。
114 0
|
5月前
|
机器人 定位技术 C++
技术笔记:ROS中测试机器人里程计信息
技术笔记:ROS中测试机器人里程计信息
|
数据采集 供应链 机器人
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
445 0
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
|
机器人 Python
Python 微信机器人-用itchat库向好友发送名片、转发名片实例演示
Python 微信机器人-用itchat库向好友发送名片、转发名片实例演示
234 1
Python 微信机器人-用itchat库向好友发送名片、转发名片实例演示
|
移动开发 监控 前端开发
机器人制证系统大屏可视化
机器人制证系统大屏可视化
机器人制证系统大屏可视化
|
数据可视化 机器人 数据安全/隐私保护
Apsara Clouder认证之旅 阿里云RPA(机器人流程自动化)- 初级入门(可视化)
认证笔记 - Apsara Clouder 技能认证 - 通用技术技能认证 - 阿里云 RPA(机器人流程自动化)- 初级入门(可视化)
529 0
Apsara Clouder认证之旅 阿里云RPA(机器人流程自动化)- 初级入门(可视化)
|
机器学习/深度学习 人工智能 机器人
人死能复生:俄罗斯程序员将死去的好友“复活”为聊天机器人
要跟我们爱的人告别是很痛苦的,尤其是当他们突然离世的时候。但是多亏如今有了快速发展的人工智能技术,很快你可能就不需要和他们永别了。好吧,至少咱们可以说不需要完全真正地永别。这儿就有个例子:Eugenia Kuyda是俄罗斯一个人工智能初创公司 Luka Inc 的创始人之一,最近她将她去世的好友以智能聊天机器人的形式召唤回了人间。
228 0
人死能复生:俄罗斯程序员将死去的好友“复活”为聊天机器人
|
机器人 Python
Python 微信机器人-通过wxpy库向指定名称的好友发送微信消息实例演示
Python 微信机器人-通过wxpy库向指定名称的好友发送微信消息实例演示
221 0
Python 微信机器人-通过wxpy库向指定名称的好友发送微信消息实例演示

热门文章

最新文章