两份数据基于文本和住房信息的分词统计 tfidf 数分作业

简介: 两份数据基于文本和住房信息的分词统计 tfidf 数分作业

2b33044993e44b56ac613c7233656c40.png907161e98dc94d5a90dba5615eab38bc.png

78f871ab27b743aa85d48deb6a06ccb4.png

#-*- coding : utf-8-*-
import numpy as np
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter
#
lj_data=pd.read_csv("lj_gb.csv",encoding="gb18030")
print(lj_data.head())
print(lj_data.columns)
# Index(['line', 'station', 'property_name', 'bedrooms', 'livingrooms',
#        'building_area', 'direction', 'decoration', 'has_elevator', 'hml',
#        'building_height', 'building_year', 'building_style',
#        'building_location', 'price_sqm', 'price_ttl'],
#       dtype='object')
# 第一问:
cout_hml=Counter(lj_data["hml"].values)
print(cout_hml)
plt.rcParams["font.sans-serif"] = ['Simhei']
plt.rcParams["axes.unicode_minus"] = False
# 柱状图
Y=[int(i) for i in list(cout_hml.values())][:-1]
X=list(cout_hml.keys())[:-1]
print(X)
print(Y)
plt.bar(X,Y,0.6,color="green")
plt.xticks(rotation=90, fontsize=14)
plt.xlabel("hml",fontsize=14)
plt.ylabel("sum",fontsize=14)
plt.title("hml统计")
plt.show()
cout_bedrooms=Counter(lj_data["bedrooms"].values)
Y=[int(i) for i in list(cout_bedrooms.values())][:-1]
X=list(cout_bedrooms.keys())[:-1]
print(X)
print(Y)
plt.bar(X,Y,0.6,color="green")
plt.xticks(rotation=90, fontsize=14)
plt.xlabel("bedrooms",fontsize=14)
plt.ylabel("sum",fontsize=14)
plt.title("bedrooms统计")
plt.show()
# 多变量分析:热力图
data=lj_data[["bedrooms","livingrooms","has_elevator","building_height","price_ttl"]]
ax=plt.subplots(figsize=(20,16))
ax=sns.heatmap(data.corr(),vmax=.8,square=True,annot=True)
plt.show()
# 我们对 "bedrooms","livingrooms"进行二维相关性探索
plt.figure(figsize=(16,8))
plt.title("bedrooms和livingrooms相关性图")
plt.xlabel('bedrooms',fontsize=8)
plt.ylabel('livingrooms',fontsize=8)
plt.scatter(data["bedrooms"].values,data["livingrooms"].values)
plt.show()
# 我们得出了在房地产中bedrooms和 livingrooms 是正相关的关系 而且他们是有一定关联性的


数据代码+报告:

https://download.csdn.net/download/qq_38735017/87351621

相关文章
|
11月前
|
JSON Java Maven
如何批量查询自己的CSDN博客质量分
如何批量查询自己的CSDN博客质量分
192 0
|
19天前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
89 1
|
10月前
|
算法 数据可视化 Python
一种基于R语言tidyverse的算法:批量查找SNP位点连锁区内对应的QTL以及基因
一种基于R语言tidyverse的算法:批量查找SNP位点连锁区内对应的QTL以及基因
|
12月前
|
数据采集 机器学习/深度学习 数据挖掘
数据处理|数据查重怎么办?去重,就这么办!
数据处理|数据查重怎么办?去重,就这么办!
121 0
|
数据挖掘
白话Elasticsearch41-深入聚合数据分析之案例实战__过滤+聚合:统计价格大于2000的电视平均价格
白话Elasticsearch41-深入聚合数据分析之案例实战__过滤+聚合:统计价格大于2000的电视平均价格
75 0
|
数据挖掘
白话Elasticsearch43-深入聚合数据分析之案例实战__排序:按每种颜色的平均销售额升序排序
白话Elasticsearch43-深入聚合数据分析之案例实战__排序:按每种颜色的平均销售额升序排序
61 0
|
存储 Web App开发 人工智能
快递单信息抽取【三】--五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务
快递单信息抽取【三】--五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务
|
编解码
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
111 0
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
一段统计双色球历史摇奖记录里每位出现次数的代码
一段统计双色球历史摇奖记录里每位出现次数的代码
149 0
一段统计双色球历史摇奖记录里每位出现次数的代码