两份数据基于文本和住房信息的分词统计 tfidf 数分作业

简介: 两份数据基于文本和住房信息的分词统计 tfidf 数分作业

2b33044993e44b56ac613c7233656c40.png907161e98dc94d5a90dba5615eab38bc.png

78f871ab27b743aa85d48deb6a06ccb4.png

#-*- coding : utf-8-*-
import numpy as np
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter
#
lj_data=pd.read_csv("lj_gb.csv",encoding="gb18030")
print(lj_data.head())
print(lj_data.columns)
# Index(['line', 'station', 'property_name', 'bedrooms', 'livingrooms',
#        'building_area', 'direction', 'decoration', 'has_elevator', 'hml',
#        'building_height', 'building_year', 'building_style',
#        'building_location', 'price_sqm', 'price_ttl'],
#       dtype='object')
# 第一问:
cout_hml=Counter(lj_data["hml"].values)
print(cout_hml)
plt.rcParams["font.sans-serif"] = ['Simhei']
plt.rcParams["axes.unicode_minus"] = False
# 柱状图
Y=[int(i) for i in list(cout_hml.values())][:-1]
X=list(cout_hml.keys())[:-1]
print(X)
print(Y)
plt.bar(X,Y,0.6,color="green")
plt.xticks(rotation=90, fontsize=14)
plt.xlabel("hml",fontsize=14)
plt.ylabel("sum",fontsize=14)
plt.title("hml统计")
plt.show()
cout_bedrooms=Counter(lj_data["bedrooms"].values)
Y=[int(i) for i in list(cout_bedrooms.values())][:-1]
X=list(cout_bedrooms.keys())[:-1]
print(X)
print(Y)
plt.bar(X,Y,0.6,color="green")
plt.xticks(rotation=90, fontsize=14)
plt.xlabel("bedrooms",fontsize=14)
plt.ylabel("sum",fontsize=14)
plt.title("bedrooms统计")
plt.show()
# 多变量分析:热力图
data=lj_data[["bedrooms","livingrooms","has_elevator","building_height","price_ttl"]]
ax=plt.subplots(figsize=(20,16))
ax=sns.heatmap(data.corr(),vmax=.8,square=True,annot=True)
plt.show()
# 我们对 "bedrooms","livingrooms"进行二维相关性探索
plt.figure(figsize=(16,8))
plt.title("bedrooms和livingrooms相关性图")
plt.xlabel('bedrooms',fontsize=8)
plt.ylabel('livingrooms',fontsize=8)
plt.scatter(data["bedrooms"].values,data["livingrooms"].values)
plt.show()
# 我们得出了在房地产中bedrooms和 livingrooms 是正相关的关系 而且他们是有一定关联性的


数据代码+报告:

https://download.csdn.net/download/qq_38735017/87351621

相关文章
|
JSON Java Maven
如何批量查询自己的CSDN博客质量分
如何批量查询自己的CSDN博客质量分
295 0
|
8月前
|
算法
算法编程(二十九):统计一致字符串的数目
算法编程(二十九):统计一致字符串的数目
91 0
|
移动开发 人工智能
马尔可夫链预测举例——钢琴销售的存贮策略
马尔可夫链预测举例——钢琴销售的存贮策略
197 0
|
算法 数据可视化 Python
一种基于R语言tidyverse的算法:批量查找SNP位点连锁区内对应的QTL以及基因
一种基于R语言tidyverse的算法:批量查找SNP位点连锁区内对应的QTL以及基因
|
数据采集 机器学习/深度学习 数据挖掘
数据处理|数据查重怎么办?去重,就这么办!
数据处理|数据查重怎么办?去重,就这么办!
165 0
|
存储 Web App开发 人工智能
快递单信息抽取【三】--五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务
快递单信息抽取【三】--五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务
|
编解码
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
152 0
中秋节祝福程序源代码分享:土地分类数据阈值筛选和重投影分类
|
搜索推荐
长尾关键词有那几种形式?
长尾关键词一般存在如下三种形式,分别是导航类关键词、问答型关键词以及购买型关键词,下面分别对这三种形式的关键词加以说明。 1、导航类关键词 导航类关键词属于一个特定品牌或者网站的总称,如163、新浪、搜狐等的导航类关键词,这类关键词的竞争异常激烈,中小型站长很难做上去。
219 0
|
Shell Perl Python
「BioNano系列」下机原始数据过滤和评估
从这部分开始,就开始涉及一些软件的操作和数据分析,因此在进入正文之前,我们需要准备好环境。 环境准备 第一步:从 https://bionanogenomics.com/library/datasets/下载人类测试数据集,以及对应的NA12878人类基因组。
3621 1