暂时未有相关云产品技术能力~
读取Excel表格数据示例import pandas as pd#导入库函数并另名为pd file_name = 'xxx.xlsx'#需要读取的文件路径(可以是相对路径或绝对路径) data=pd.read_excel(file_name)#将路径信息作为需要读取的参数传入,data接受所读取的数据内容 # 可以对data进行数据的相关操作参数解读read_excel() 的常用的参数: io: excel路径 可以是文件路径, 类文件对象, 文件路径对象等。 sheet_name=0: 访问指定excel某张工作表。sheet_name可以是str, int, list 或 None类型, 默认值是0。 str类型 是直接指定工作表的名称 int类型 是指定从0开始的工作表的索引, 所以sheelt_name默认值是0,即第一个工作表。 list类型 是多个索引或工作表名构成的list,指定多个工作表。 None类型, 访问所有的工作表 sheet_name=0: 得到的是第1个sheet的DataFrame类型的数据 sheet_name=2: 得到的是第3个sheet的DataFrame类型的数据 sheet_name=‘Test1’: 得到的是名为’Test1’的sheet的DataFrame类型的数据 sheet_name=[0, 3, ‘Test5’]: 得到的是第1个,第4个和名为Test5 的工作表作为DataFrame类型的数据的字典。 header=0:header是标题行,通过指定具体的行索引,将该行作为数据的标题行,也就是整个数据的列名。默认首行数据(0-index)作为标题行,如果传入的是一个整数列表,那这些行将组合成一个多级列索引。没有标题行使用header=None。 name=None: 传入一列类数组类型的数据,用来作为数据的列名。如果文件数据不包含标题行,要显式的指出header=None。 skiprows:int类型, 类列表类型或可调函数。 要跳过的行号(0索引)或文件开头要跳过的行数(int)。如果可调用,可调用函数将根据行索引进行计算,如果应该跳过行则返回True,否则返回False。一个有效的可调用参数的例子是lambda x: x in [0, 1, 2]。 skipfooter=0: int类型, 默认0。自下而上,从尾部指定跳过行数的数据。 usecols=None: 指定要使用的列,如果没有默认解析所有的列。 index_col=None: int或元素都是int的列表, 将某列的数据作为DataFrame的行标签,如果传递了一个列表,这些列将被组合成一个多索引,如果使用usecols选择的子集,index_col将基于该子集。 squeeze=False, 布尔值,默认False。 如果解析的数据只有一列,返回一个Series。 dtype=None: 指定某列的数据类型,可以使类型名或一个对应列名与类型的字典,例 {‘A’: np.int64, ‘B’: str} nrows=None: int类型,默认None。 只解析指定行数的数据
检查是否有配置文件在/etc/redis.conf尚硅谷的课程中启动方式redis-server /etc/redis.conf 造成Could not connect to Redis at 127.0.0.1:6379: Connection refused的问题有很多,这里只能通过自己去排查。
综合运用数据分析与数据挖掘课程中的数据探索、数据预处理、分析建模等理论知识,能够根据不同的业务的场景,选定不同的数据分析与数据挖掘模型,并能够通过Python语言及第三方库编程实现,培养学生数据分析思维,为学生今后从事数据分析相关工作奠定基础数据处理对数据进行质量探索,包括重复值,缺失值,异常值,不一致的值等1. # 加载数据 2. import pandas as pd 3. credits_data=pd.read_csv("data/项目一/tmdb_5000_credits.csv") 4. credits_data.shape# 查看数据的维度两张表的数据处理 1. print('-------------------------------------统计量描述-------------------------------------') 2. explore = credits_data.describe(percentiles=[], include='all').T # percentiles参数是指定计算多少的分位数表 3. explore['null'] = len(credits_data) - explore['count'] # describe()函数自动计算非空值数,需要手动计算空值数 4. print(explore.head()) 5. explore = explore[['null', 'max', 'min','mean']] 6. explore.columns = [u'空值数', u'最大值', u'最小值',u'平均值'] # 表头重命名 7. # explore.to_csv('data/项目一/credits_data统计量描述.csv') # 保存结果 8. print('--------------------------------------空值统计--------------------------------------') 9. print(credits_data.isnull().sum()) 描述性分析 导入表数据1. #导入tmdb_5000_movies表中的数据 2. data_movies=pd.read_csv("data/项目一/tmdb_5000_movies.csv") 3. data_movies.head(2) 描述性分析数据划分选取我们所需要的字段进行划分数据集,使用特征选取函数,选取六个最好的特征进行建模。1. x=data_L.drop("vote_average",axis=1) #自变量 2. y=data_L["vote_average"]# 因变量1. from sklearn.model_selection import train_test_split 2. #划分数据集 训练集80%测试集20% 3. x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2,random_state=42)数据建模随机森林模型随机森林是一种有监督学习算法。就像它的名字一样,它创建了一个森林,并使它拥有某种方式随机性。所构建的“森林”是决策树的集成,大部分时候都是用“bagging”方法训练的。bagging 方法,即 bootstrapaggregating,采用的是随机有放回的选择训练数据然后构造分类器,最后组合学习到的模型来增加整体的效果。简而言之,随机森林建立了多个决策树,并将它们合并在一起以获得更准确和稳定的预测1. import numpy as np 2. import matplotlib.pyplot as plt 3. from sklearn.ensemble import RandomForestRegressor 4. from sklearn.model_selection import train_test_split 5. from sklearn.multioutput import MultiOutputRegressor 6. # #定义模型 7. regr_rf = RandomForestRegressor() 8. # 集合模型 9. regr_rf.fit(x_train, y_train) 10. # 利用预测 11. y_rf = regr_rf.predict(x_test) 12. #评价 13. print(regr_rf.score(x_test, y_test)) 14. # y_rf.round(1)模型评估学习曲线也是有很好的走向,重合了大部分的真实值,其中budget,popularity, release_date, revenue, runtime, vote_count字段是影响评分的主要因素,在自变量确定的情况下使用模型能够很好的对评分进行准确的的预测。一部电影能有很不错的收益,参与影评的人也多,在全国的流行度也高,这想当然是一部高分电影。也充分说明了随机森林就是根据多决策的方式进行结果的准确预测1. import numpy as np 2. import matplotlib.pyplot as plt 3. from sklearn.ensemble import RandomForestRegressor 4. from sklearn.model_selection import train_test_split 5. from sklearn.multioutput import MultiOutputRegressor 6. from sklearn.model_selection import train_test_split 7. x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2,random_state=93) 8. # #定义模型 决策树的个数设置150 树的最大深度10 9. regr_rf = RandomForestRegressor(n_estimators=150,max_depth=10,random_state=0) 10. 11. # 集合模型 12. regr_rf.fit(x_train, y_train) 13. # 利用预测 14. y_rf = regr_rf.predict(x_test) 15. #评价 16. print(regr_rf.score(x_test, y_test))结果预测查看预测结果60%以上预测的值与实际值是差不多的随机森林是一种很好的算法是对Bagging算法进行了改进,在解决本次问题中,随机森林会是一个不错的选择。最重要的是,它为你选择的特征提供了一个很好的重要性表示。同时可以处理许多不同属性的特征类型。随机森林是从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。而电影的评分也是受到多个因素的影响产不同的结果,这就需要进行多方面的决策, 当输入样本进入的时候,随机森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就准确的预测这个样本,这也极大提高了预测电影评分的准确度。源码及数据已上传资源,需要联系丝发!
2023年01月