开发者学堂课程【机器学习实战:整体流程介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/530/detail/7128
整体流程介绍
内容介绍
一、整体分析流程介绍
二、案例生存预测
三、案例分析推荐
一、整体分析流程介绍
1、需求分析包含:场景分析 数据收集 数据探查 算法选择
2、数据预处理包含:数据清洗 数据集成 数据变换 数据规约
3、特征工程包含:特征生成 特征变换 特征评估 特征选择
4、算法建模包含:模型训练 参数调优 交叉验证 执行调优
5、模型评估包含:模型泛化 分类评估 聚类评估 回归评估
6、模型应用包含:A/B 测试 离线应用 在线应用 生命周期
整体流程介绍:
第一步:做需求分析,首先进行场景分析,清楚所做场景的特点和问题,然后做数据收集,了解当前场景里能够收集到的数据及这些数据对我们最终要解决的问题有没有直接的联系或者帮助,然后做一个数据探查,把收集到的数据给出一个探索性的数据分析。分析数据本身的特点。再接着根据场景的情况,做出判断去选择算法,来解决问题。
第二步:做一个数据预处理,拿到数据后,因为数据本身的质量和特点可能不太一样,所以要对数据进行一个预处理,通过做一些数据清洗、数据集成、数据变换,数据规约,对数据进行一个整体的加工。即将零散的数据孤岛整合起来,然后把数据按照需求转化成需要的格式和形式。
第三步:做特征工程,对已有的数据集的特征进一步的加工。如基于已有的数据的特征去生成一些新的特征,对其中的一些特征进行转换。转换成最适应于算法的特征。特征生成之后可能会多,所以需要对这些特征进行评估,去判断最有用的特征并筛选出来。
第四步:做算法建模,构建数据集训练模型,需要进行参数调优、交叉验证,最终实际执行时对环境变量进行调优。
第五步:做模型评估,即在模型做成后对其效果进行评估。包括模型本身泛化能力评估,即在新的数据集中的表现,且不同模型不同算法在评估方式上也会不同。如果模型效果不好,就要返回重新做算法建模,然后再做评估。如果第二次做效果仍不好,就要返回到特征工程重新生成特征等工作。若效果还是不好,就要对收集的数据重新进行数据预处理然后按流程做。
第六步:通过循环的处理最终得到满足需求的模型,然后对其进行应用。要了解 AB 测试,如何离线或在线应用及关注模型的生命周期。
二、案例生存预测
1、生存预测:能否从沉没巨轮上生还?(以泰坦尼克号为例)
泰坦尼克号( RMSTitanic ),又译作铁达尼号,是英国白星航运公司下辖的一艘奥林匹克级邮轮,于 1909 年 3 月 31 日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911 年 5 月 31 日下水,1912 年 4 月 2 日完工试航。
从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,驶向美国纽约,船上时间 1912 年 4 月 14 日 23 时 40 分左右,泰坦尼克号与一座冰山相撞,造成右舷船艏至船中部破裂,五座水密舱进水,次日凌晨 2 时 20 分左右,泰坦尼克船体断裂成两截后沉入大西洋底 3700 米处。
2224 名船员及乘客中,逾 1500 人丧生,其中仅 333 具罹难者遗体被寻回。泰坦尼克号沉没事故为和平时期死伤人数最惨重的海难之一。
2、著名的数据分析竞赛网站 Kaggle 上,提供了一个“泰坦尼克号乘客生还预测”的题目。它有两个数据集,一个数据集中有 819 名乘客的信息以及他们最终是否生还,另一个数据集中记录了另外 418 名乘客信息,需要去预测第二个数据集中乘客的生还情况。
提出预想:如果当年你有幸得到一张船票,能否活着回来?
3、数据格式:
里面的 PassengerID 为乘客的标识,不参与建模,Survived 为存活状况,1 为存活 0 为死亡,它为最终预测结果;
Pclass 为客舱等级,Name 是乘客姓名,Sex 为性别,Age 为乘客年龄,SibSp 是同乘的兄弟姐妹或配偶的人数,Parch 为同乘的父母、小孩的人数,Ticket 为船票编号,Fare 是船票价格,Cabin 为客舱号,Embarked 为登船港口。
4、展示一个数据样本:
三、案例分析推荐
可以通过更多案例结合分析流程环节进行分析,如
1、020 优惠券使用预测
以优惠券盘活老用户或吸引新客户进店消费是 O2O 的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。
个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。现有 020 场景相关的丰富数据,希望通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。
2、机场客流量分布预测
为了有效利用机场资源,需要不断提升运行效率的资源有航站楼内的各类灯光电梯设施设备、值机柜台、商铺、广告位、安检通道、登机口,航站楼外的停机位、廊桥、车辆(摆渡车、清洁车、物流车、能源车),要想提升这些资源的利用率首先需要知道未来一段时间将会有多少旅客或航班会使用这些资源,其次需要精准的调度系统来调配这些资源和安排服务人员。以海量机场 WiFi 数据及安检登机值机数据,希望通过数据算法实现机场航站楼客流分析与预测。
3、国家电网用户画像
随着电力体制改革向纵深推进,售电侧需要考虑如何充分利用现有数据资源,深入挖掘客户潜在需求,改善供电服务质量,增强客户黏性。对电力服务具有较强敏感度的客户对于电费计量供电质量、电力营销等各方面服务的质量及方式上往往具备更高的要求,成为各级电力公司关注的重点客户。
目前国家电网积累了全网 4 亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,司希望通过大数据分析技术,科学的开展电力敏感客户分析,以准确地识别敏感客户,并量化敏感程度,进而支撑有针对性的精细化客户服务策略,控制电力服务人工成本、提升企业公众形象。
4、穿衣搭配推荐
穿衣搭配是服饰鞋包导购中非常重要的课题,基于搭配专家和达人生成的搭配组合数据,百万级别的商品的文本和图像数据,以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配的模型,为用户提供个性化、优质的、专业的穿衣搭配方案,预测给定商品的搭配商品集合。