机器学习在线:解析阿里云机器学习平台
内容简介:
以机器学习中的典型案例为主线,条分缕析梳理阿里云的平台功能,讲解如何用阿里云的机器学习平台来实现各类应用,包括商家作弊检测、生存预测、信用风险预测、用户购买行为预测等,并完整地介绍了机器学习的基本原理与实践技巧。
杨旭 著
电子工业出版社
图书试读:
飞速发展的互联网、物联网每时每刻都在产生大量的数据,数据的价值也因此被提升到前所未有的高度:越来越多的人投身数据分析的领域,希望通过机器学习及深度学习,从数据中获取更大的价值。另一方面,云计算的蓬勃发展极大地扩展了数据的存储能力,它使计算可以同时使用成百上千台机器,快速解决问题,而在计算完成后,又能及时释放掉资源,控制成本。
在这样的大背景下,机器学习算法平台也获得了飞速发展,积累了大量高效的机器学习算法组件,基于这些组件我们可以快速实现业务流程,解决具体问题。在为本书定书名时,受到王坚博士《在线》一书的影响,觉得用“在线”一词来说明目前机器学习平台的状态非常恰当:丰富的算法功能可以在线使用、不需要购买硬件、不需要安装配置各种环境;数据和计算资源一直处在“在线”状态,不必担心数据太大或计算资源不足的问题。
阿里云机器学习算法平台不仅在阿里集团内部使用,也已对阿里集团外部开放,读者可以通过阿里云官网试用或使用本书中介绍的功能。
机器学习平台提供了一个舞台,主角是其上面的近百种算法。本书的重点放在这些算法的使用上——通过实际的数据和具体的场景,帮助读者理解各算法所擅长处理的问题;另外,本书是根据机器学习的知识点由浅入深来逐步组织的,以降低阅读本书的门槛,使读者对所学的内容能产生清晰的印象。
在具体章节的组织上,阿里云机器学习平台的介绍占两个章节,即第1章和附录A。第1章为平台简介,在内容组织上尽量减少文字说明,将最基本的内容用图例来表示;附录A介绍了些琐碎但重要的事情,像如何试用、如何上传数据以及预处理函数的详细说明。第2章至第12章是按照机器学习的知识点逐步深入的思路来编排的。分类模型是机器学习理论和应用方面的重头,首先是数值类型特征的二分类模型、扩展特征的类型、多分类模型;之后介绍聚类模型;然后是回归模型;再后面介绍文本分析领域的应用(主题模型、向量化、关键词等),根据文本描述进行预测、情感分析,并以电影数据为例,搭建推荐系统。深度学习的内容放在第12章,围绕TensorFlow框架组件,介绍了一个能体现TensorFlow特点的Softmax模型的例子,然后介绍了使用深度学习DNN分类器的例子。
机器学习平台降低了我们使用机器学习知识的门槛,将各个算法作为组件,即使不了解其背后的理论知识,读者仍然可以仿照书中实例,将组件连接起来解决一些实际问题。希望本书能帮助读者在机器学习的实践中学习。
最后,感谢一起研发阿里云机器学习平台的各位同事!感谢家人的理解和支持!
杨旭
2017年7月