开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:数据挖掘概述-4】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15426
数据挖掘概述-4
内容介绍
一、前言
二、数据挖掘的权限
三、数据挖掘应用的发展趋势
四、考核要求
五、思维与扩展
一、前言
数据挖掘的英文单词是 Data Mining,如果直译的话,则是数据采矿,Mining 是采矿的意思。
经常以“家中有矿”形容一个人很土豪。有矿石就有资源,有资源就有财富。资源是可以耗竭的,而数据是无穷无尽的,越用越多,越用越值钱。
所以数据挖掘在如今的大数据时代对任何单位来说都显得非常重要。当然在了解数据挖掘的重要性时也要知道数据挖掘的局限。
二、数据挖掘的权限
首先数据挖掘是对于事实的一种抽象,是通过构建模型发现隐藏在数据中间的模式、关系和模型等知识要素。然后发现这些知识再用于管理和决策。数据挖掘一定要注意它本身只是一个工具,不是万能的魔杖,并不是能够解决任何问题的。它不能代替业务人员的角色。但是在数据时代,如果作为一名业务人员特别是高级的业务人员而不掌握数据挖掘知识的话,就很难胜任自己的工作。
另外仍需注意数据挖掘既是一门艺术,又是一门科学,因为它是对于数据的探索,有的时候科学、直觉、艺术和经验要进行结合。总之,数据挖掘只是一个工具,不是万能的。但是在数据时代如果不能掌握数据挖掘的性能,一定是不行的。
三、数据挖掘应用的发展趋势
数据挖掘在各行各业均有应用,数据挖掘在各行各业的发展趋势有以下几种:
1、数据化运营-与企业业务全面融合
(1)从4P到4C
它会融合在企业业务的各个环节中,在经济管理专业中学习过4P、4C等理论,营销管理的发展从4P到4C。4P其实以产品、价格、渠道、促销为核心,转向以客户、成本、便利、沟通为核心。在数据挖掘时代,数据挖掘要和企业的业务全面融合。
(2)从4C到3P3C
在数据时代,企业的业务要全面融合产品和客户,中间是以概率响应为核心,即营销、运营活动以概率为核心,追求精细化和精准化。概率是通过数据。挖掘得到的,即4C理论从“以产品为中心”转化为“以消费者为中心,3p3c理论以数据分析挖掘所支撑的目标响应概率(Probabilitv)为核心。概率响应是数据时代的特点,比如在电商中客户要购买某个商品,实际上他并不一定要真正购买,尽管只有百分之一的可能性。
因为在电商时代客户随时随地可能会购买商品。在千万的客户中只要有了一定的概率就会为企业带来巨大的利润。所以数据挖掘第一个发展趋势是与企业业务全面融合,整个企业的也加入了数据化运营的理念。以后的各行各业的单位中是以数据作为资产,那么就需要相关的人才来进行数据的分析和挖掘。
2、社会化分析
社会化分析主要涉及社会媒体分析和社会网络分析,主要通过一些社交网络、垂直网站从网络上发现网民发表的各种观点。
(1)种类
①社会媒体分析
网民表达的产品和服务的态度通过社会化分析来洞察客户。社会媒体分析比较典型的如博客微博,网民会在这种平台上发表各种各样的观点,要分析大家对产品服务的态度等。
②社会网络分析
社会网络分析是目前非常火的话题。特别是微博的出现,引发了一个爆发式的分析热潮。在微博上,熟人和陌生人都可以彼此互相关注,信息被评论、转发又会不断扩展、发散,逐渐放大。企业会关注人们在微博上的动态,了解自己产品的口碑,了解竞争对手。政府也会关心言论的走向。对于普通用户,也会涉及到自己的交往圈、关系圈。在圈子里面哪些人是影响者,哪些是跟随者,哪些是边缘人,找到这些关键点,对营销会有很大帮助。目前非常火热的网红营销与此有紧密的关系。
(2)社交媒体格局图
整个社交媒体的格局图基本上是由大众化的微博微信或是垂直的网站比如汽车论坛、房产论坛等组成。对这些网站上面用户的在线评论进行分析是非常有价值的。这门课程主要是数据挖掘,但有一个章节会讲解文本挖掘,会涉及到如何对这些数据评论进行分析。
(3)应用实例
再看一下对于社会化分析的比较重要的应用实例。
①比如说微博辅助选举。美国前总统奥巴马,微博对他的第二次连任起了巨大的作用。
②现任总统特朗普更是一个推特总统,因为他经常在推特上发言。而且,没有什么时间特点的,所以有些国家专门设立了推特官来跟踪特朗普的发言,因为他的发言有可能严重地对政治、经济、市场进行影响。
③另外有专门研究微博上的舆情来做股票投资的。英国有一个基金但它规模不大,只有几千万英镑。对此就要制作一个微博的情绪榜,利用微博的情绪榜对微博交流的情绪进行定点投资,而且收益也非常不错。
3、大数据大分析
(1)基本介绍
社会网络分析分析的数据也是大数据,但是这里的大数据它的范围更广,不仅仅是社会网络数据,还有电力大数据、交通大数据等等。随着物联网的发展,移动互联网的发展,大数据越来越多。大数据是一种新的数据类型,对此需要新的数据分析方法,例如机器学习、数据挖掘、深度学习等。就可以产生新的企业智能。
(2)实例
①社交网络与关系分析
一些交易数据会揭示深刻的社会关系,网上行为中隐藏着相互作用。社会关系网络行为分析影响着营销,比如病毒营销分析,众包分析等。
对于社会网络中的新的数据类型加上新的数据分析方法就会产生新的企业智能。在这个例子中,新的数据类型中有社会网络数据、在线和离线的交易数据,所以需要一些新的数据分析方法,比如大数据分析方法、网络模式路径分析、网络图的分析等等。
②数据营销优化
会产生对用户行为、用户意图、用户的搜索动作、广告媒体和网络属性的分析,创造用户行为交互地图,提高数字媒体营销工作投资回报率。这里面涉及新的数据类型,如点击流,就是用户每一次点击的路径痕迹均可知道。还有社会网络的数据、广告的日志数据等。使用的新的数据方法就是大数据分析、路径模式分析、路径模式匹配等。
③侦察及防止欺诈
它会产生新的企业智能是通过对用户的交易和互动的实时分析,检测、限制并制止恶意用户、网络和用户从事欺诈活动。这里面提到的新的数据类型有点击流、系统日志、二进制大对象(视频、图像)和定制的数据结构。使用的分析方法有大数据分析方法、网络路径分析、图的分析等等。
(3)大数据的核心功能
大数据有四个核心的功能。第一是数据量比较大,数据类型多种多样,数据比较复杂,然而数据中隐含的价值较低。尽管数据中隐含的价值较低,但因为数据量特别大,所以价值也是非常可观的。利用大数据整合在一个企业的内部系统之中,可以让企业分析内外部数据,让企业可以在竞争中处于优势地位。
(4)非结构化数据的海洋
数据化发展的第四个趋势是面对着非结构化数据的海洋,要处理大量的非结构化数据。与非结构化数据对应的是结构化数据,可以从定义、示例、数据质量、处理成本、应用前景五个角度来区分结构化数据和非结构化数据。
①定义
结构化数据:一般是行数据,以二维表来逻辑表达实现的数据。二维表一行代表一个样本,一列代表样本的属性。
非结构化数据:无法以二维表来逻辑表达实现的数据。
②示例
结构化数据:姓名、年龄、身份证号、手机号、银行卡号、信用分
非结构化数据:网购记录、通讯记录、出行记录
③数据质量
结构化数据:维度有限,以个人信息和信用评分为主,但数据结构清晰。维度有限指的就是二维表中页的数量是有限的,几百几千已经算很多了。
非结构化数据:维度广,因为它本来是非结构化的,如果是以每个单词作为一列的话,维度是非常多的。而且数据缺失、异常、冗余程度高,其中有很多重复的数据。这里的维度广、数据缺失异常可能并不是特别容易理解,等待以后学习文本挖掘,处理文本数据的时候就会对此有崭新的认识了。
④处理成本
结构化数据:处理成本很小,通过基本的查找匹配即可直接应用数据。因为数据已经是结构化的二维表数据了。
非结构化数据:处理成本极大,需要专业人员和大量统计模型。因为数据是非结构化的,对此如果需要进行分析的话也要将其变为结构化数据。非结构化数据转变为结构化数据需要大量的人员和程序代码。
⑤应用前景
结构化数据:应用起来非常方便,可以应用在大量的数据挖掘模型中。可应用于反欺诈模型中,但反欺诈效率有下降趋势。
非结构化数据:可以用于构造用户画像和关系网络,了解用户的口碑和舆情,在大数据时代的应用价值非常大。
在目前的大数据时代文本的数据以及非结构化的数据数量是巨大的,面临着非常庞大的非结构化数据。把它叫做海洋的意思是如同地球一样海洋占据绝大部分的地球面积,而陆地是很少的。陆地相当于结构化数据,非结构化数据就是海洋。如果公司的产品中每天都有几千几万的评论,一条一条地观看的话,是非常麻烦的。如果利用文本挖掘技术,利用非结构化数据处理的技术,可以做成文本评论的摘要,那么看评论就非常轻松了。对于非结构化数据的处理是非常困难的,它的处理过程一般是先寻找到文本数据,然后采集加工处理,做数据准备。因为理解文本数据的话一定要对其进行结构化,这里最小的文本单元就是词,所以要进行分词处理。
特别对于中文来说,分词是一个很麻烦的事情。分词之后再用一些算法模型对于文本数据进行分析,从中抽取需要的信息做各种各样的应用。可以利用文本挖掘的非结构化数据的一套流程对于客户的投诉数据进行处理,然后可以得到客户投诉的焦点,对于工作人员来说这个分析就有助于他快速了解客户的态度,这样工作起来就非常轻松了。
四、考核要求
1、课堂参与(在线参与):成绩占比10%
2、作业、上机:成绩占比10%
3、小组项目与案例讨论:成绩占比20%
不超过五个同学一个小组要完成一个数据挖掘的项目,可以选择行业的一些主机,然后利用本轮课所学的知识技能做一个完整的数据挖掘项目。
4、考试:成绩占比60%
五、思维与扩展
这门课程是数据挖掘,也经常听到机器学习、人工智能。
1、数据挖掘与机器学习的关系
这两者之间的关系非常紧密,数据挖掘本质上需要用到机器学习的技术,同时数据挖掘也需用到数据管理的技术,这等于数据挖掘所用到的算法的核心技术来自于机器学习。数据挖掘仍需考虑到数据管理。一般对于计算机专业和数学统计专业更多的是学习机器学习,而金融管理的一些专业则要学习数据挖掘。
要把数据挖掘和业务紧密结合在一起,也就是要将机器学习、数据管理的技术整合以后要用到经济管理的具体事宜中,所以要强调机器学习方法的应用。这是数据挖掘区别于机器学习特别重要的地方。
2、人工智能与机器学习、深度学习的关系
人工智能是一个更大的概念,机器学习是人工智能中最为重要的方法,而近几年所发展的深度学习又属于机器学习的范畴。目前深度学习非常火热,这门课由于时间原因可能并不会涉及到深度学习,但会讲到深度学习中最重要的核心内容。