开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下):数据仓库与数据挖掘(3)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1041/detail/15665
数据仓库与数据挖掘(3)
数据生态系统,这个在美国2014年的马塞诸塞州才出了一个大数据报告,他就提出来了大数据生态系统总数据的应用场景,硬件软件方法来进行考虑,构成一个整体,而这个生态可以让他做的更好,所以他也描绘了一个很好的场景,这个报告什么场景?
生态做完之后,我就可以让你发财,让你支付。然后的话,大家可以看到有一个最大的就是什么,2.5 :亿美元,那么它可以让你的数据变现,也就是数据财富,在数据当中常有财富,我们虽然被数据被淹没了,但是我们可以从数据当中挖掘出来我们的知识,你被他淹没了,你既可以致死。但是不代表的数据当中没有财富。
所以要想做的话,世界上比较有名的一个数据挖掘的地方,一个交流的地方,那么他说未来的数据科学家和数据工程师都会很吃香,当这个漫画上讲想找一个漂亮的女孩跟她交往,然后人家拒绝他,后来的话,他做了数据科学家,数据工程师之后,他就有机会了。当然这是一个笑话,可是既然笑话就是万事万物的出处,自有他的道理,也描绘了就是数据科学家的光明前景,数据科学家的最基础的前景是基础的背景是数据仓库和数据挖掘。
那么在这种情况下的话,那个你就要必须要考虑他和社会性,那么也就是说数据仓库是作为一个服务叫 data house as service data money as service,也就是说以后最常见的一种情况知道的就是 peace。Platform as service software as service infrastructure and service。
现在讲数据仓库也是一种服务,数据挖掘也是一种服务。在这种情况下,那我们再回过头来就是讲的数据挖掘和社会,那么它的独一无二性,或者是他的朴实性和不可见的数据挖掘,那么就要认真地考虑了。所以我觉得普适性其实在刚才我已经提到了,就是它的应用领域越来越广,那么这种情况下,你就必须要考虑他的方法的普适性。比方说你的在线的购物习惯,那么可以改变你的什么?
改变你的 CM,改变你的客户关系管理的方法。
传统的客户关系管理已经被数据挖掘来充饥的要改变,要变革,不变革的话,你跟不上时代的,那么数据量多了之后,数以万计,如果是仅仅是停留在手动那肯定不行,停留在那几台 Excel 表也不行,你需要更好的,更大规模的,更高维的来全量的分析,Invisible data mining 是讲是不可似的,那么不合适的数据挖掘,这个太多了,然后Google 搜索引擎,百度搜索引擎,那么我们输进去关键词拿出来一大串,但是我们在想一件事情,他好多好多事,我们不想要的,我能不能精准?能不能精准挖掘?
这是一个我们不得不面对的一件事情。那么还有一个就是隐私安全和社会影响,刚才也提到了这件事情,那么在数据挖掘和数据仓库生态系统当中,这个数据生态系统当中必须要考虑到隐私保护,隐私保护安全和他的社会影响,甚至于数据挖掘可能会带来一件什么事情?社会伦理,比方说我通过数据分析接触基因技术,我可以生产人工生命了,这是和我们的社会伦理是不相符合的。所以任何一个技术都应该遵守社会的要求、社会伦理和法律法规。那么这种隐私的保护、安全的保证、社会的影响的底线的坚守,是数据挖掘、数据仓库和社会之间无缝衔接的重要的一环。
那么这种方法方法有哪些,比方说我们可以发一些敏感的数据。给他剔除掉,然后的话,把他的敏感的ID给他去掉,然后数据它的安全可以增强,然后还可以对他的隐私保护起来,让你访问不到,那么这样的情况,那么所以就有了另外一件事情,归结起来就是数据挖掘和数据仓库,这个方法很好,但是它是个双刃剑,可以给你带来价值,也可以给你带来安全的隐患,所以我们在做好技术,做好应用的情况下,也要承担基础的社会责任。
那么在这种情况下,你做的时候的话,饮食保护和安全这些方法,就比较多了,比方说你得到一个有效的数据挖掘结果,但是没有碰敏感的数据,然后的话,你在设计算法的时候,把它流出来,还有随机性,还有他的异常检测,就可以自动报警,然后一个是给用户报警,一个是给算法报警,所以那个invisible data mining,尤其是载人看不见的情况下,你的看法,你的应用可以遵守你的法规,这是更难,更需要每一个技术工作者,每一个数据挖掘,数据科学家,数据工程师要具备的基本的基础道德。
那么在做的时候,还有一个你要可以修改,你要交给用户,就是交互式的数据挖掘和可视化的交互,最好让人看得见摸得着人家,尤其是在诊断重大疾病以及铸造设备的诊断重大的疾病以及重大设备的安全运营的时候。
所以我们总结起来的话,未来的数据挖掘的趋势。就有它的探测中的应用。他的尺度和交互式的数据方法,它的社会信息的方法,然后可视化的一些事情。隐私和他的社会责任都应该是数据挖掘未来研究的趋势内容之一。
总结这节课,有三个知识点,一个是数据资源,一个是数据利用,一个是数据生态系统,那么对应第一个就是数据是一个国家在能源物质之后的第三大战略资源。
第二,数据利用上,我们应该充分的利用数据,得到他们的价值。
第三,数据仓库和数据挖掘是一个有前景的方法,而且他在构建数据生态系统中将发挥很重要的责任。