随着计算机和互联网信息技术的迅猛发展与普及应用,各行各业的数据均呈现爆炸 式增长,巨大的数据资源被很多国家和企业视为战略资源,大数据己经成为目前互联网 领域的研究热点之一,这也标志着全球已经进入大数据时代3。
数据挖掘是从海量异构的数据中挖掘出未知的、潜在的信息和知识的过程。数据规 模大、数据多样性是大数据的基本特点。海量复杂的数据中可能存在一些数据对象,这 些数据对象与普通数据的期望行为模式并不一致,被称为异常值或离群点。随着数据规模和数据多样性的不断增加,数据中异常值(或离群点)的个数也会不断增加,合理有 效地处理和应用这些异常值对大数据挖掘具有重要的意义1。
针对大数据中异常值的识别 和挖掘称为异常检测。虽然数据中的异常值是不寻常的,但如果考虑的数据量多达数十 亿,则可能性为“千分之一”的异常值也可能是百万量级,在大数据挖掘过程中,这些 异常值是不能忽视的。因此,异常值检测在大数据挖掘中有着至关重要的作用2。以上内容摘自《应用智能运维实践(试读版)》电子书,点击https://developer.aliyun.com/ebook/download/367 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。