数据挖掘

首页 标签 数据挖掘
# 数据挖掘 #
关注
27695内容
强化学习在电商环境下的若干应用与研究
本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。
机器学习-异常检测算法(二):Local Outlier Factor
Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et.al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,DBSCAN,OPTICS)。
| |
来自: 数据库
三张图读懂Greenplum在企业的正确使用姿势
第一张 老外通常如何使用数据仓库 数据仓库的使用人员通常是数据分析师,一个成熟的分析模型的建立,可能需要多次的数据模型分析试错。 通常试错不会允许直接在任务库中执行,因为很容易干扰任务库的任务处理,你一定不想因为试错导致报表不能按时输出吧,相信老板会让你好看的。 因此老外通常会将数据
| |
来自: 云存储
Logtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案
logtail是阿里云一款进行日志实时采集的Agent,当前几十万台部署logtail的设备运行在各种不同环境上(集团、蚂蚁、阿里云,还有用户部署在公网、IOT设备),每天采集数PB的数据,支撑上千种应用的日志采集。
一文带你入门图论和网络分析
本文从图的概念以及历史讲起,并介绍了一些必备的术语,随后引入了networkx库,并以一个航班信息数据集为例,带领读者完成了一些基本分析。
EMR Spark Relational Cache的执行计划重写
作者:王道远,花名健身, 阿里巴巴计算平台EMR技术专家。 背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。
阿里云数加产品家族图首次亮相
数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴买整栋楼都随您意!
面向万物互联的时序数据库HiTSDB
HiTSDB (High-performance Time Series Database) 是阿里巴巴自主研发的面向物联网及相关领域的高性能时间序列数据库产品,物联网场景下数以百万的设备上千万级数据采集点每秒都在产生时序数据,这些海量时序数据是企业最宝贵的财富,能够帮助企业实时关注数据业务趋势,进行决策分析,监控设备性能和运行情况,帮助企业创造价值;但是业务高并发写入压力,海量数据存储成本,以及低效查询分析能力让传统数据库成为了制约业务发展的羁绊。
免费试用