数据挖掘

首页 标签 数据挖掘
# 数据挖掘 #
关注
26953内容
| |
来自: 数据库
PostgreSQL 文本数据分析实践之 - 相似度分析
背景 在日常的生活中,我们可能会经常需要一些像相近、相仿、距离接近、性格接近等等类似这样的需求,对数据进行筛选。 这些需求PostgreSQL居然都支持,是不是很变态。 变态的例子 按长相相似度排序 比如最近的王宝强和马蓉的事件,估计很多人会拿宋喆的照片进行相似度的搜索,八卦八卦。
阿里云服务器配置选择方法和经验(CPU+内存+宽带)
阿里云ECS云服务器配置的选择不仅仅包括CPU核数、内存及宽带多少,还需要根据实际业务场景选择对应的规格族,云吞铺子分享阿里云服务器的选配方法和经验: 云服务器的CPU+内存选配 普通的个人小型网站,如:个人博客等小流量网站,可选择入门级配置的云服务器推荐配置:1核CPU、1G或2G内存、硬盘40G、1M或2M带宽 论坛、门户类网站:论坛、门户类网站,用户活跃性与访问量较高,为了保证足够的服务器资源空间,提升访问速度。
【Python数据挖掘课程】八.关联规则挖掘及Apriori实现购物推荐
这篇文章主要介绍三个知识点,也是我《数据挖掘与分析》课程讲课的内容。        1.关联规则挖掘概念及实现过程;        2.Apriori算法挖掘频繁项集;        3.Python实现关联规则挖掘及置信度、支持度计算。
强化学习在电商环境下的若干应用与研究
本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。
机器学习-异常检测算法(二):Local Outlier Factor
Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et.al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,DBSCAN,OPTICS)。
一文带你入门图论和网络分析
本文从图的概念以及历史讲起,并介绍了一些必备的术语,随后引入了networkx库,并以一个航班信息数据集为例,带领读者完成了一些基本分析。
EMR Spark Relational Cache的执行计划重写
作者:王道远,花名健身, 阿里巴巴计算平台EMR技术专家。 背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。
PostgreSQL 模糊查询最佳实践 - (含单字、双字、多字模糊查询方法)
PostgreSQL 模糊查询最佳实践 - (含单字、双字、多字模糊查询方法)https://github.com/digoal/blog/blob/master/201704/20170426_01.md
机器学习算法—KMEANS算法原理及阿里云PAI平台算法模块参数说明
阿里云PAI平台提供了大量已经封装完成可以直接使用的机器学习算法模块,本文说明KMEANS算法的原理并在原理的基础上说明PAI平台KMEANS模块中参数设置的意义,根据原理介绍算法的优点和缺点
创业公司如何做数据分析(一)开篇
本文将按照“WHY->WHAT->HOW”的思考方式来阐述下面三个问题:创业公司为什么需要做数据分析?创业公司做数据分析,需要做哪些事情?如何实现这些数据上的需求?从而基于“数据驱动”来做决策、运营与产品。
免费试用