《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.16. Machine learning——3.5.16.4.Data frame analytics(1) https://developer.aliyun.com/article/1227193
Outlier Detection 展示
使用一个真实的例子来进行演示。我们可以到地址:House Sales in King County, USA | Kaggle下载。这是一个在美国 King County 地区的房屋销售真实数据。一旦下载完数据,我们可以使用 Kibana 来把数据导入:
我们选择解压缩文件中的 kc_house_data.csv 文件:
我们把索引的名字取为 king-county-house-prices。我们在摄入时,会发现 ingest pipeline 会自动帮我们把数值进行转换,并创建一个叫做 location 的字段。它里面包含有文档中的经纬度。点击上面的 Import 按钮:
这样,我们就成功地创建了一个叫做 king-county-house-prices 的索引。我们点击上面的按钮,这样我们可以在 Discover 的页面中进行查看:
很显然这不是一个时序的数据。在这个页面,我们可以查看这个数据集的各个字段,比如面积,多少个 bed rooms,多少个 bath rooms 地理位置信息等。
在进行下面的操作之前,我们先来创建一个运行时字段 bedrooms_per_bath,它表示一个
bathroom 对应于多少个 bedrooms。这对于有些客户来说,也是一个比较感兴趣的参数。打开 Kibana:
我们把如下的脚本填入到 Define script 框中:
if(doc['bathrooms'].value == 0) { emit(0); } else { emit((double)doc['bedrooms'].value/(double)doc['bathrooms'].value); }
点击 Save 按钮。这样我们就生成了一个叫做 bedrooms_per_bath 的动态字段。
《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.16. Machine learning——3.5.16.4.Data frame analytics(3) https://developer.aliyun.com/article/1227191