《Clojure数据分析秘笈》——2.3节使用同义词映射保持一致性

简介:

本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第2章,第2.3节使用同义词映射保持一致性,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看

2.3 使用同义词映射保持一致性
不一致性是数据中的一个常见问题。有时一个字符是大写的,有时不是,有时是缩写,有时不是,有时还有拼写错误。
在一个开放的域中,如随意拼写的单词,问题就较为复杂。然而,当数据代表一个有限的词库(如美国的州名)时,使用一些小技巧就可以解决。一个从普通形式或者错误形式到标准形式的映射是修正域内变量的一种简单办法。

2.3.1 准备工作
使用如下表达式确保clojure.string/upper-case函数可用:


c97d43721781aebfe5bbd3bb2b2d24e37201c455

2.3.3 实现原理
本方法中唯一的波折是需要对输入稍微进行一下标准化,即确保在其使用同义词映射前是大写形式。否则,需要为输入可能变化的每种形式设定入口。

相关文章
|
10月前
|
存储 并行计算 数据挖掘
【100天精通Python】Day59:Python 数据分析_Pandas高级功能-多层索引创建访问切片和重塑操作,pandas自定义函数和映射功能
【100天精通Python】Day59:Python 数据分析_Pandas高级功能-多层索引创建访问切片和重塑操作,pandas自定义函数和映射功能
92 2
|
数据挖掘 数据处理 Python
python数据分析-pandas基础(4)-数据映射apply
apply函数的作用:就是用某个指定的函数f来依次作用于DataFrame或者Series的每个数据,可以指定按行处理和按列处理。
289 0
|
算法 大数据 数据挖掘
《Clojure数据分析秘笈》——导读
本节书摘来自华章社区《Clojure数据分析秘笈》一书中的目录,作者(美)Eric Rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看
1521 0

热门文章

最新文章