《R语言数据挖掘:实用项目解析》——第1章,第1.12节字符串操作-阿里云开发者社区

开发者社区> 华章计算机> 正文

《R语言数据挖掘:实用项目解析》——第1章,第1.12节字符串操作

简介:
+关注继续查看

本节书摘来自华章出版社《R语言数据挖掘:实用项目解析》一书中的第1章,第1.12节字符串操作,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.12 字符串操作
字符串操作或字符操作是所有数据管理系统中的一个重要方面。比如在一个典型的实际数据集里,客户的名字会有多种写法,如J H Smith、John h Smith、John h smith等。据验证,这三个名字表示的是同一个人。在典型的数据管理里,标准化数据集中的文本列或变量很重要,由于R语言是区分大小写的,任何差异都会被当作一个新的数据点。还有很多其他变量,比如一辆汽车的名字/模型、产品描述等。我们来看看如何应用一些函数来标准化文本:


1db8d566aaac182f9f1707a35c76d4938da62cbb

以上代码中的X对象是一个字符串或字符型对象。substr命令用于从字符串中根据函数指定的位置取出子字符串。如果某模式或文本需要修改或更改,可以使用sub命令。有4个重要的参数需要用户传递:需要模式搜索的字符串、模式、需要被替代待修改的模式以及是否区分大小写。我们来看一个样例脚本:


e98e0d4cd40968d7ae65ef22bb920c6c0f0ef45a

strsplit函数有助于将字符串中的字母扩展开来。sub命令用于修改字符串中不正确的模式。ignore.Case选项可供用户在对字符串进行模式搜索时开启或关闭大小写区分。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
fastjson解析json字符串,key缺少双引号导致下游服务无法解析
背景说明 在使用fastjson 1.2.60版本将对象转化为json字符串时,为处理Map值为null的情况,采用了WRITE_MAP_NULL_FEATURES属性,但该属性解析出来的key中缺少双引号,在key包含特殊字符时,如“-”和“:",下游服务在进行反序列化时出现无法解析的错误,从而出现问题。
3044 0
面试之C语言字符串操作总结大全(转载)
  趁着十一就好好补补数据结构吧,通信这个不软不硬的专业,现在还是得好好学学补习补习,,你这个非211的本科生!虽然拿到了一个offer,但是觉得时间还有,得继续拼一拼,希望不辜负! 1)字符串操作 strcpy(p, p1) 复制字符串 strncpy(p, p1, n) 复制指定长度字符串 s...
675 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载