1.在数据集成中实体识别的问题,就是数据怎么可以合并在一起,其中有识别的问题,要知道其是否是同一实体,例如有几份学生的数据需要集合在一起,如果有同一学号的学生即可将该学生的数据集合。还有统一编号的问题,如果人在社会上没有身份证号,则人在各个方面产生的数据如果需要整合时容易出现错误。
2.数据冗余问题,同一个属性几个来源都有,但是其命名可能不一致,可能造成认为其不是一个属性,然后在数据中有多个代表同一个含义字段。
3.数据值冲突检测与处理,该问题非常常见,几份数据合并在一起时,可能数据中相同字段的单位(例如各个区的产品交易中心提交数据时,如果每个区的提交的房屋面积单位数不一样,则各个区的数据集成在一起时会有冲突)、数据类型、字段长度(短的字段可以向长的字段集成,但是如果长的字段按照短的字段集成则会丢失数据)不统一等等。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。