文本内容:
第章数据清洗4⑴数据清洗的主要目的是什么?数据清洗的目的在于删除重复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有效性及唯一性,还可能涉及数据的分解和重组,最终将原始数据转换为满足数据质量或者应用要求的数据⑵使用进行数据清洗常用的步骤有哪些请简要描述Kettle步骤
1、环境准备;步骤
2、创建Transformniations;步骤
3、运行任务⑶简单描述如何去除不完全重复的数据第一步,选定一个或多个字段,使用模糊匹配步骤找出疑似重复数据的记录第二步,选定一个或多个字段做为参考字段,进一步检测数据的可能重复性第三步,去除或者合并这些疑似重复的记录,这一步是非常关键的一步,需要结合多方面的因素进行综合评估,最终才能确定一个合并/去除的方案⑷在中,当有些任务可以使用脚本进行数据清洗,也可以使用其他步骤进Kett Ie行数据清洗时,该如何选择,请简述原因略⑶简述基于源数据的操作的优缺点CDC优点:数据抽取的性能高,ETL加载规则简单,速度快,不需要修改业务系统表结构,可以实现数据的递增加载缺点:要求业务表建立触发器,对业务系统有一定的影响,容易对源数据库构成威胁⑷简述基于日志的操作的优缺点CDC基于查询的CDC:优点是实现简单,是通过批处理实现的,需要依赖离线调度,不能保证数据强一致性和实时性⑸简述基于触发器的操作的优缺点CDC略。