一系列重要的功能Y包括过滤排序附加数据生命周期管理和审
计等表6-4给出了每个功能的解释。
变化分发机制变化分发机制负责把变化分发到变化的消费者?通
常是ETL程序?那里变化分发机制可以支持一个或多个消费者Y并且提
供了灵活的数据分发方式Y包括推(push)或拉(pull)的方式Pull方式需要
消费者周期性地发送请求Y通常采用标准接口实现Y比如ODBC或JDBC
Push方式需要消费者一直监听和等待变化的发生Y一旦捕捉到变化Y就立
刻转移变化的数据Y通常采用消息中间件来实现变化分发机制的另一个
重要功能就是提供动态返回和请求旧的变化的能力Y从而满足重复处理和
恢复处理等任务。
变化数据捕捉技术有两个典型的应用场景X面向批处理的CDC
?
pullCDC?和面向实时的CDC?
pushCDC?
1。面向批处理的CDC
在这种场景中YETL工具周期性地请求变化Y每次都接收批量数据Y
这些批量数据是在上次请求和这次请求之间所捕捉到的变化变化
分发请求可以采取不同的频度Y比如一天两次或每隔15分钟1次。
对于许多组织而言Y提供变化数据的一种比较好的方式是以数据表的记
录的形式表示这种方式可以使ETL工具通过标准接口?比如ODBC?的
方式无缝地访问变化数据CDC则需要维护上次变化分发的位置和分发
新的变化
这种应用场景和传统的ETL很相似Y不同的是YpullCDC只需要转移变化
的数据Y并不需要转移所有的数据Y这就极大地减少了资源消耗Y也消
除了传统ETL过程的宕机时间。
面向批处理的CDC技术简单Y很容易实现Y因为它和传统的ETL很相似Y
并且使用现有的技术当企业对时间延迟以分钟或小时来进行衡量时Y
采取这种方式比较可行。
这种场景满足零延迟的要求Y变化分发机制一旦探测到变化Y就把变化
push给ETL程序Y这通常是通过可靠的传输机制来实现的Y比如事件分发
机制和消息中间件?如MQSeries?