|
|
|
针对分布式流处理系统中当输入数据的键值呈现倾斜分布时工作节点负载不均衡的问题,提出一种适应元组分布倾斜的流划分策略。该策略使用lossy counting算法计算键值出现的频率,以区分热键和非热键,同时,在数据源节点上维护一个多维向量,以记录每个工作节点的负载。当一个键值为热键的流元组到达后,数据源节点查询每个节点的负载,然后将该元组发送给负载最小的节点进行处理。在集成了该流划分策略的分布式流处理系统中运行的实验表明,与按键值划分的策略相比,该策略具有更好的负载均衡性,使系统的吞吐量提升40%,与随机划分相比,内存开销降低55%。
|