处理架构组

窦凤虎 [分类] Storm • [标签] 分布式系统，大数据，流处理 • 2018-04-25

[摘要] 大数据计算框架负责对系统中产生中的数据进行计算。数据的计算则是指从大量单一数据点中提取信息和见解的过程。按照时效性与处理机制分为流处理、批处理和混合模式。批处理：适合处理对时间要求不高的非常大规模的数据集。具有三个特征：有界，持久，海量。经常应用于历史数据的分析工作。流处理：适合处理对数据变动或峰值...

kafka集群性能优化总结

窦凤虎 [分类] Kafka • [标签] kafka，性能优化，分布式系统 • 2018-03-12

[摘要] 一、性能优化建议1. 提高jvm内存，经测吞吐无明显提高，可减少汇聚平均时延；2. 提高 batch.size,增加吞吐，同时时延增大 3. 增加send与receive buffer size (提高jvm heapsize) 4. 提高num.io.threads数量（吞吐量高时，磁盘IO阻塞...

kafka处理大消息

窦凤虎 [分类] Kafka • [标签] kafka，大消息，分布式系统 • 2018-03-12

[摘要] kafka实现高吞吐主要是顺序写盘、pagecache、网络零拷贝技术特点。在模拟集群性能测试中发现当消息大于10KB时，集群出现吞吐下降及相应的时延问题。也就是说对于kafka来说大消息不能充分发挥高吞吐的特性（批处理）。所以对大消息如何处理呢？以下是个人建议及具体使用过程中配置参数供大家参考。1...

如何解析所需字段-ELK应用

杜梅婕 [分类] 数据分析系统及工具 • [标签] • 2018-03-06

[摘要] 常说的ELK是指包括 elasticsearch、logstash 和 kibana 的一套技术栈，常用来处理日志等数据。其部署架构多种多样。常见的一种分离式的部署方式为：应用->kafka->logstash->elasticsearch->kibana。采用这种部署架构，需要解决的问题就是从ka...

结果过滤