结果过滤


当前显示 6-9 of 9
 | 

大数据计算框架的理解与对比

窦凤虎         [分类] Storm  •   [标签] 分布式系统,大数据,流处理   •   2018-04-25

[摘要]  大数据计算框架负责对系统中产生中的数据进行计算。数据的计算则是指从大量单一数据点中提取信息和见解的过程。按照时效性与处理机制分为流处理、批处理和混合模式。批处理:适合处理对时间要求不高的非常大规模的数据集。具有三个特征:有界,持久,海量。经常应用于历史数据的分析工作。流处理:适合处理对数据变动或峰值...


kafka集群性能优化总结

窦凤虎         [分类] Kafka  •   [标签] kafka,性能优化,分布式系统   •   2018-03-12

[摘要]  一、性能优化建议1. 提高jvm内存,经测吞吐无明显提高,可减少汇聚平均时延;2. 提高 batch.size,增加吞吐,同时时延增大 3. 增加send与receive buffer size (提高jvm heapsize) 4. 提高num.io.threads数量(吞吐量高时,磁盘IO阻塞...


kafka处理大消息

窦凤虎         [分类] Kafka  •   [标签] kafka,大消息,分布式系统   •   2018-03-12

[摘要]  kafka实现高吞吐主要是顺序写盘、pagecache、网络零拷贝技术特点。在模拟集群性能测试中发现当消息大于10KB时,集群出现吞吐下降及相应的时延问题。也就是说对于kafka来说大消息不能充分发挥高吞吐的特性(批处理)。所以对大消息如何处理呢?以下是个人建议及具体使用过程中配置参数供大家参考。1...


如何解析所需字段-ELK应用

杜梅婕         [分类] 数据分析系统及工具  •   [标签]    •   2018-03-06

[摘要]  常说的ELK是指包括 elasticsearch、logstash 和 kibana 的一套技术栈,常用来处理日志等数据。其部署架构多种多样。常见的一种分离式的部署方式为:应用->kafka->logstash->elasticsearch->kibana。采用这种部署架构,需要解决的问题就是从ka...


当前显示 6-9 of 9