处理架构组

窦凤虎 [分类] 数据库知识 • [标签] 分布式系统 • 2018-06-05

[摘要] 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它应该是关系型数据库的补充，需配合关系型数据库进行使用。缺点：不支持事务，不支...

大数据计算框架的理解与对比

窦凤虎 [分类] Storm • [标签] 分布式系统，大数据，流处理 • 2018-04-25

[摘要] 大数据计算框架负责对系统中产生中的数据进行计算。数据的计算则是指从大量单一数据点中提取信息和见解的过程。按照时效性与处理机制分为流处理、批处理和混合模式。批处理：适合处理对时间要求不高的非常大规模的数据集。具有三个特征：有界，持久，海量。经常应用于历史数据的分析工作。流处理：适合处理对数据变动或峰值...

kafka集群性能优化总结

窦凤虎 [分类] Kafka • [标签] kafka，性能优化，分布式系统 • 2018-03-12

[摘要] 一、性能优化建议1. 提高jvm内存，经测吞吐无明显提高，可减少汇聚平均时延；2. 提高 batch.size,增加吞吐，同时时延增大 3. 增加send与receive buffer size (提高jvm heapsize) 4. 提高num.io.threads数量（吞吐量高时，磁盘IO阻塞...

kafka处理大消息

窦凤虎 [分类] Kafka • [标签] kafka，大消息，分布式系统 • 2018-03-12

[摘要] kafka实现高吞吐主要是顺序写盘、pagecache、网络零拷贝技术特点。在模拟集群性能测试中发现当消息大于10KB时，集群出现吞吐下降及相应的时延问题。也就是说对于kafka来说大消息不能充分发挥高吞吐的特性（批处理）。所以对大消息如何处理呢？以下是个人建议及具体使用过程中配置参数供大家参考。1...

结果过滤