结果过滤


当前显示 1-5 of 8
 | 

ClickHouse使用技巧和注意点总结

何正杰         [分类] 数据库知识  •   [标签] 性能优化   •   2021-11-26

[摘要]   使用ClickHouse已经有一段时间了,这里总结个人觉得有用的使用技巧,并尽量从存储的角度去理解CK的性能调优技巧,希望对大家有所帮助。 具体参会报告可点击 此处链接 在线浏览,也可下载 PDF 进行浏览。


HBase架构与存储概述

何正杰         [分类] 数据库知识  •   [标签]    •   2021-10-08

[摘要]   HBase是Google大数据三驾马车中Bigtable的开源实现,它是一个分布式的结构化数据存储系统,用来处理海量数据,通常是PB级的数据。在我们的Galaxy数据平台中,也用到了HBase存储一些结构化的数据。虽然HBase在目前的应用范围在逐渐的缩小,但是了解其原理和应用场景仍...


浅谈OLAP

何正杰         [分类] 数据库知识  •   [标签] 分布式系统   •   2021-08-20

[摘要]   浅谈OLAP的起源,场景,关键技术,以及目前流行的OLAP系统。 本文也是暑期培训的文字版, 对介绍的技术有更详细的叙述。 GitLab: https://git.mesalab.cn/hezhengjie/heatao_techsum/-/blob/master/%E6...


从频繁项挖掘到并行序列挖掘

何正杰         [分类] 基础算法  •   [标签]    •   2021-07-16

[摘要]  关联规则挖掘在很多领域都有重要的作用,比如经典的啤酒尿布问题,这是最典型的频繁项挖掘问题,频繁模式的挖掘不止限于项集的挖掘,子图匹配算法可以找到化合物结构中相似的部分,子树挖掘算法可以找到XML的相似结构。近期我的一些工作需要挖掘流量之间的潜在关系,直接用众包的思想进行统计,会导致出现较大偏差,且难...


openLooKeng 北京Meetup

何正杰         [分类] 基础算法  •   [标签] 参会报告   •   2021-05-20

[摘要]   5月16日被邀请作为openLooKeng Meetup的分享嘉宾,汇报了我们遇到的难点以及近期的工作,在会上同时也向pulsar,dolphinscheduler等开源前辈学到很多开源的经验和技术。 详情请见Gitlab: https://git.mesalab.c...


当前显示 1-5 of 8