处理架构组

李玉冰 [分类] 数据分析系统及工具 • [标签] Pandas，Numpy • 2021-10-18

[摘要] 本文分享了Pandas和Numpy对数据集的一些基本操作，对这些基本操作有条理地进行总结。分享内容见附件，目录如下：

冀琳 [分类] Spark • [标签] • 2020-12-20

[摘要] from pyspark.sql import SparkSessionspark=SparkSession \.builder \.appName('my_first_app_name') \.getOrCreate()# 如果已经配置spark连接hive的参数，可以直接读取hive数据spar...

pyspark 使用介绍

冀琳 [分类] 基础算法 • [标签] • 2020-04-19

[摘要] 在单机范围内的数据量下，使用python的pandas包就可以非常方便地完成数据批处理工作。但当数据量达到1G以上时，pandas处理起来就有些力不从心了，到数据量达到1T以上，只能以分块的方式存储在分布式系统上时，pandas就无能为力了。Hadoop生态下，原生的工具是MapReduce计算模型...

Fbprophet安装经验总结

李云 [分类] 基础算法 • [标签] • 2020-02-19

[摘要] Facebook在2018年开源了一个时间序列预测的算法，叫做fbprophet（https://github.com/facebook/prophet）。从官网的介绍来看，Facebook 所提供的 prophet 算法不仅可以处理时间序列存在一些异常值的情况，也可以处理部分缺失值的情形，还能够几...

结果过滤