结果过滤
李玉冰 [分类] 数据分析系统及工具 • [标签] Pandas,Numpy • 2021-10-18
[摘要] 本文分享了Pandas和Numpy对数据集的一些基本操作,对这些基本操作有条理地进行总结。分享内容见附件,目录如下:
冀琳 [分类] Spark • [标签] • 2020-12-20
[摘要] from pyspark.sql import SparkSessionspark=SparkSession \.builder \.appName('my_first_app_name') \.getOrCreate()# 如果已经配置spark连接hive的参数,可以直接读取hive数据spar...
冀琳 [分类] 基础算法 • [标签] • 2020-04-19
[摘要] 在单机范围内的数据量下,使用python的pandas包就可以非常方便地完成数据批处理工作。但当数据量达到1G以上时,pandas处理起来就有些力不从心了,到数据量达到1T以上,只能以分块的方式存储在分布式系统上时,pandas就无能为力了。Hadoop生态下,原生的工具是MapReduce计算模型...
李云 [分类] 基础算法 • [标签] • 2020-02-19
[摘要] Facebook在2018年开源了一个时间序列预测的算法,叫做fbprophet(https://github.com/facebook/prophet)。从官网的介绍来看,Facebook 所提供的 prophet 算法不仅可以处理时间序列存在一些异常值的情况,也可以处理部分缺失值的情形,还能够几...