结果过滤


当前显示 1-4 of 4
 | 

调研分享:Pandas和Numpy对数据集的基本操作

李玉冰         [分类] 数据分析系统及工具  •   [标签] Pandas,Numpy   •   2021-10-18

[摘要]  本文分享了Pandas和Numpy对数据集的一些基本操作,对这些基本操作有条理地进行总结。分享内容见附件,目录如下:


Spark SQL & Dataframe操作总结

冀琳         [分类] Spark  •   [标签]    •   2020-12-20

[摘要]  from pyspark.sql import SparkSessionspark=SparkSession \.builder \.appName('my_first_app_name') \.getOrCreate()# 如果已经配置spark连接hive的参数,可以直接读取hive数据spar...


pyspark 使用介绍

冀琳         [分类] 基础算法  •   [标签]    •   2020-04-19

[摘要]  在单机范围内的数据量下,使用python的pandas包就可以非常方便地完成数据批处理工作。但当数据量达到1G以上时,pandas处理起来就有些力不从心了,到数据量达到1T以上,只能以分块的方式存储在分布式系统上时,pandas就无能为力了。Hadoop生态下,原生的工具是MapReduce计算模型...


Fbprophet安装经验总结

李云         [分类] 基础算法  •   [标签]    •   2020-02-19

[摘要]  Facebook在2018年开源了一个时间序列预测的算法,叫做fbprophet(https://github.com/facebook/prophet)。从官网的介绍来看,Facebook 所提供的 prophet 算法不仅可以处理时间序列存在一些异常值的情况,也可以处理部分缺失值的情形,还能够几...


当前显示 1-4 of 4