结果过滤


当前显示 1-5 of 12
 | 

Spark SQL & Dataframe操作总结

冀琳         [分类] Spark  •   [标签]    •   2020-12-20

[摘要]  from pyspark.sql import SparkSessionspark=SparkSession \.builder \.appName('my_first_app_name') \.getOrCreate()# 如果已经配置spark连接hive的参数,可以直接读取hive数据spar...


腾讯开发者大会分论坛总结

冀琳         [分类] 期刊和会议  •   [标签]    •   2020-12-20

[摘要]  腾讯Techo Park开发者大会——“存储加速度,海量存储创造无限可能”分论坛内容总结。


Flume数据采集框架的使用

冀琳         [分类] 数据分析系统及工具  •   [标签]    •   2020-11-18

[摘要]  1. 概述- Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。- Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中- 一般的采集需求,...


CNCC2020大数据专场-大数据治理的全景式框架研究与实践

冀琳         [分类] 期刊和会议  •   [标签]    •   2020-11-18

[摘要]  CNCC2020大数据专场大数据治理与开放共享论坛大数据治理的全景式框架研究与实践报告人:印鉴中山大学人工智能学院广东省大数据分析与处理重点实验室大数据治理成为国家战略,习总书记指出“要运用大数据提升国家国家治理现代化水平,要建健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,...


2020云栖大会-数据仓库前瞻技术与实践

冀琳         [分类] 数据分析系统及工具  •   [标签]    •   2020-10-20

[摘要]  首先阐释了大数据的5个V: Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是PVariety:种类和来源多样化。包括结构化、半结构化和非结构化数据Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推...


当前显示 1-5 of 12