2020云栖大会-数据仓库前瞻技术与实践

标签：无 2020-10-20 23:49 1851人阅读评论(0)

分类：

数据分析系统及工具（2）

图片 1.png

首先阐释了大数据的5个V：

Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P

Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据

Velocity：数据增长速度快，处理速度也快，时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到，个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

Veracity：数据的准确性和可信赖度，即数据的质量。在大数据的时代，数据的信噪比不断下降，有用的信息减少，需要我们进行Data Mining

Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何结合业务逻辑并通过强大的机器算法来挖掘数据价值，是大数据时代最需要解决的问题。

图片 2.png

大数据的发展历程：从最初数据库时代，到大数据技术的兴起，到后期的数据仓库和数据湖系统。

阶段一：数据库时代。诞生了很多优秀的关系型数据库，如 Oracle、SQL Server、MySQL、PostgresSQL 等，成为当时主流计算机系统不可或缺的组成部分。

阶段二：大数据技术的「探索期」。时间进入到 2000 年附近，随着互联网的爆发，动辄几十亿、上百亿的页面以及海量的用户点击行为，开启了全球的数据量急剧增加的新时代。传统的数据库方案再也无力以可接受的成本提供计算力，巨大的数据处理需求开始寻找突破口，大数据时代开始萌芽。2003、2004、2006 年 Google 先后 3 篇经典论文（GFS、MapReduce、BigTable）奠基了这个大数据时代的基本技术框架，即分布式存储、分布式调度以及分布式计算模型。

阶段三：大数据技术的「发展期」。来到 21 世纪的第二个 10 年，随着越来越多的资源投入到大数据计算领域，大数据技术进入一个蓬勃发展的阶段，整体开始从能用转向好用。代替昂贵的手写 MapReduce 作业的，则是如雨后春笋般出现的各种以 SQL 为表达的计算引擎。这些计算引擎针对不同的场景进行针对性优化，但都采用门槛极低的 SQL 语言，极大降低了大数据技术的使用成本。

阶段四：大数据技术「普及期」。当前，大数据技术早已不是什么火箭科技，而已经渗透到各行各业，大数据的普及期已经到来。市场对大数据产品的要求，除了规模、性能、简单易用，提出了成本、安全、稳定性等更加全面的企业级生产的要求。

图片 3.png

数据湖是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储，既包括源系统中的原始副本，也包括转换后的数据，比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV，日志，XML, JSON)，非结构化数据 (电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。

数据仓库是一种通过(准)实时/批量的方式把各种外部数据源集成起来后，采用多种方式提供给最终用户进行数据消费的信息系统。

面对繁多的上游业务系统而言，数据仓库的一个重要任务就是进行数据清洗和集成，形成一个标准化的规范化的数据结构，为后续的一致性的数据分析提供可信的数据基础。

在数据仓库项目建设中，数据模型的建立具有重要的意义，客户的业务场景，流程规则，行业知识都体现在通过数据模型表现出来，在业务人员和技术人员之间搭建起来了一个沟通的桥梁。

另一方面数据仓库里面的数据要发挥价值就需要通过多种形式表现，有用于了解企业生产状况的固定报表，有用于向管理层汇报的KPI驾驶舱，有用于大屏展示的实时数据推送，有用于部门应用的数据集市，也有用于分析师的数据实验室...对于不同的数据消费途径，数据需要从高度一致性的基础模型转向便于数据展现和数据分析的维度模型。不同阶段的数据因此需要使用不同架构特点的数据模型与之相匹配，这也就是数据在数据仓库里面进行数据分层的原因。

数据仓库和数据湖，是大数据架构的两种设计取向。两者在设计的根本分歧点是对包括存储系统访问、权限管理、建模要求等方面的把控。

图片 14png.png

数据湖优先的设计，通过开放底层文件存储，给数据入湖带来了最大的灵活性。进入数据湖的数据可以是结构化的，也可以是半结构化的，甚至可以是完全非结构化的原始日志。

而数据仓库优先的设计，更加关注的是数据使用效率、大规模下的数据管理、安全/合规这样的企业级成长性需求。数据经过统一但开放的服务接口进入数据仓库，数据通常预先定义 schema，用户通过数据服务接口或者计算引擎访问分布式存储系统中的文件。数据仓库优先的设计通过抽象数据访问接口/权限管理/数据本身，来换取更高的性能（无论是存储还是计算）、闭环的安全体系、数据治理的能力等，这些能力对于企业长远的大数据使用都至关重要。

图片 5png.png

结合数据湖和数据仓库的优势，形成湖仓一体化的设计。

湖仓一体需要解决三个关键问题：

1. 湖和仓的数据 / 元数据无缝打通，且不需要用户人工干预；

2. 湖和仓有统一的开发体验，存储在不同系统的数据，可以通过一个统一的开发 / 管理平台操作；

3. 数据湖与数据仓库的数据，系统负责自动 caching/moving，系统可以根据自动的规则决定哪些数据放在数仓，哪些保留在数据湖，进而形成一体化；

图片 6.png

阿里云 MaxCompute 在原有的数据仓库架构上，融合了开源数据湖和云上数据湖，最终实现了湖仓一体化的整体架构。在该架构中，尽管底层多套存储系统并存，但通过统一的存储访问层和统一的元数据管理，向上层引擎提供一体的封装接口，用户可以同时查询数据仓库和数据湖中的表。

使用湖仓一体化的数据中台能力，优化数据管理架构，充分融合数据湖和数据仓库各自优势。使用数据湖做集中式的原始数据存储，发挥数据湖的灵活和开放优势。又通过湖仓一体技术将面向生产的高频数据和任务，无缝调度到数据仓库中，以得到更好的性能和成本，以及后续一系列面向生产的数据治理和优化

查看评论

暂无评论