数据仓库(DW)是一种数字存储系统,可以连接和协调来自许多不同来源的大量数据。其目的是提供商业智能(BI),报告和分析,以及支持监管要求- - - - - -因此,公司可以将数据转化为洞察力,并做出明智的、数据驱动的决策。数据仓库将当前数据和历史数据存储在一个地方,并充当组织的单一真相来源。

数据流从操作系统(例如ERP.CRM)、数据库和外部资源,如合作伙伴系统、物联网(IoT)设备、天气应用程序和社交媒体——通常有规律的节奏。的出现云计算引起了景观的转变。近年来,数据存储位置已将传统的内部部署基础架构移到多个位置,包括前提,私有云和公共云。

现代数据仓库旨在处理结构化和非结构化数据,如视频,图像文件和传感器数据。一些利用集成的分析和内存数据库技术(其中包含计算机内存中的数据集而不是在磁盘存储中),以提供对可信数据的实时访问,并驱动自信的决策。如果没有数据仓库,那么将数据与异构源组合非常困难,以确保其具有正确的分析格式,并随着时间的推移获得数据的当前和远程视图。

什么是数据仓库
什么是数据仓库?

数据仓库的好处

一个设计良好的数据仓库是任何成功的BI或分析程序的基础。它的主要工作是为报告、仪表板和分析工具提供动力,这些工具已经成为当今企业不可或缺的工具。数据仓库为您的数据驱动决策提供信息——并帮助您在从新产品开发到库存水平的一切方面做出正确的决策。数据仓库有很多好处。以下是其中的一些:

数据仓库流程
显示数据沿袭的数据仓库截图。

数据仓库可以存储什么?

当数据仓库在20世纪80年代末首次流行起来时,它们被设计用来存储关于人、产品和交易的信息。这个数据叫做结构化数据-是整洁的组织和格式,便于访问。然而,企业很快就想存储、检索和分析非结构化数据-如文档、图像、视频、电子邮件、社交媒体帖子和来自机器传感器的原始数据。

现代数据仓库可以适应结构化和非结构化数据。通过合并这些数据类型并在两者之间分解筒仓,企业可以为最有价值的见解获得一个完整的全面的画面。

一些关键条款

在DW的世界中有很多术语。以下是一些最重要的。探索我们的其他一些术语和常见问题解答术语表

数据仓库与数据库

数据库和数据仓库都是数据存储系统;然而,它们的用途不同。数据库通常存储特定业务领域的数据。数据仓库为整个业务存储当前和历史数据,并为BI和分析提供数据源。数据仓库使用数据库服务器将数据从组织的数据库中拉入,并具有数据建模、数据生命周期管理、数据源集成等额外功能。

数据仓库与数据湖

数据仓库和数据湖泊都用于存储大数据,但它们是非常不同的存储系统。数据仓库存储了以特定目的格式化的数据,而数据湖则在其原始的未处理状态下存储数据 - 尚未定义的目的。数据仓库和湖泊通常相互补充。例如,当需要存储在湖中的原始数据来回答业务问题时,可以在数据仓库中提取,清除,转换和使用它以进行分析。数据,数据库性能和存储定价的卷在帮助您选择正确的存储解决方案方面发挥着重要作用。

数据仓库vs数据湖
数据仓库与数据湖的对比图

数据仓库与数据集市

数据集市是数据仓库的一个分支,专门为一个部门或业务线(如销售、市场或财务)划分。有些数据集市也是为了独立的操作目的而创建的。数据仓库作为整个公司的中央数据存储,而数据集市则为选定的一组用户提供相关数据。这简化了数据访问,加快了分析,并使他们能够控制自己的数据。多个数据集市通常部署在一个数据仓库中。

数据仓库vs数据集市
数据集市的图表及其工作原理

数据仓库的关键组件是什么?

一个典型的数据仓库有四个主要组件:中央数据库、ETL(提取、转换、加载)工具、元数据和访问工具。所有这些组件都是为速度而设计的,这样你就可以快速得到结果并动态分析数据。

数据仓库的组件
显示数据仓库组件的图表
  1. 中央数据库:数据库是数据仓库的基础。传统上,这些都是运行在前提或云中的标准关系数据库。但由于大数据、对真实、实时性能的需求以及RAM成本的大幅降低,内存数据库正迅速流行起来。
  2. 数据集成:使用各种数据集成方法(如ETL(提取、转换、加载)和ELT,以及实时数据复制、大容量加载处理、数据转换、数据质量和丰富服务),从源系统提取数据并对数据进行修改,使信息与快速分析消耗保持一致。
  3. 元数据:元数据是有关数据的数据。它指定数据仓库中数据集的源,用法,值和其他功能。有业务元数据将上下文添加到您的数据和技术元数据,该技术元数据描述了如何访问数据 - 包括它所存在的数据以及它是如何结构的。
  4. 数据仓库访问工具:访问工具允许用户与数据仓库中的数据交互。访问工具的示例包括:查询和报告工具,应用程序开发工具,数据挖掘工具和OLAP工具。

数据仓库架构

过去,数据仓库在符合业务数据流的层中运行。

数据仓库架构图
数据仓库架构图
数据层 从您的源中提取数据,然后使用ETL工具转换并加载到底层。底层由数据库服务器、数据集市和数据湖组成。元数据是在这一层创建的——数据集成工具(如数据虚拟化)用于无缝地组合和聚合数据。
语义层 在中间层,在线分析处理(OLAP)和在线交易处理(OLTP)服务器重组了快速,复杂查询和分析的数据。
分析层 最顶层是前端客户端层。它拥有数据仓库访问工具,用户可以与数据交互,创建仪表板和报告,监控kpi,挖掘和分析数据,构建应用程序,等等。这一层通常包括一个用于数据探索和新数据模型开发的工作台或沙箱区域。
一个典型的数据仓库包括上面三个独立的层。今天,现代数据仓库将OLTP和OLAP合并到一个系统中。

数据仓库的设计初衷是为了支持决策制定,并且主要是由IT团队构建和维护的,但是在过去的几年中,它们已经发展到授权业务用户——减少了他们对IT访问数据和获得可操作的见解的依赖。授权业务用户使用的几个关键数据仓库功能是:

  1. 语义层或业务层提供自然语言短语,允许每个人立即理解数据,定义数据模型中元素之间的关系,并使用新的业务信息丰富数据字段。
  2. 虚拟工作空间允许团队将数据模型和连接带入一个安全的和管理的地方,支持通过一个公共空间和一个公共数据集与同事更好地合作。
  3. Cloud通过全球授权员工提供了丰富的工具和功能,进一步改善了决策,以便轻松地执行数据分析任务。他们可以在没有大量的情况下连接新的应用和数据来源。
SAP的增强商业智能负责人Kate Wright讨论了现代云数据仓库的价值。

今天就试试我们的云数据仓库吧

云数据仓库的七大好处

基于云的数据仓库是普及的上升 - 有充分的理由。这些现代化的仓库提供了传统的内部内部版本的几个优势。以下是云数据仓库的七大优势:

  1. 快速部署:有了云数据仓库,您可以在几次点击中购买几乎无限的计算能力和数据存储——而且您可以在任何地方在几分钟内构建自己的数据仓库、数据集市和沙箱。
  1. 低总拥有成本(TCO):设置数据仓库 - AS-Service(DWAAS)定价模型,以便您只需支付所需的资源,当您需要时。您不必预测您的长期需求或支付全年的更加费用,而不是必要的。您还可以避免前期成本,如昂贵的硬件,服务器室和维护人员。将存储定价与计算定价分开也为您提供了一种推动成本的方法。
  1. 弹性:使用云数据仓库,您可以根据需要动态扩展或下降。云为我们提供了一个虚拟化,高度分布式的环境,可以管理可以上下扩展的大量数据。
  1. 安全和灾难恢复:在许多情况下,云数据仓库实际上提供更强大数据安全和加密比内部DWs。数据还会自动复制和备份,因此可以将数据丢失的风险降至最低。
  1. 实时技术:内置内存数据库技术内置的云数据仓库可以提供极快的数据处理速度,以提供实时数据以进行瞬时情境感知。
  2. 新技术:云数据仓库允许您轻松集成新技术,如机器学习,这可以以建议的问题为例,以推荐问题的形式为业务用户和决策支持提供导游的经验。
  1. 让业务用户:云数据仓库为全球员工提供了同等的权限,让他们可以从多个来源获得单一的数据视图,以及一组丰富的工具和特性,轻松地执行数据分析任务。他们可以在没有它的情况下连接新的应用程序和数据源。
数据仓库解决方案截图
数据仓库支持根据部门、供应商、区域和状态对公司费用进行综合分析。

数据仓库最佳实践

当您构建新的数据仓库或向现有仓库添加新的应用程序时,有一些经过验证的步骤可以在节省时间和金钱的同时实现目标。一些实践集中于您的业务使用,其他实践是整个IT程序的一部分。下面的列表是一个很好的起点,当您与技术和服务合作伙伴一起工作时,您将获得更多的最佳实践。

业务的最佳实践 它的最佳实践
定义您需要的信息。一旦您对您的初始需求良好了解,您可以找到数据源以支持它们。通常,交易团体,客户和供应商将为您提供数据建议。 监视性能和安全性。数据仓库中的信息是有价值的,但必须是容易访问的,以便为组织提供价值。仔细监视系统的使用情况,以确保性能级别很高。
记录当前数据的位置、结构和质量。然后,您可以识别用于转换数据以满足您的仓库要求的数据差距和业务规则。 维护数据质量标准、元数据、结构和治理。新的有价值的数据来源通常是常规的,但它们需要一致的管理作为数据仓库的一部分。遵循数据清理的程序,定义元数据和会议治理标准。
建立一个团队。这包括执行发起人、经理和将使用和提供信息的员工。例如,确定他们完成工作所需的标准报告和kpi 提供敏捷架构。随着公司和业务单位使用量的增加,您将发现大量的数据集市和数据仓库需求。一个灵活的平台将比一个有限的、有限制的产品更好地支持它们。
优先顺序数据仓库应用程序。选择一两个具有合理需求和良好商业价值的试点项目。 自动化维护等过程。除了为商业智能增加价值外,机器学习还可以自动化数据仓库技术管理功能,以保持速度并降低运营成本。
选择一个强大的数据仓库技术合作伙伴。他们必须拥有项目所需的实现服务和经验。确保它们支持您的部署需求,包括云服务和本地选项。 战略性地使用云。业务单位和部门有不同的部署需求。在需要时使用内部部署系统,并大写云数据仓库可伸缩性,降低成本,以及电话和平板电脑访问。
制定一个好的项目计划。与您的团队合作,以实现支持通信和状态报告的现实蓝图和计划。

总之

现代数据仓库和日益云数据仓库将成为家长公司及其业务单位的任何数字转型计划的关键部分。他们利用当前的业务系统,特别是当您将来自多个内部系统的数据与来自外部组织的新的重要信息组合起来时。

仪表板,KPI,警报和报告支持执行,管理和员工要求以及重要的客户和供应商需求。数据仓库还提供快速,复杂的数据挖掘和分析,并且他们不会扰乱其他业务系统的性能。

考虑到从小型开始并根据需要扩展的灵活性,公司办公室和业务部门都可以使用现代数据仓库技术改进决策和底线性能。

探索SAP的云数据仓库解决方案

获取可信赖决策的统一数据和分析,加上控制成本和支付的灵活性以及您使用的。

数据仓库词汇表

数据湖是一种存储各种大数据的地方,无论是来自商业应用程序,社交媒体或事物互联网(IOT)设备的业务应用程序或非结构化数据的结构数据。由于数据以其自然格式存储 - 结构化,非结构化,半结构化或二进制转换,归一化或可能需要其他处理,以便在多种数据类型中启用分析。大多数数据湖泊由于它们存储的数据量大,大多数数据湖泊是云的,需要高速连接到分布式源,并且需要可扩展性。

ETL代表“提取、转换和加载”。这些活动共同构成了从数据源获取数据并将其转换为可用格式的流程——然后将其移动到数据仓库或其他数据存储中。ETL对于事务性数据特别有用,但是更高级的工具也可以管理各种非结构化数据类型。

数据集市是面向特定业务领域或团队(如财务或市场)的数据仓库的分区部分。数据集市使部门能够更容易地快速访问与他们相关的数据和见解,并在更大的数据存储中控制他们自己的数据集。

数据模型是软件开发和分析的基础元素。数据模型是如何构造数据的描述,以及数据将存储在数据库中的形式。数据模型提供了数据库内数据元素之间的关系框架,以及使用数据的指南。

数据建模是创建数据模型的过程。在创建数据库或数据仓库结构时,设计器首先绘制数据如何流入和流出数据库或数据仓库的图表。此流程图用于定义数据格式、结构和数据库处理函数的特征,以有效地支持数据流需求。建模为跨系统一致地定义和格式化数据库内容提供了标准化方法,使不同的应用程序能够共享相同的数据。

企业数据仓库 (EDW)将所有当前和历史业务数据存储在一个地方——体现了主数据管理、数据仓库和基于整体数据管理方法的数据策略。EDWs为分析软件和维护准确的全公司kpi和报告提供了一个友好的环境。许多edw都是基于云的,以实现可伸缩性、访问性和易用性。