企业大数据湖

书籍描述

Data Lake是一种大胆的新方法,用于利用大数据技术的力量,提供方便的自助服务能力。但对贵公司是正确的吗?本书基于从百万组织的从业者和高管的讨论,从谷歌,LinkedIn和Facebook等数据驱动的公司到各国政府和传统的企业企业。您将学习数据湖是什么,为什么企业需要一个,以及如何在本书中的最佳实践中成功建立一个。

Alex Gorelik,CTO和Waterline数据的创始人解释了为什么旧系统和流程无法再支持企业的数据需求。然后,在关于数据湖实施的一系列论文中,您将检查在各行业工作的数据专家的数据湖倡议,分析项目,经验和最佳实践。

  • 获得数据仓库,大数据和数据科学的简洁介绍
  • 了解各种路径企业,以建立一个数据湖
  • 探索如何构建自助服务模型和最佳实践,以提供分析师访问数据
  • 使用不同的方法来架构您的数据湖
  • 发现从不同行业专家实施数据湖的方法

出版商资源

查看/提交勘误表

目录

  1. 前言
    1. 谁应该读这本书?
    2. 本书中使用的约定
    3. 奥里利在线学习
    4. 如何联系我们
    5. 致谢
  2. 1.数据湖介绍
    1. 数据湖到期日
      1. 数据水坑
      2. 数据池塘
    2. 创建一个成功的数据湖
      1. 正确的平台
      2. 正确的数据
      3. 正确的界面
      4. 数据沼泽
    3. 数据湖成功的路线图
      1. 站起来一个数据湖
      2. 组织数据湖
      3. 设置自助服务数据湖
    4. 数据湖架构
      1. 数据湖在公共云中
      2. 逻辑数据湖泊
    5. 结论
  3. 2.历史观点
    1. 用于自助服务数据的驱动器 - 数据库的诞生
    2. 分析势在必行 - 数据仓库的诞生
    3. 数据仓库生态系统
      1. 存储和查询数据
      2. 加载数据数据集成工具
      3. 组织和管理数据
      4. 消耗数据
    4. 结论
  4. 3.大数据和数据科学介绍
    1. Hadoop将历史转变为大数据
      1. Hadoop文件系统
      2. 如何在MapReduce作业中进行处理和存储
      3. 艺术读取
      4. Hadoop项目
    2. 数据科学
    3. 您的分析组织应该侧重于什么?
    4. 机器学习
      1. 解释性
      2. 更换管理层
    5. 结论
  5. 4.启动数据湖
    1. Hadoop的原因和原因
    2. 防止数据水坑的增殖
    3. 利用大数据
      1. 领导数据科学
      2. 策略1:卸载现有功能
      3. 战略2:新项目的数据湖泊
      4. 战略3:建立一个治理的中心点
      5. 哪种方式适合你?
    4. 结论
  6. 5.从数据池塘/大数据仓库到数据湖泊
    1. 数据仓库的基本功能
      1. 分析尺寸建模
      2. 集成不同源的数据
      3. 使用慢速改变尺寸保留历史
      4. 数据仓库作为历史存储库的限制
    2. 搬到数据池塘
      1. 在数据池塘中保持历史
      2. 在数据池中实施慢速改变尺寸
    3. 将数据池塘生长到数据仓库中的数据湖泊加载数据中
      1. 原始数据
      2. 外部数据
      3. 物联网(物联网)和其他流数据
    4. 实时数据湖泊
    5. Lambda架构
    6. 数据转换
    7. 目标系统
      1. 数据仓库
      2. 运营数据存储
      3. 实时应用和数据产品
    8. 结论
  7. 6.优化自助服务
    1. 自助的开始
    2. 商业分析师
      1. 寻找和理解数据记录企业
      2. 建立信托
      3. 供应
      4. 准备分析数据
    3. 数据钩在数据湖中
      1. Hadoop中的数据准备
      2. 常用用例进行数据准备
    4. 分析和可视化
    5. 新世界自助商业智能
      1. 新的分析工作流程
      2. 守门员到店主
      3. 管理自助服务
    6. 结论
  8. 7.架构数据湖
    1. 组织数据湖
      1. 着陆或原始区域
      2. 金区
      3. 工作区
      4. 敏感区域
    2. 多个数据湖泊
      1. 保持数据湖泊的优点
      2. 合并数据湖泊的优势
    3. 云数据湖泊
    4. 虚拟数据湖泊
      1. 数据联合会
      2. 大数据虚拟化
      3. 消除冗余
    5. 结论
  9. 8.数据湖编制
    1. 组织数据
      1. 技术元数据
      2. 商业元数据
    2. 标记
      1. 自动编目
    3. 逻辑数据管理
      1. 敏感数据管理和访问控制
      2. 数据质量
    4. 与不同的数据相关
    5. 建立谱系
    6. 数据供应
    7. 构建目录的工具
      1. 工具比较
    8. 数据海洋
    9. 结论
  10. 9.管理数据访问
    1. 授权或访问控制
    2. 基于标签的数据访问策略
    3. 执行敏感数据
      1. 数据主权和监管合规性
    4. 自助式访问管理
      1. 提供数据
    5. 结论
  11. 10.行业特定的观点
    1. 金融服务中的大数据
      1. 消费者,数字化和数据正在改变金融时,我们知道它
      2. 拯救银行
      3. 新数据提供的新机会
      4. 利用数据湖的关键过程
    2. 金融服务中的数据湖泊添加了价值
    3. 保险业的数据湖泊
    4. 智能城市
    5. 医学中的大数据
  12. 指数

产品信息

  • 标题:企业大数据湖
  • 作者:Alex Gorelik.
  • 发布日期:2019年3月
  • 出版商:O'Reilly Media,Inc。
  • ISBN:9781491931554