从头开始的数据科学,第二版

书中描述

要真正学习数据科学,您不仅应该掌握工具——数据科学库、框架、模块和工具包——而且还应该理解它们背后的思想和原理。在Python 3.6中更新,这是《从头开始的数据科学》第二版,通过从头开始实现这些工具和算法,向您展示了它们是如何工作的。

如果你有数学天赋和一些编程技能,作者Joel Grus将帮助你熟悉作为数据科学核心的数学和统计学,以及作为数据科学家开始所需要的黑客技能。在深度学习,统计和自然语言处理的新材料,这本更新的书向您展示了如何在今天的混乱过剩的数据中找到宝石。

  • 参加一个Python速成班
  • 学习线性代数、统计学和概率的基础知识——以及它们在数据科学中如何以及何时被使用
  • 收集、探索、清理、收集和操作数据
  • 深入学习机器学习的基本原理
  • 实现模型,如k近邻,Naïve贝叶斯,线性和逻辑回归,决策树,神经网络和聚类
  • 探索推荐系统、自然语言处理、网络分析、MapReduce和数据库

出版社的资源

视图/提交勘误表

表的内容

  1. 第二版前言
    1. 本书使用的约定
    2. 使用代码示例
    3. O ' reilly在线学习
    4. 如何联络我们
    5. 致谢
  2. 第一版前言
    1. 数据科学
    2. 从头开始
  3. 1.介绍
    1. 数据的优势
    2. 什么是数据科学?
    3. 激励假设:DataSciencester
      1. 找到关键的连接器
      2. 你可能认识的数据科学家
      3. 薪水和经验
      4. 付费账户
      5. 感兴趣的话题
  4. 2.Python速成班
    1. Python的禅宗
    2. 让Python
    3. 虚拟环境
    4. 空白格式化
    5. 模块
    6. 功能
    7. 字符串
    8. 异常
    9. 列表
    10. 元组
    11. 字典
      1. defaultdict
    12. 计数器
    13. 控制流
    14. 真实与否
    15. 排序
    16. 列表理解
    17. 自动化测试和断言
    18. 面向对象编程
    19. iterable和发电机
    20. 随机性
    21. 正则表达式
    22. 函数式编程
    23. 解压
    24. 参数和kwargs
    25. 类型注解
      1. 如何编写类型注释
    26. 欢迎来到DataSciencester !
    27. 为进一步探索
  5. 3.可视化数据
    1. matplotlib
    2. 柱状图
    3. 线图表
    4. 散点图
    5. 为进一步探索
  6. 4.线性代数
    1. 向量
    2. 矩阵
    3. 为进一步探索
  7. 5.统计数据
    1. 描述一组数据
      1. 中央倾向
      2. 分散
    2. 相关
    3. 辛普森悖论
    4. 其他相关注意事项
    5. 相关性和因果关系
    6. 为进一步探索
  8. 6.概率
    1. 依赖和独立
    2. 条件概率
    3. 贝叶斯定理
    4. 随机变量
    5. 连续分布
    6. 正态分布
    7. 中心极限定理
    8. 为进一步探索
  9. 7.假设和推理
    1. 统计假设检验
    2. 例子:抛硬币
    3. 假定值
    4. 置信区间
    5. p-Hacking
    6. 示例:运行A/B测试
    7. 贝叶斯推理
    8. 为进一步探索
  10. 8.梯度下降法
    1. 梯度下降背后的思想
    2. 估算梯度
    3. 使用梯度
    4. 选择正确的步长
    5. 使用梯度下降拟合模型
    6. 小批量和随机梯度下降
    7. 为进一步探索
  11. 9.获取数据
    1. stdin和stdout
    2. 阅读文件
      1. 文本文件的基础
      2. 带分隔符的文件
    3. 抓取网页
      1. HTML及其解析
      2. 例如:密切关注国会
    4. 使用api
      1. JSON和XML
      2. 使用未经验证的API
      3. 发现api
    5. 示例:使用Twitter api
      1. 获得证书
    6. 为进一步探索
  12. 10.处理数据
    1. 探索你的数据
      1. 探索一维数据
      2. 两个维度
      3. 许多方面
    2. 使用NamedTuples
    3. Dataclasses
    4. 清洁和绿豆
    5. 操作数据
    6. 重新调节
    7. 题外话:tqdm
    8. 降维
    9. 为进一步探索
  13. 11.机器学习
    1. 建模
    2. 什么是机器学习?
    3. 过度拟合和Underfitting
    4. 正确性
    5. 偏见方差的权衡
    6. 特征提取与选择
    7. 为进一步探索
  14. 12.再邻居
    1. 该模型
    2. 例如:虹膜数据集
    3. 维度的诅咒
    4. 为进一步探索
  15. 13.朴素贝叶斯
    1. 一个非常愚蠢的垃圾邮件过滤器
    2. 一个更复杂的垃圾邮件过滤器
    3. 实现
    4. 测试我们的模型
    5. 使用我们的模型
    6. 为进一步探索
  16. 14.简单线性回归
    1. 该模型
    2. 使用梯度下降法
    3. 最大似然估计
    4. 为进一步探索
  17. 15.多元回归
    1. 该模型
    2. 最小二乘模型的进一步假设
    3. 拟合模型
    4. 解释模型
    5. 拟合优度
    6. 题外话:引导
    7. 回归系数的标准误差
    8. 正则化
    9. 为进一步探索
  18. 16.逻辑回归
    1. 这个问题
    2. 物流功能
    3. 应用模型
    4. 拟合优度
    5. 支持向量机
    6. 为进一步调查
  19. 17.决策树
    1. 什么是决策树?
    2. 分块的熵
    3. 创建决策树
    4. 把它们放在一起
    5. 随机森林
    6. 为进一步探索
  20. 18.神经网络
    1. 感知器
    2. 前馈神经网络
    3. 反向传播
    4. 例子:饮料嗡嗡声
    5. 为进一步探索
  21. 19.深度学习
    1. 抽象层
    2. 线性层
    3. 神经网络作为层的序列
    4. 损失和优化
    5. 例如:XOR重新审视
    6. 其他的激活函数
    7. 例如:FizzBuzz重新审视
    8. Softmaxes和叉
    9. 辍学
    10. 例如:MNIST
    11. 保存和加载模型
    12. 为进一步探索
  22. 20.聚类
    1. 这个想法
    2. 该模型
    3. 例如:聚会
    4. 选择k
    5. 例如:集群的颜色
    6. 自底向上的层次聚类
    7. 为进一步探索
  23. 21.自然语言处理
    1. 词云
    2. 语法的语言模型
    3. 语法
    4. 旁白:吉布斯抽样
    5. 主题建模
    6. 词向量
    7. 复发性神经网络
    8. 例如:使用字符级RNN
    9. 为进一步探索
  24. 22.网络分析
    1. 中间性中心
    2. 特征向量中心
      1. 矩阵乘法
      2. 中心
    3. 有向图和PageRank
    4. 为进一步探索
  25. 23.推荐系统
    1. 人工管理
    2. 推荐是什么受欢迎
    3. 基于用户的协同过滤
    4. 基于项目协同过滤
    5. 矩阵分解
    6. 为进一步探索
  26. 24.数据库和SQL
    1. 创建和插入表
    2. 更新
    3. 删除
    4. 选择
    5. 集团
    6. 命令
    7. 加入
    8. 子查询
    9. 索引
    10. 查询优化
    11. NoSQL
    12. 为进一步探索
  27. 25.MapReduce
    1. 例如:单词计数
    2. 为什么MapReduce ?
    3. MapReduce更普遍
    4. 示例:分析状态更新
    5. 例如:矩阵乘法
    6. 题外话:组合器
    7. 为进一步探索
  28. 26.数据伦理
    1. 什么是数据伦理?
    2. 什么是数据伦理?
    3. 我应该关心数据伦理吗?
    4. 构建不良数据产品
    5. 权衡准确性和公平性
    6. 协作
    7. 可解释性
    8. 建议
    9. 有偏见的数据
    10. 数据保护
    11. 总之
    12. 为进一步探索
  29. 27.走出去,做数据科学
    1. IPython
    2. 数学
    3. 不是从头开始
      1. NumPy
      2. 熊猫
      3. scikit-learn
      4. 可视化
      5. R
      6. 深度学习
    4. 找到数据
    5. 做数据科学
      1. 黑客新闻
      2. 消防车
      3. t恤
      4. 《环球报》上的推文
      5. 你呢?
  30. 指数

产品信息

  • 标题:从头开始的数据科学,第二版
  • 作者(年代):乔天鹤座
  • 上映日期(待定):2019年5月
  • 出版商(s):O ' reilly Media, Inc .)
  • 国际标准图书编号:9781492041139