Python数据科学手册

书籍描述

对于许多研究人员来说,Python是一流的工具,主要是因为它的库用于存储、操作和从数据中获取见解。这个数据科学堆栈的各个部分都有一些资源,但只有在Python数据科学手册中,您才能获得所有IPython、NumPy、Pandas、Matplotlib、sciket Learn和其他相关工具。

熟悉阅读和编写Python代码的科学家和数据处理人员会发现这个全面的桌面参考非常适合处理日常问题:操作、转换和清理数据;可视化不同类型的数据;利用数据建立统计或机器学习模型。很简单,这是Python中科学计算的必备参考。

通过本手册,您将学习如何使用:

  • IPython和Jupyter:为使用Python的数据科学家提供计算环境
  • 努比:包括恩达里用于在Python中高效地存储和操作密集数据数组
  • 熊猫:以DataFrame为特色,在Python中高效地存储和操作标记/列数据
  • Matplotlib数据库:包括Python中灵活的数据可视化功能
  • Scikit学习:对于最重要和已建立的机器学习算法的高效和干净的Python实现

发布者资源

查看/提交勘误表

目录

  1. 前言
    1. 什么是数据科学?
    2. 这本书是给谁的?
    3. 为什么是蟒蛇?
      1. Python2与Python3
    4. 这本书的大纲
    5. 使用代码示例
    6. 安装注意事项
    7. 本书中使用的惯例
    8. 奥雷利野生动物园
    9. 如何联系我们
  2. 1.IPython:超越普通Python
    1. 外壳还是笔记本?
      1. 发射IPython炮弹
      2. 启动Jupyter笔记本
    2. IPython中的帮助和文档
      1. 使用访问文档?
      2. 使用访问源代码??
      3. 使用制表符完成浏览模块
    3. ipythonshell中的键盘快捷键
      1. 导航快捷方式
      2. 文本输入快捷方式
      3. 命令历史快捷方式
      4. 其他快捷方式
    4. IPython魔术命令
      1. 粘贴代码块:%paste和%cpaste
      2. 正在运行外部代码:%run
      3. 计时代码执行:%timeit
      4. 有关魔法函数的帮助:?、%Magic和%lsmagic
    5. 输入和输出历史记录
      1. IPython的进出物体
      2. 下划线快捷方式和以前的输出
      3. 抑制输出
      4. 相关魔法命令
    6. IPython和Shell命令
      1. 壳牌简介
      2. IPython中的Shell命令
      3. 在Shell之间传递值
    7. 与Shell相关的魔术命令
    8. 错误和调试
      1. 控制异常:%xmode
      2. 调试:当读取回溯是不够的
    9. 分析和计时代码
      1. 计时代码段:%timeit和%time
      2. 分析完整脚本:%prun
      3. 使用%lprun逐行分析
      4. 分析内存使用:%memit和%mprun
    10. 更多IPython资源
      1. Web资源
  3. 2.NumPy简介
    1. 理解Python中的数据类型
      1. Python整数不仅仅是一个整数
      2. Python列表不仅仅是一个列表
      3. Python中的固定类型数组
      4. 从Python列表创建数组
      5. 从头开始创建阵列
      6. NumPy标准数据类型
    2. NumPy数组的基础知识
      1. NumPy数组属性
      2. 数组索引:访问单个元素
      3. 阵列切片:访问子阵列
      4. 阵列整形
      5. 数组连接和拆分
    3. NumPy阵列的计算:通用函数
      1. 循环的缓慢
      2. 介绍UFuncs
      3. 探索NumPy的UFuncs
      4. 高级Ufunc功能
      5. Ufuncs:了解更多
    4. 聚合:最小值、最大值和介于两者之间的所有值
      1. 对数组中的值求和
      2. 最小值和最大值
      3. 美国总统的平均身高是多少?
    5. 阵列计算:广播
      1. 介绍广播
      2. 广播规则
      3. 广播实践
    6. 比较、掩码和布尔逻辑
      1. 示例:计算雨天
      2. 比较运算符作为ufuncs
      3. 使用布尔数组
      4. 作为掩码的布尔数组
    7. 花哨的索引
      1. 探索花式索引
      2. 组合索引
      3. 示例:选择随机点
      4. 使用花哨的索引修改值
      5. 示例:装箱数据
    8. 排序数组
      1. NumPy中的快速排序:np.sort和np.argsort
      2. 部分排序:分区
      3. 示例:k-最近邻
    9. 结构化数据:NumPy的结构化数组
      1. 创建结构化数组
      2. 更高级的复合类型
      3. RecordArrays:带扭曲的结构化数组
      4. 关于熊猫
  4. 3.熊猫数据操作
    1. 安装和使用熊猫
    2. 介绍熊猫对象
      1. 熊猫系列对象
      2. 数据帧对象
      3. 熊猫索引对象
    3. 数据索引和选择
      1. 串联数据选择
      2. 数据帧中的数据选择
    4. 熊猫数据操作
      1. Ufuncs:索引保存
      2. UFuncs:索引对齐
      3. Ufuncs:数据帧和序列之间的操作
    5. 处理丢失的数据
      1. 缺失数据约定的权衡
      2. 熊猫数据缺失
      3. 对空值进行操作
    6. 层次索引
      1. 多索引数列
      2. 多索引创建方法
      3. 索引和切片多索引
      4. 重新排列多个索引
      5. 多指标数据聚合
    7. 组合数据集:Concat和Append
      1. 回忆:NumPy数组的串联
      2. 与pd.concat的简单连接
    8. 组合数据集:合并和联接
      1. 关系代数
      2. 联接的类别
      3. 合并密钥的规范
      4. 指定联接的集合算法
      5. 重叠列名:后缀关键字
      6. 示例:美国各州数据
    9. 聚合和分组
      1. 行星数据
      2. 大熊猫的简单聚集
      3. 分组方式:拆分、应用、合并
    10. 基准表
      1. 激励数据透视表
      2. 手动透视表
      3. 数据透视表语法
      4. 例如:出生率数据
    11. 矢量化字符串操作
      1. 介绍字符串操作
      2. 字符串方法表
      3. 示例:配方数据库
    12. 使用时间序列
      1. Python中的日期和时间
      2. 时间序列:按时间索引
      3. 时间序列数据结构
      4. 频率和偏移
      5. 重采样、移位和开窗
      6. 从何处了解更多
      7. 示例:可视化西雅图自行车计数
    13. 高性能:eval()和query()
      1. 激发query()和eval():复合表达式
      2. pandas.eval()用于高效操作
      3. 用于逐列操作的DataFrame.eval()
      4. DataFrame.query()方法
      5. 性能:何时使用这些功能
    14. 进一步的资源
  5. 4.Matplotlib可视化
    1. 一般Matplotlib提示
      1. 导入matplotlib
      2. 设置样式
      3. show()还是No show()?如何显示绘图
      4. 将数字保存到文件
    2. 两个接口一个价格
    3. 简单线图
      1. 调整打印:线颜色和样式
      2. 调整打印:轴限制
      3. 标记绘图
    4. 简单散点图
      1. 带plt.plot的散点图
      2. 带plt.Scatter的散点图
      3. 图与散:关于效率的一个注记
    5. 可视化错误
      1. 基本误差线
      2. 连续性错误
    6. 密度和等高线图
      1. 可视化三维函数
    7. 直方图、binning和密度
      1. 二维直方图和分格
    8. 自定义打印图例
      1. 为图例选择元素
      2. 点大小图例
      3. 多个图例
    9. 自定义颜色栏
      1. 自定义颜色栏
      2. 例如:手写数字
    10. 多个子地块
      1. plt.axes:手动子批
      2. plt.subplot:子地块的简单网格
      3. plt.subplot:一次完成整个网格
      4. plt.GridSpec:更复杂的安排
    11. 文本和注释
      1. 例句:假期对美国出生的影响
      2. 变换和文本位置
      3. 箭头和注释
    12. 自定义记号
      1. 主次记号
      2. 隐藏记号或标签
      3. 减少或增加滴答声的数量
      4. 奇特的刻度格式
      5. 格式化程序和定位器摘要
    13. 自定义Matplotlib:配置和样式表
      1. 手工绘图定制
      2. 更改默认值:rcParams
      3. 样式表
    14. Matplotlib中的三维绘图
      1. 三维点和线
      2. 三维等高线图
      3. 线框和曲面图
      4. 曲面三角剖分
    15. 带底图的地理数据
      1. 地图投影
      2. 绘制地图背景
      3. 在地图上绘制数据
      4. 例如:加州城市
      5. 示例:表面温度数据
    16. Seaborn可视化
      1. Seaborn对Matplotlib
      2. 探索海生地块
      3. 示例:探索马拉松结束时间
    17. 进一步的资源
      1. Matplotlib资源
      2. 其他Python图形库
  6. 5.机器学习
    1. 什么是机器学习?
      1. 机器学习的分类
      2. 机器学习应用的定性例子
      3. 摘要
    2. 介绍Scikit学习
      1. Scikit学习中的数据表示
      2. Scikit Learn估计器API
      3. 应用:探索手写数字
      4. 摘要
    3. 超参数和模型验证
      1. 关于模型验证的思考
      2. 选择最佳模型
      3. 学习曲线
      4. 实践验证:网格搜索
      5. 摘要
    4. 特征工程
      1. 范畴特征
      2. 文本特征
      3. 图像特征
      4. 衍生特征
      5. 缺失数据的插补
      6. 功能管道
    5. 深入:朴素贝叶斯分类
      1. 贝叶斯分类
      2. 高斯朴素贝叶斯
      3. 多项式朴素贝叶斯
      4. 何时使用朴素贝叶斯
    6. 深度:线性回归
      1. 简单线性回归
      2. 基函数回归
      3. 正则化
      4. 示例:预测自行车流量
    7. 深度:支持向量机
      1. 激励支持向量机
      2. 支持向量机:利润最大化
      3. 例如:人脸识别
      4. 支持向量机综述
    8. 深入:决策树和随机森林
      1. 激励随机森林:决策树
      2. 估计量的集合:随机森林
      3. 随机森林回归
      4. 示例:用于数字分类的随机林
      5. 随机森林概述
    9. 深度:主成分分析
      1. 主成分分析简介
      2. PCA作为噪声滤波
      3. 示例:特征面
      4. 主成分分析综述
    10. 深入:多元学习
      1. 多元学习:“你好”
      2. 多维缩放(MDS)
      3. 作为流形学习的MDS
      4. 非线性嵌入:MDS失败的地方
      5. 非线性流形:局部线性嵌入
      6. 关于多种方法的几点思考
      7. 示例:面上的等值线图
      8. 示例:以数字显示结构
    11. 深度:k-均值聚类
      1. 引入k-Means
      2. k-均值算法:期望-最大化
      3. 示例
    12. 深入:高斯混合模型
      1. 激励GMM:k-Means的弱点
      2. 推广E-M:高斯混合模型
      3. GMM作为密度估计
      4. 示例:生成新数据的GMM
    13. 深入:核密度估计
      1. 激励KDE:直方图
      2. 核密度估计在实际中的应用
      3. 示例:球体上的KDE
      4. 例子:不那么天真的贝叶斯
    14. 应用:人脸检测流水线
      1. 猪的特征
      2. 猪在行动:一个简单的面部探测器
      3. 注意事项和改进
    15. 进一步的机器学习资源
      1. Python中的机器学习
      2. 一般机器学习
  7. 索引

产品信息

  • 职务:Python数据科学手册
  • 作者:杰克·范德普拉斯
  • 发布日期:2016年11月
  • 发布者:奥莱利传媒公司。
  • 国际标准书号:9781491912058