Python进行数据分析,第2版

书籍描述

获取用于在Python中操作,处理,清洁和嘎吱嘎吱的数据集的完整说明。为Python 3.6更新,这张实践指南的第二版采用实用案例研究,向您展示了如何有效解决广泛的数据分析问题。您将在此过程中了解Pandas,Numpy,Ipython和Jupyter的最新版本。

这本书是由Python Pandas项目的创建者撰写的,这本书是Python中数据科学工具的实际现代介绍。它是Python新的分析师,以及用于数据科学和科学计算的Python程序员。数据文件和相关材料可在GitHub上使用。

  • 使用ipython shell和jupyter笔记本进行探索性计算
  • 在numpy中学习基本和高级功能(数值python)
  • 在熊猫库中开始使用数据分析工具
  • 使用灵活的工具来加载,清洁,变换,合并和重塑数据
  • 使用matplotlib创建信息性可视化
  • 将Pandas GroupBy工具应用于切片,骰子和总结数据集
  • 分析和操纵常规和不规则时间序列数据
  • 了解如何通过彻底,详细的例子解决现实世界数据分析问题

出版商资源

查看/提交勘误表

目录

  1. 前言
    1. 第二版新的新版本
    2. 本书中使用的约定
    3. 使用代码示例
    4. O'Reilly Safari.
    5. 如何联系我们
    6. 致谢
      1. 在Memoriam:John D. Hunter(1968-2012)
      2. 第二版的致谢(2017)
      3. 第一个版本的致谢(2012)
  2. 预备
    1. 1.1这本书是什么?
      1. 什么样的数据?
    2. 1.2为什么Python进行数据分析?
      1. Python作为胶水
      2. 解决“双语”问题
      3. 为什么不是python?
    3. 1.3必需的Python库
      1. numpy.
      2. 熊猫
      3. matplotlib.
      4. ipython和jupyter
      5. scipy.
      6. 克里克特 - 学习
      7. statsmodels.
    4. 1.4安装和设置
      1. 视窗
      2. Apple(OS X,MACOS)
      3. GNU / Linux.
      4. 安装或更新Python软件包
      5. Python 2和Python 3
      6. 集成开发环境(IDE)和文本编辑器
    5. 1.5社区和会议
    6. 1.6导航本书
      1. 代码例子
      2. 例子的数据
      3. 进口惯例
      4. 行话
  3. Python语言基础,iPython和Jupyter笔记本电脑
    1. 2.1 Python口译员
    2. 2.2 IPython基础知识
      1. 运行ipython shell
      2. 运行jupyter笔记本
      3. 标签完成
      4. 内省
      5. %运行命令
      6. 从剪贴板执行代码
      7. 终端键盘快捷键
      8. 关于魔法命令
      9. matplotlib集成
    3. 2.3 Python语言基础知识
      1. 语言语义
      2. 标量类型
      3. 控制流
  4. 内置数据结构,功能和文件
    1. 3.1数据结构和序列
      1. 元组
      2. 列表
      3. 内置序列功能
      4. d
      5. 列表,设置和DICT全面了解
    2. 3.2功能
      1. 名称空间,范围和本地功能
      2. 返回多个值
      3. 函数是对象
      4. 匿名(lambda)功能
      5. Currying:部分参数申请
      6. 发电机
      7. 错误和例外处理
    3. 3.3文件和操作系统
      1. 文件字节和Unicode
    4. 3.4结论
  5. Numpy基础:数组和矢量化计算
    1. 4.1 numpy ndarray:多维数组对象
      1. 创建ndarrays.
      2. ndarrays的数据类型
      3. 用numpy阵列算术
      4. 基本索引和切片
      5. 布尔索引
      6. 花式索引
      7. 输送阵列和交换轴
    2. 4.2通用函数:快速元素 - WISE数组功能
    3. 4.3以阵列为导向的阵列编程
      1. 表示条件逻辑作为阵列操作
      2. 数学和统计方法
      3. 布尔阵列的方法
      4. 排序
      5. 唯一和其他集合逻辑
    4. 4.4文件输入和输出阵列
    5. 4.5线性代数
    6. 4.6伪随机数代
    7. 4.7示例:随机散步
      1. 模拟许多随机散步一次
    8. 4.8结论
  6. 熊猫入门
    1. 5.1 PANDAS数据结构简介
      1. 系列
      2. dataframe.
      3. 索引对象
    2. 5.2基本功能
      1. 重新筛选
      2. 从轴上删除条目
      3. 索引,选择和过滤
      4. 整数索引
      5. 算术和数据对齐
      6. 功能应用程序和映射
      7. 排序和排名
      8. 具有重复标签的轴索引
    3. 5.3总结和计算描述性统计数据
      1. 相关性与协方差
      2. 唯一的值,值计数和成员资格
    4. 5.4结论
  7. 数据加载,存储和文件格式
    1. 6.1以文本格式读取和写入数据
      1. 读取文本文件
      2. 将数据写入文本格式
      3. 使用分隔格式
      4. JSON数据
      5. XML和HTML:Web Scraping
    2. 6.2二进制数据格式
      1. 使用HDF5格式
      2. 阅读Microsoft Excel文件
    3. 6.3与Web API交互
    4. 6.4与数据库交互
    5. 6.5结论
  8. 数据清洁和准备
    1. 7.1处理缺失数据
      1. 过滤丢失的数据
      2. 填写缺失数据
    2. 7.2数据转换
      1. 删除重复
      2. 使用函数或映射转换数据
      3. 替换价值
      4. 重命名轴索引
      5. 离散化和分手
      6. 检测和过滤异常值
      7. 排列和随机抽样
      8. 计算指示符/虚拟变量
    3. 7.3字符串操作
      1. String对象方法
      2. 常用表达
      3. 矢量化字符串函数在熊猫
    4. 7.4结论
  9. 数据争吵:加入,结合和重塑
    1. 8.1层次索引
      1. 重新排序和排序级别
      2. 按级别汇总统计
      3. 使用DataFrame的列索引
    2. 8.2组合和合并数据集
      1. 数据库式dataframe连接
      2. 融合索引
      3. 沿轴连接
      4. 将数据与重叠相结合
    3. 8.3重塑和枢转
      1. 重塑分层索引
      2. 枢转“长”到“宽”格式
      3. 枢转“宽”到“长”格式
    4. 8.4结论
  10. 绘制和可视化
    1. 9.1简介Matplotlib API底漆
      1. 数字和小板
      2. 颜色,标记和线路样式
      3. 蜱虫,标签和传说
      4. 注释和绘图在子图上
      5. 将绘图保存到文件
      6. matplotlib配置
    2. 9.2用熊猫和海运绘制
      1. 线条图
      2. 酒吧情节
      3. 直方图和密度图
      4. 分散或点绘图
      5. 平面网格和分类数据
    3. 9.3其他Python可视化工具
    4. 9.4结论
  11. 数据聚合和组操作
    1. 10.1 GroupBy Mechanics.
      1. 迭代团体
      2. 选择列或列子集
      3. 用DICT和系列分组
      4. 与功能分组
      5. 按指数水平分组
    2. 10.2数据汇总
      1. 列明和多功能应用
      2. 在没有行索引的情况下返回聚合数据
    3. 10.3申请:一般分型施用组合
      1. 抑制组键
      2. 分量和铲斗分析
      3. 示例:使用组特定值填充缺失值
      4. 示例:随机抽样和排列
      5. 示例:组加权平均和相关性
      6. 示例:Group-Wise线性回归
    4. 10.4枢轴表和交叉表格
      1. 交叉表现:克罗斯塔布
    5. 10.5结论
  12. 时间序列
    1. 11.1日期和时间数据类型和工具
      1. 在字符串和日期时间之间转换
    2. 11.2时间序列基础
      1. 索引,选择,子集
      2. 与重复索引的时间序列
    3. 11.3日期范围,频率和移位
      1. 生成日期范围
      2. 频率和日期偏移
      3. 移位(领先和滞后)数据
    4. 11.4时区处理
      1. 时区本地化和转换
      2. 使用时区感知时间戳对象的操作
      3. 不同时区之间的操作
    5. 11.5期间和期间算术
      1. 时期频率转换
      2. 季度频率频率
      3. 将时间戳转换为周期(和返回)
      4. 从阵列创建段落线
    6. 11.6重采样和频率转换
      1. 下采样
      2. 上采样和插值
      3. 重新采样与时期
    7. 11.7移动窗口功能
      1. 指数加权功能
      2. 二进制移动窗口功能
      3. 用户定义的移动窗口函数
    8. 11.8结论
  13. 高级熊猫
    1. 12.1分类数据
      1. 背景和动机
      2. Pandas的分类类型
      3. 使用分类计算
      4. 分类方法
    2. 12.2高级集群使用
      1. 组转换和“未包装”GroupBys
      2. 分组时间重新采样
    3. 12.3方法链接的技术
      1. 管道方法
    4. 12.4结论
  14. Python中建模库简介
    1. 13.1熊猫和模型代码之间的接口
    2. 13.2使用Patsy创建模型描述
      1. Patsy公式中的数据转换
      2. 分类数据和patsy
    3. 13.3 STATSMODELS简介
      1. 估算线性模型
      2. 估算时间序列流程
    4. 13.4 Scikit-Learn介绍
    5. 13.5继续您的教育
  15. 数据分析示例
    1. 14.1 1.usa.gov数据来自百搭
      1. 计算纯Python中的时区
      2. 用熊猫计数时区
    2. 14.2 MOVIELENS 1M数据集
      1. 测量评级分歧
    3. 14.3美国婴儿名字1880-2010
      1. 分析命名趋势
    4. 14.4 USDA食物数据库
    5. 14.5 2012联邦选举委员会数据库
      1. 职业和雇主捐赠统计数据
      2. 铲斗捐赠金额
      3. 捐赠统计数据
    6. 14.6结论
  16. 高级Numpy.
    1. a.1 ndarray对象内部
      1. numpy dtype层次结构
    2. A.2高级阵列操作
      1. 重塑阵列
      2. C与Fortran订单
      3. 连接和分裂阵列
      4. 重复元素:瓷砖和重复
      5. 花式索引等同物:采取和放置
    3. A.3广播
      1. 广播其他轴
      2. 通过广播设置数组值
    4. A.4高级UFUNC使用
      1. Ufunc实例方法
      2. 在Python中编写新UFUNCS
    5. A.5结构化和记录阵列
      1. 嵌套的dtypes和多维领域
      2. 为什么要使用结构化阵列?
    6. A.6更多关于排序
      1. 间接排序:argsort和lexsort
      2. 替代排序算法
      3. 部分排序阵列
      4. numpy.searchsorted:在排序阵列中查找元素
    7. A.7用numba写快餐功能
      1. 使用numba创建自定义numpy.ufunc对象
    8. A.8高级阵列输入和输出
      1. 内存映射的文件
      2. HDF5和其他阵列存储选项
    9. A.9性能提示
      1. 连续记忆的重要性
  17. 更多关于iPython系统
    1. B.1使用命令历史
      1. 搜索和重用命令历史记录
      2. 输入和输出变量
    2. B.2与操作系统交互
      1. shell命令和别名
      2. 目录书签系统
    3. B.3软件开发工具
      1. 互动调试器
      2. 时序代码:%时间和%timeit
      3. 基本分析:%prun和%运行-p
      4. 按线分析功能线
    4. B.4使用IPython的生产代码开发提示
      1. 重新加载模块依赖项
      2. 代码设计提示
    5. B.5高级IPython功能
      1. 制作自己的课程ipython友好
      2. 配置文件和配置
    6. B.6结论
  18. 指数

产品信息

  • 标题:Python进行数据分析,第2版
  • 作者:WES McKinney.
  • 发布日期:2017年10月
  • 出版商:O'Reilly Media,Inc。
  • ISBN:9781491957660