封面
版权信息
内容简介
作者简介
前言PREFACE
第1章 Pandas数据处理环境搭建
1.1 Pandas环境配置
1.1.1 安装Python发行版本Anaconda
1.1.2 程序编写工具Jupyter Notebook
1.2 Python基础操作
1.2.1 变量
1.2.2 注释
1.2.3 代码缩进
1.2.4 数据结构
1.2.5 控制语句
1.2.6 函数
第2章 Pandas中数据的存取
2.1 读取Excel文件数据
2.2 读取CSV文件数据
2.3 保存为Excel文件格式
2.4 保存为CSV文件格式
2.5 Pandas中表格的结构
2.5.1 DataFrame数据结构
2.5.2 Series数据结构
第3章 NumPy数据处理基石
3.1 NumPy的定义
3.2 NumPy数组的创建与转换
3.2.1 普通数组
3.2.2 序列数组
3.2.3 随机数组
3.2.4 转换数组
3.3 NumPy数组的预处理
3.3.1 类型转换
3.3.2 缺失值处理
3.3.3 重复值处理
3.4 NumPy数组维度转换
3.4.1 数组维度转换
3.4.2 数组合并
3.5 Series数据的创建
3.6 DataFrame表格的创建
3.6.1 使用NumPy数组创建DataFrame表格
3.6.2 使用Python列表创建DataFrame表格
3.6.3 使用Python字典创建DataFrame表格
第4章 表格管理技术
4.1 表格属性获取与修改
4.1.1 表格属性的获取
4.1.2 表格属性修改
4.2 表格的切片选择
4.2.1 切片法
4.2.2 筛选法
4.2.3 loc切片法
4.2.4 iloc切片法
4.3 添加表格的行和列
4.3.1 添加行
4.3.2 添加列
4.4 删除表格的行和列
4.4.1 删除行
4.4.2 删除列
4.4.3 删除有缺失值的行和列
4.5 表格数据的修改
4.6 巩固案例
第5章 数据处理基础
5.1 数据运算处理
5.1.1 运算符与运算函数
5.1.2 Series与单值的运算
5.1.3 DataFrame与单值运算
5.1.4 Series与Series运算
5.1.5 DataFrame与DataFrame运算
5.1.6 DataFrame与Series运算
5.1.7 数据运算时的对齐特性
5.2 数据分支判断
5.2.1 条件判断处理1(mask()与where())
5.2.2 条件判断处理2(np.where())
5.3 数据遍历处理
5.3.1 遍历Series元素(map())
5.3.2 遍历DataFrame行和列(apply())
5.3.3 遍历DataFrame元素(applymap())
5.4 数据统计处理
5.4.1 聚合统计
5.4.2 逻辑统计
5.4.3 极值统计
5.4.4 排名统计
5.5 巩固案例
5.5.1 根据不同蔬菜的采购数量统计每天采购金额
5.5.2 筛选出成绩表中各科目均大于或等于100的记录
5.5.3 筛选出成绩表中各科目的和大于或等于300的记录
5.5.4 统计每个人各科目总分之和的排名
5.5.5 统计每个人所有考试科目的最优科目
第6章 字符串清洗技术
6.1 正则
6.1.1 正则表达式的导入与创建
6.1.2 正则表达式处理函数
6.1.3 正则表达式编写规则
6.2 拆分
6.2.1 普通拆分
6.2.2 正则拆分
6.2.3 拆分次数
6.2.4 拆为表格
6.2.5 实例应用
6.3 提取
6.3.1 将数据提取到列方向
6.3.2 将数据提取到行方向
6.3.3 实例应用
6.4 查找
6.4.1 查找位置
6.4.2 查找判断
6.4.3 查找数据
6.4.4 实例应用
6.5 替换
6.5.1 Series数据替换
6.5.2 DataFrame表格替换
6.5.3 实例应用
6.6 长度
6.7 重复
6.8 修剪
6.9 填充
6.9.1 元素填充
6.9.2 字符填充
6.10 去重
6.10.1 重复项判断
6.10.2 重复项删除
6.11 排序
6.11.1 单列排序
6.11.2 多列排序
6.11.3 自定义排序
6.12 合并
6.12.1 Series数据自身元素合并
6.12.2 Series数据与其他数据合并
6.13 扩展
6.14 巩固案例
6.14.1 筛选出分数中至少有3个大于或等于90分的记录
6.14.2 两表查询合并应用
6.14.3 给关键信息加掩码
6.14.4 提取文本型单价后与数量做求和统计
6.14.5 提取不重复名单
6.14.6 对文本中的多科目成绩排序
第7章 日期和时间处理技术
7.1 时间戳
7.1.1 单个时间戳
7.1.2 时间戳序列
7.1.3 时间戳转换
7.1.4 时间戳信息获取
7.2 时间差
7.2.1 单个时间差
7.2.2 时间差序列
7.2.3 时间差信息获取
7.2.4 时间差偏移
7.3 巩固案例
7.3.1 根据出生日期计算年龄
7.3.2 将不规范日期整理为标准日期
7.3.3 根据开始时间到结束时间的时长计算金额
7.3.4 根据借书起始时间及租借天数计算归还日期
第8章 高级索引技术
8.1 Pandas索引
8.1.1 Series索引
8.1.2 DataFrame索引
8.2 分层索引的设置
8.2.1 Series的分层索引设置
8.2.2 DataFrame的分层索引设置
8.3 分层索引设置的4种方法
8.4 文件导入导出时分层索引设置
8.5 行索引与列数据的相互转换
8.5.1 列数据设置为行索引
8.5.2 行索引设置为列数据
8.6 分层索引切片
8.6.1 选择单行
8.6.2 选择单列
8.6.3 选择单值
8.6.4 选择多行多列
8.6.5 选择指定级别数据
8.6.6 筛选索引
8.7 索引的修改
8.7.1 索引重命名
8.7.2 索引重置
8.7.3 索引排序
8.7.4 索引层级交换
8.7.5 索引删除
8.8 巩固案例
8.8.1 筛选出下半年总销量大于上半年的记录
8.8.2 对文本型数字月份排序
8.8.3 根据分数返回等级设置索引
第9章 数据汇总技术
9.1 分组处理
9.1.1 分组
9.1.2 聚合
9.1.3 转换
9.1.4 过滤
9.1.5 高级分组
9.2 数据透视表
9.2.1 指定索引方向分组聚合
9.2.2 多列执行单种聚合
9.2.3 单列执行多种聚合
9.2.4 多列执行多种聚合
9.2.5 指定列做指定聚合
9.2.6 行索引和列索引分组聚合
9.2.7 跟列数据长度相同的数组做分组
9.2.8 数据透视表缺失值处理
9.2.9 数据透视表的行和列总计设置
9.3 巩固案例
9.3.1 提取各分组的前两名记录
9.3.2 按条件筛选各分组的记录
9.3.3 提取各分组下的唯一值
9.3.4 分组批量拆分表格到Excel文件
9.3.5 将数据透视表拆分为Excel文件
第10章 表格转换技术
10.1 表格方向转换
10.1.1 列索引数据转换成行索引数据
10.1.2 将行索引数据转换成列索引数据
10.2 表格纵横拼接
10.2.1 表格纵向拼接(初级)
10.2.2 表格纵向拼接(进阶)
10.2.3 表格横向拼接(初级)
10.2.4 表格横向拼接(进阶)
10.3 表格数据存取
10.3.1 批量读取
10.3.2 批量保存
10.4 巩固案例
10.4.1 多个工作表数据合并
10.4.2 工资条制作
10.4.3 特殊的纵向表格拼接
10.4.4 多工作表合并与聚合处理
10.4.5 跨表查询后再聚合汇总
10.4.6 将汇总结果分发到不同工作表
更新时间:2023-08-10 16:24:35