封面
版权信息
内容提要
前言
单元1 大数据分析概述
学习目标
相关知识
1.大数据分析的概念
2.大数据分析的发展过程
3.大数据分析的应用场景
4.大数据分析流程
5.传统的统计分析软件
6.大数据分析编程语言
7.大数据可视化分析工具
任务实现
任务1.1 根据业务需求选择合适的大数据分析技术
任务1.2 使用pip和PyCharm完成Python库的管理
素养拓展
单元小结
课后习题
单元2 numpy科学计算基础
学习目标
相关知识
1.numpy与ndarray对象
2.创建ndarray数组的函数
3.numpy支持的数据类型
4.数组的矢量化运算
5.广播机制
6.数组与标量的算术运算
7.numpy通用函数
8.numpy数组的统计与排序方法
9.numpy的numpy.linalg模块
任务实现
任务2.1 保存考试成绩——创建一个数组
任务2.2 查看考试成绩数据类型——查看数组元素的数据类型
任务2.3 对两门课成绩进行相加——实现数组运算
任务2.4 对考试成绩进行计算——使用numpy通用函数实现数组计算
任务2.5 对考试成绩进行统计与排序——利用numpy数组进行数据处理
任务2.6 对多门课成绩进行计算——使用numpy的线性代数模块处理矩阵
素养拓展
单元小结
课后习题
单元3 pandas统计分析基础
学习目标
相关知识
1.pandas与pandas的数据结构
2.创建Series和DataFrame的函数
3.索引与切片
4.排序算法与实现排序的方法
5.统计学与统计方法
任务实现
任务3.1 用不同方式创建Series对象
任务3.2 用不同方式创建DataFrame
任务3.3 访问和提取随机数据——使用DataFrame进行索引与切片
任务3.4 对学生数据进行排序——实现数据排序
任务3.5 进行随机数据统计——实现数据统计
素养拓展
单元小结
课后习题
单元4 数据读取与写入
学习目标
相关知识
1.常用的数据文件类型
2.文本文件读取与写入
3.Excel文件读取与写入
4.数据库文件读取与写入
任务实现
任务4.1 读取并存储城市经纬度数据——TXT文件读写
任务4.2 读取并存储招聘数据——CSV文件的读写
任务4.3 读取并存储用户数据——Excel文件的读写
任务4.4 读取商品类别数据并存储账户数据——MySQL读写
素养拓展
单元小结
课后习题
单元5 数据质量与数据清洗
学习目标
相关知识
1.企业数据管理现状
2.数据标准
3.数据质量的定义
4.常用的数据质量检测手段
5.数据质量管理的必要性
6.缺失值
7.重复值
8.异常值
任务实现
任务5.1 医药销售数据遗漏检查——缺失值处理
任务5.2 医药销售数据去重校验——重复值处理
任务5.3 医药销售数据异常值排除——异常值处理
素养拓展
单元小结
课后习题
单元6 数据合并与数据转换
学习目标
相关知识
1.concat函数
2.append方法
3.merge函数
4.join方法
5.combine_first方法
6.map方法
7.cut函数
8.qcut函数
任务实现
任务6.1 堆叠学生信息和考试成绩数据——实现数据堆叠
任务6.2 连接学生信息和考试成绩数据——实现数据连接
任务6.3 对学生考试成绩进行等级转换——实现数据映射转换
任务6.4 对学生考试成绩进行离散化——实现数据离散化
素养拓展
单元小结
课后习题
单元7 数据分组与数据聚合
学习目标
相关知识
1.数据分组的概念
2.groupby方法
3.数据分组的原则和依据
4.数据分组的方法
5.数据聚合的概念
6.agg方法和aggregate方法
7.apply方法
8.transform方法
任务实现
任务7.1 简单数据表处理——数据分组
任务7.2 人员得分表处理——数据聚合
素养拓展
单元小结
课后习题
单元8 scikit-learn机器学习
学习目标
相关知识
1.机器学习的概念
2.机器学习的分类
3.假设空间
4.归纳偏好
5.sklearn
6.划分数据集函数
7.preprocessing模块
8.标准化和归一化
9.降维
10.线性回归模型
11.逻辑斯谛回归模型
12.K-means算法
13.朴素贝叶斯分类
14.支持向量机算法
任务实现
任务8.1 使用sklearn处理iris数据集——使用sklearn处理数据
任务8.2 boston数据集预处理和降维——数据预处理
任务8.3 使用boston数据集构建回归模型——回归模型分析与预测
任务8.4 使用iris数据集构建分类模型——分类模型分析与预测
任务8.5 使用iris数据集构建聚类模型——聚类模型分析与评价
素养拓展
单元小结
课后习题
单元9 使用统计图表展示数据
学习目标
相关知识
1.数据可视化的概念
2.数据可视化的设计过程
3.基本图表类型及使用场景
4.pyplot基础语法
5.rc参数
6.绘制线图的函数plot
7.绘制柱状图的函数bar
8.绘制直方图的函数hist
9.绘制饼图的函数pie
10.绘制散点图的函数scatter
11.子图的概念
12.seaborn
任务实现
任务9.1 使用线图展示水果销量变化曲线——掌握matplotlib基础语法
任务9.2 使用常用图表展示各品牌汽车销售额——绘制常见图表
任务9.3 使用子图展示就业率数据——创建子图
任务9.4 使用seaborn展示汽车数据的分布与相关性——使用seaborn绘制图表
素养拓展
单元小结
课后习题
单元10 某地区电力公司用户付费行为预测
项目目标
相关背景知识
任务实现
任务10.1 数据采集和数据描述
任务10.2 电力数据预处理
任务10.3 模型建立与评估
项目总结
项目实践
单元11 《你好,旧时光》文本挖掘分析
项目目标
相关背景知识
任务实现
任务11.1 项目准备
任务11.2 文本数据准备与处理
任务11.3 文本分词与词云图绘制
任务11.4 关系网络探索
任务11.5 聚类分析
项目总结
项目实践
单元12 基于大数据可视化的城市通勤特征分析研究
项目目标
相关背景知识
任务实现
任务12.1 原始数据预处理
任务12.2 词云图的绘制
任务12.3 绘制起止点分布连线图
任务12.4 绘制早高峰地铁刷卡进出站分布图
任务12.5 职住地识别与分析
项目总结
项目实践
单元13 上市公司新闻情感与股票价格的关系
项目目标
相关背景知识
任务实现
任务13.1 网络数据爬取
任务13.2 中文文本处理
任务13.3 使用机器学习算法进行情感分析
任务13.4 绘制词云图
项目总结
项目实践
更新时间:2024-04-23 17:44:15