更新时间:2023-11-07 16:04:56
封面
版权信息
作者简介
文前插图
译者序
序
前言
审校者简介
第1章 赋予计算机从数据中学习的能力
1.1 将数据转化为知识的智能系统
1.2 三种机器学习类型
1.2.1 用于预测未来的监督学习
1.2.2 解决交互问题的强化学习
1.2.3 发现数据中隐藏规律的无监督学习
1.3 基本术语与符号
1.3.1 本书中使用的符号和约定
1.3.2 机器学习术语
1.4 构建机器学习系统的路线图
1.4.1 数据预处理——让数据可用
1.4.2 训练和选择预测模型
1.4.3 使用未见过的数据对模型进行评估
1.5 使用Python实现机器学习算法
1.5.1 从Python Package Index中安装Python和其他软件包
1.5.2 使用Anaconda Python软件包管理器
1.5.3 科学计算、数据科学和机器学习软件包
1.6 本章小结
第2章 训练简单的机器学习分类算法
2.1 人工神经元——机器学习早期历史一瞥
2.1.1 人工神经元的定义
2.1.2 感知机学习规则
2.2 使用Python实现感知机学习算法
2.2.1 面向对象的感知机API
2.2.2 使用鸢尾花数据集训练感知机
2.3 自适应线性神经元与算法收敛
2.3.1 使用梯度下降法最小化损失函数
2.3.2 在Python中实现Adaline
2.3.3 通过特征缩放改进梯度下降
2.3.4 大规模机器学习与随机梯度下降
2.4 本章小结
第3章 Scikit-Learn机器学习分类算法之旅
3.1 分类算法的选择
3.2 学习Scikit-Learn的第一步——训练感知机
3.3 用逻辑回归算法建模分类概率
3.3.1 逻辑回归与条件概率
3.3.2 用逻辑损失函数更新模型权重
3.3.3 从Adaline的代码实现到逻辑回归的代码实现
3.3.4 用Scikit-Learn训练逻辑回归模型
3.3.5 使用正则化避免模型过拟合
3.4 基于最大分类间隔的支持向量机
3.4.1 理解最大分类间隔
3.4.2 使用松弛变量解决非线性可分问题
3.4.3 Scikit-Learn中另外一种实现
3.5 使用核支持向量机求解非线性问题
3.5.1 处理线性不可分数据的核方法
3.5.2 使用核方法在高维空间中寻找分离超平面
3.6 决策树学习
3.6.1 最大化信息增益
3.6.2 构建决策树
3.6.3 多棵决策树组成随机森林
3.7 基于惰性学习策略的k近邻算法
3.8 本章小结
第4章 构建良好的训练数据集——数据预处理
4.1 处理缺失值
4.1.1 识别表格数据中的缺失值
4.1.2 删除含有缺失值的样本或特征
4.1.3 填补缺失值
4.1.4 Scikit-Learn的估计器
4.2 处理类别数据
4.2.1 用pandas实现类别数据编码
4.2.2 映射有序特征
4.2.3 类别标签编码
4.2.4 标称特征的独热编码
4.3 将数据集划分为训练数据集和测试数据集
4.4 使特征具有相同的尺度
4.5 选择有意义的特征
4.5.1 用L1和L2正则化对模型复杂度进行惩罚
4.5.2 L2正则化的几何解释
4.5.3 L1正则化与稀疏解
4.5.4 序贯特征选择算法
4.6 用随机森林评估特征重要性
4.7 本章小结
第5章 通过降维方法压缩数据
5.1 无监督降维的主成分分析方法
5.1.1 主成分分析的主要步骤
5.1.2 提取主成分的步骤
5.1.3 总方差和被解释的方差
5.1.4 特征变换
5.1.5 用Scikit-Learn实现主成分分析
5.1.6 评估特征的贡献
5.2 监督数据压缩的线性判别分析方法
5.2.1 主成分分析与线性判别分析
5.2.2 线性判别分析基本原理
5.2.3 计算散布矩阵
5.2.4 为新特征子空间选择线性判别式
5.2.5 将样本投影到新的特征空间
5.2.6 用Scikit-Learn实现线性判别分析
5.3 非线性降维和可视化
5.3.1 非线性降维的不足
5.3.2 使用t-SNE可视化数据