机器学习

更多详情

内容简介: 本书展示了机器学习中核心的算法和理论,并阐明了算法的运行过程。本书综合了许多的研究成果,例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等,并以此来理解问题的背景、算法和其中的隐含假定。本书可作为计算机专业
本科生、研究生教材,也可作为相关领域研究人员、教师的参考书。

目录: 第1章 引言
1.1 学习问题的标准描述
1.2 设计-个学习系统
1.2.1 选择训练经验
1.2.2 选择目标函数
1.2.3 选择目标函数的表示
1. 2.4 选择函数逼近算法
1.2.5 最终设计
1.3 机器学习的一些观点和问题
1.4 如何阅读本书
1.5 小结和补充读物
习题
第2章 概念学习和一般到特殊序
2.1 简介
2.2 概念学习任务
2.2.1 术语定义
2.2.2 归纳学习假设
2.3 作为搜索的概念学习
2.4 FIND-S:寻找极大特殊假设
2.5 变型空间和候选消除算法
2.5.1 表示
2.5.2 列表后消除算法
2.5.3 变型空间的更简洁表示
2.5.4 候选消除学习算法
2.5.5 算法的举例
2.6 关于变型空间和候选消除的说明
2.6.1 候选消除算法是否会收敛到正确的假设
2.6.2 下一步需要什么样的训练样例
2.6.3 怎样使用不完全学习概念
2.7 归纳偏置
2.7.1 -个有偏的假设空间
2.7.2 无偏的学习器
2.7.3 无偏学习的无用性
2.8 小始和补充读物
习题
第3章 决策树学习
3.1 简介
3.2 决策树表示法
3.3 决策树学习的适用问题
3.4 基本的决策树学习算法
3.4.1 哪个属性是最佳的分类属性
3.4.2 举例
3.5 决策树学习中的假设空间搜索
3.6 决策树学习的归纳偏置
3.6.1 限定偏置和优选偏置
3.6.2 为什么短的假设优先
3.7 决策树学习的常见问题
3.7.1 避免过度拟合数据
3. 7.2 合并连续值属性
3.7.3 属性选择的其他度量标准
3.7.4 处理缺少属性值的训练样例
3.7.5 处理不同代价的属性
3.8 小结和补充读物
习题
第4章 人工神经网络
4.1 简介
4.2 神经网络表示
4.3 适合神经网络学习的问题
4.4 感知器
4.4.1 感知器的表征能力
4. 4.2 感知器训练法则
4.4.3 梯度下降和delta法则
4.4.4 小结
4.5 多层网络和反向传播算法
4.5.1 可微阈值单元
4.5.2 反向传播算法
4.5.3 反向传播法则的推导
4.6  反向传播算法的说明
4.6.1 收敛性和局部极小值
4.6.2 前馈网络的表征能力
4.6.3 假设空间搜索和归纳偏置
4.6.4 隐藏层表示
4.6.5 泛化、过度拟合和停止判据
4.7 举例:人脸识别
4.7.1 任务
4.7.2 设计要素
4.7.3 学习到的隐藏层表示
4.8 人工神经网络的高级课题
4.8.1 其他可选的误差函数
4.8.2 其他可选的误差最小化过程
4.8.3 递归网络
4.8.4 动态修改网络结构
4.9 小结和补充读物
习题
第5章 评估假设
5.1 动机
5.2 估计假设精度
5.2.1 样本错误率和真实错误率
5.2.2 离散值假设的置信区间
5.3 采样理论基础
5.3.1 错误率估计和二项比例估计
5.3.2 二项分布
5.3.3 均值和方差
5.3.4 估计量、偏差和方差
5.3.5 置信区间
5.3.6 双侧和单侧边界
5.4 推导置信区间的一般方法
5.5 两个假设错误率间的差异
5.6 学习算法比较
5.6. 1 配对t测试
5.6.2 实际考虑
5.7 小结和补充读物
习题
第6章 贝叶斯学习
6.1 简介
6.2 贝叶斯法则
6.3 贝叶斯法则和概念学习
6.3.1 BRUTE-FORCE贝叶斯概念学习
6.3.2 MAP假设和一致学习器
6.4 极大似然和最小误差平方假设
6.5 用于预测概率的极大似然假设
6.6 最小描述长度准则
6.7 贝叶斯最优分类器
6.8 GIBBS算法
6.9 朴素贝叶斯分类器
6.10 举例:学习分类文本
6.11 贝叶斯信念网
6.11.1 条件独立性
6.11.2 表示
6.11.3 推理
6.11.4 学习贝叶斯信念网
6.11.5 贝叶斯网的梯度上升训练
6.11.6 学习贝叶斯网的结构
6.12 EM算法
6.12.1 估计k个高斯分布的均值
6.12.2 EM算法的一般表述
6.12.3 k均值算法的推导
6.13 小结和补充读物
习题
第7章 计算学习理论
7.1 简介
7.2 可能学习近似正确假设
7.2.1 问题框架
7.2.2 假设的错误率
7.2.3 PAC可学习性
7.3 有限假设空间的样本复杂度
7.3.1 不可知学习和不一致假设
7.3.2 布尔文字的合取是PAC可学习的
7.3.3 其他概念类别的PAC可学习性
7.4 无限假设空间的样本复杂度
7.4.1 打散一个实例集合
7.4.2 Vapnik-Chervonenkis维度
7.4.3 样本复杂度和VC维
7.4.4 神经网络的VC维
7.5 学习的出错界限模型
7.5.1 FIND-S算法的出错界限
7.5.2 HALVING算法的出错界限
7.5.3 最优出错界限
7.5.4 加权多数算法
7.6 小结和补充读物
习题
第8章 基于实例的学习
8.1 简介
8.2 k-近邻算法
8.2.1 距离加权最近邻算法
8.2.2 对k-近邻算法的说明
8.2.3 术语注解
8.3 局部加权回归
8.3.1 局部加权线性回归
8.3.2 局部加权回归的说明
8.4 径向基函数
8.5 基于案例的推理
8.6 对消极学习和积极学习的评论
8.7 小结和补充读物
习题
第9章 遗传算法
9.1 动机
9.2 遗传算法
9.2.1 表示假设
9.2.2 遗传算子
9.2.3 适应度函数和假设选择
9.3 举例
9.4 假设空间搜索
9.5 遗传编程
9.5.1 程序表示
9.5.2 举例
9.5.3 遗传编程说明
9.6 进化和学习模型
9.6.1 拉马克进化
9.6.2 鲍德温效应
9.7 并行遗传算法
9.8 小结和补充读物
习题
第10章 学习规则集合
10.1 简介
10.2 序列覆盖算法
10.2.1 一般到特殊的柱状搜索
10.2.2 几种变型
10.3 学习规则集:小结
10.4 学习一阶规则
10.4.1 一阶Horn子句
10.4.2 术语
10.5 学习一阶规则集:FOIL
10.5.1 FOIL中的候选特化式的生成
10.5.2 引导FOIL的搜索
10.5.3 学习递归规则集
10.5.4 FOIL小结
10.6 作为逆演绎的归纳
10.7 逆归纳
10.7.1 一阶归纳
10.7.2 逆归纳:一阶情况
10.7.3 逆归纳小结
10.7.4 泛化、-包容和涵蕴
10.7.5 PROGOL
10.8 小结和补充读物
习题
第11章 分析学习
11.1 简介
11.2 用完美的领域理论学习:PROLOG-EBG
11.3 对基于解释的学习的说明
11.3.1 发现新特征
11.3.2 演绎学习
11.3.3 基于解释的学习的归纳偏置
11.3.4 知识级的学习
11.4 搜索控制知识的基于解释的学习
11.5 小结和补充读物
习题
第12章 归纳和分析学习的结合
12.1 动机
12.2 学习的归纳-分析途径
12.2.1 学习问题
12.2.2 假设空间搜索
12.3 使用先验知识得到初始假设
12.3.1 KBANN算法
12.3.2 举例
12.3.3 说明
12.4 使用先验知识改变搜索目标
12.4.1 TANGENTPROP算法
12.4.2 举例
12.4.3 说明
12.4.4 EBNN算法
12.4.5 说明
12.5 使用先验知识来扩展搜索算子
12.5.1 FOCL算法
12.5.2 说明
12.6 研究现状
12.7 小结和补充读物
习题
第13章 增强学习
13.1 简介
13.2 学习任务
13.3 Q学习
13.3.1 Q函数
13.3.2 一个学习Q的算法
13.3.3 举例
13.3.4 收敛性
13.3.5 实验策略
13.3.6 更新序列
13.4 非确定性回报和动作
13.5 时间差分学习
13.6 从样例中泛化
13.7 与动态规划的联乐
13.8 小结和补充读物
习题
附录 符号约定

译者序: “机器学习”一般被定义为一个系统自我改进的过程,但仅仅从这个定义来理解和实现机器学习是困难的。从最初的基于神经元模型以及函数逼近论的方法研究,到以符号演算为基础的规则学习和决策树学习的产生,和之后的认知心理学中归纳、解释、类比等概念的引入,至最新的计算学习理论和统计学习的兴起(当然还包括基于马尔可夫过程的增强学习),机器学习一直都在相关学科的实践应用中起着主导作用。研究人员们借鉴了各个学科的思想来发展机器学习,但关于机器学习问题的实质究竟是什么尚无定论。不同的机器学习方法也各有优缺点,只在其适用的领域内才有良好的效果。因此,以枚举的方法描述机器学习中的各个理论和算法可能是最合适的途径。
《机器学习》一书正是以这种途径来介绍机器学习的。其主要涵盖了目前机器学习中各种最实用的理论和算法,包括概念学习、决策树、神经网络、贝叶斯学习、基于实例的学习、遗传算法、规则学习、基于解释的学习和增强学习等。对每一个主题,作者不仅进行了十分详尽和直观的解释,还给出了实用的算法流程。此外,书中还包括一章对学习算法的精度进行实验评估的内容。书后的习题和参考文献提供了进一步思考相关问题的线索,在网址http://www—2.cs.cmu.edu/—tom/mlbook.html上也可以找到关于该书的讲演幻灯片、例子程序和数据等信息。在卡内基梅隆等许多大学,本书都被作为机器学习课程的教材。
本书的作者Tom M.Mitchell在机器学习领域享有盛名。他是卡内基梅隆大学的教授,目前在WhizBang!实验室担任副主席和首席科学家。他还是美国人工智能协会(AAAI)的主席,并且是《机器学习》杂志和国际机器学习年度会议(ICML)的创始人。
笔者在翻译过程中力求忠于原著。由于本书涉及了多个学科的内容,因此其中许多的专业术语尽量遵循其所在学科的标准译法,并在有可能引起歧义和冲突之处做了适当调整。同财,我们在专业术语第一次出现的地方注上了英文原文,以方便读者的对照理解。
全书的翻译由曾华军和张银奎合作完成,并得到了周志华、苏中、景风、钱芳、孙晓明、余世鹏、秦文、姚良基和张西烨等同志的许多帮助。由于水平有限,书中错误和不妥之处在所难免,恳请读者批评指正。

前言: 机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能。近年来,机器学习被成功地应用于很多领域,从检测信用卡交易欺诈的数据挖掘程序,到获取户阅读兴趣的信息过滤系统,再到能在高速公路上自动行驶的汽车。同时,这个学科的基理论和算法也有了重大进展。
这本教材的目标是展现机器学习中核心的算法和理论。机器学习从很多学科吸收了成果和概念,包括统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制等。笔者相信,研究机器学习的最佳途径是从这些学科的观点看待机器学习,并且以此来理解问题的背景、算法以及其中隐含的假定。这些在以往很难做到,因为在这一领域缺少包容广泛的原始资料,本书的主要目的就是提供这样的一份资料。
由于素材的多学科性,本书不要求读者具有相应的知识背景,而是在必要时介绍其他一些学科的基本概念,如统计学、人工智能、信息论等。介绍的重点是与机器学习关系最密切甲那些概念。本书可以作为计算机科学与工程、统计学和社会科学等专业的大学生或研究生的教材,也可作为软件研究人员或从业人员的参考资料。指导本书写作的两条原则为:第一,它是在校大学生可以理解的;第二,它应该包含我希望我自己的博士生在开始他们的器学习研究前要掌握的内容。
指导本书写作的第三条原则是:它应该体现理论和实践间的均衡。机器学习理论致力于回答这样的问题“学习性能是怎样随着给定的训练样例的数量而变化的?”和“对于各种同类型的学习任务:哪个学习算法最适合?”利用来自统计学、计算复杂性和贝叶斯分析的理论成果,这本书讨论了这一类理论问题。同时本书也涵盖很多实践方面的内容:介绍了这一领域的主要算法,阐明了算法的运行过程。其中一些算法的实现和数据可以在因特网上通过网址http://www.cs.cmu.edu/-tom/mlbook.html得到,包括用于人脸识别的神经网络的源代码和数据、用于信贷分析的决策树学习的源代码和数据及分析文本文档的贝叶分类器的源代码和数据。我很感谢那些帮助我创建这些在线资源的同事,他们是:Jason Rennie、Paul Hsiung、Jeff Shufelt、Matt Glickman、Scott Davies、Joseph O’Sullivan、Ken Lang\Andrew McCallum和Thorsten Joachims。

书摘: 第1章 引言
自从计算机问世以来,人们就想知道它们能不能自我学习。如果我们理解了计算机学习的内在机制,即怎样使它们根据经验来自动提高,那么影响将是空前的。想像一下,在未来,计算机能从医疗记录中学习,获取治疗新疾病最有效的方法;住宅管理系统分析住户的用电模式,以降低能源消耗;个人软件助理跟踪用户的兴趣,并为其选择最感兴趣的在线早间新闻。对计算机学习的成功理解将开辟出许多全新的应用领域,并使其计算能力和可定制性上升到新的层次。同时,透彻理解机器学习的信息处理算法,也会有助于更好地理解人类的学习能力(及缺陷)。
目前,我们还不知道怎样使计算机具备和人类一样强大的学习能力。然而,一些针对特定学习任务的算法已经产生。关于学习的理论认识已开始逐步形成。人们开发出很多实践性的计算机程序来实现不同类型的学习,一些商业化的应用也已经出现。例如,对于语音识别这样的课题,迄今为止,基于机器学习的算法明显胜过其他的方法。在数据挖掘领域,机器学习算法理所当然地得到应用,从包含设备维护记录、借贷申请、金融交易、医疗记录等信息的大型数据库中发现有价值的信息。随着对计算机认识的日益成熟,机器学习必将在计算机科学和技术中扮演越来越重要的角色!
我们可以通过一些专项成果看到机器学习这门技术的现状:计算机已经能够成功地识别人类的讲话(Waibel 1989,Lee l989);预测肺炎患者的康复率(Cooper et al.1997);检测信用卡的欺诈;在高速公路上自动驾驶汽车(Pomerleau 1989);以接近人类世界冠军的水平对弈西洋双陆棋(Tesauro 1992,1995)。