😎深入浅出,手把手教你掌握机器学习中的统计思维!😎
😎深入浅出,手把手教你掌握机器学习中的统计思维!😎
🎉在如今的大数据时代,机器学习已经成为一种不可或缺的技术。对于想要涉足这个领域的人们来说,《机器学习中的统计思维(Python实现)》无疑是一本不可多得的好书。本书将带你领略统计思维在机器学习中的重要性,并让你通过Python实现各种算法,从而更好地理解和应用机器学习。
👉一、为什么选择这本书?
👌这本书的优点在于其深入浅出的讲解方式。对于初学者来说,机器学习可能是一个复杂且令人困惑的概念。而本书作者通过生动的语言和实例,让读者能够轻松地理解机器学习的基本原理和应用。同时,本书还提供了大量的Python代码示例,让读者能够亲自动手实践,加深对知识的理解。
📘二、书中内容详解
🚀统计思维基础
🔥在本书的开头,作者首先介绍了统计思维的基础知识,包括概率、随机变量、参数估计等。这些基础知识是理解机器学习算法的基础,对于初学者来说尤为重要。通过这些内容的学习,读者可以建立起对数据和模型的基本认识,为后续的学习打下坚实的基础。
🎉机器学习算法实现
🎁本书的主体部分是各种机器学习算法的实现。作者详细介绍了分类、聚类、回归等常见的机器学习任务,并通过Python代码实现了这些算法。这些代码示例不仅可以帮助读者理解算法的实现原理,还可以作为实际应用的参考。
🔥案例分析
📚为了帮助读者更好地理解机器学习的应用,本书还提供了丰富的案例分析。这些案例涵盖了不同的领域,如自然语言处理、图像识别等。通过这些案例的分析,读者可以了解到机器学习在实际问题中的应用,提高自己的实践能力。
💪三、总结与展望
📘《机器学习中的统计思维(Python实现)》是一本非常优秀的机器学习入门书籍。它不仅让读者了解了统计思维在机器学习中的重要性,还通过丰富的实例和Python代码,让读者能够亲自动手实践。对于想要涉足机器学习领域的初学者来说,这本书无疑是一本不可或缺的指南。相信在未来的学习和工作中,本书会给你带来很多启发和帮助。
👆请点击上面《机器学习中的统计思维(Python实现)》了解更多详情!👆
书籍信息
书名: 机器学习中的统计思维(Python实现)
作者: 董平
出版社: 清华大学出版社
ISBN: 9787302634010
内容简介
机器学习是人工智能的核心,而统计思维则是机器学习方法的核心:从随机性中寻找规律性。例如,利用方差对不确定性的捕捉构造 k维树,采用贝叶斯公式构建分类决策模型,等等。只有树立正确的统计思维,才能准确高效地运用机器学习方法开展数据处理与分析。本书以统计思维的视角,揭示监督学习中回归和分类模型的核心思想,帮助读者构建理论体系。具体模型包括线性回归模型、K近邻模型、贝叶斯推断、逻辑回归模型、决策树模型、感知机模型、支持向量机、EM算法和提升方法。
本书共 12章,绪论介绍贯穿本书的两大思维模式,以及关于全书的阅读指南;第 1章介绍一些基本术语,并给出监督学习的流程;第 2章介绍关于回归问题的机器学习方法;第 3~9章介绍关于分类问题的机器学习方法;第 10章介绍可应用于具有隐变量模型的参数学习算法——EM算法;第 11章简单介绍集成学习,并重点阐述其中的提升(Boosting)
方法。为满足个性化学习需求的不同需求,本书从核心思想、方法流程及实际案例应用等不同角度,详细描述各种方法的原理和实用价值,非常适合数据科学、机器学习专业的本科生和研究生学习,也可供相关从业者参考。
书籍目录
绪论1
01本书讲什么,初衷是什么 1
02贯穿本书的两大思维模式 3
021提问的思维方式 3
022发散的思维方式 4
03这本书决定它还想要这样 5
031第一性原理 5
032奥卡姆剃刀原理 7
04如何使用本书 8
第 1章步入监督学习之旅 11
11机器学习从数据开始 11
12监督学习是什么 14
121基本术语 16
122学习过程如同一场科学推理 17
13如何评价模型的好坏 21
131评价模型的量化指标 21
132拟合能力 24
133泛化能力 24
14损失最小化思想 25
15怎样理解模型的性能:方差-偏差折中思想 27
16如何选择最优模型 28
161正则化:对模型复杂程度加以惩罚 28
162交叉验证:样本的多次重复利用 30
17本章小结 31
18习题 31
第 2章线性回归模型 33
21探寻线性回归模型 33
211诺贝尔奖中的线性回归模型 33
212回归模型的诞生 34
213线性回归模型结构 38
22最小二乘法 39
221回归模型用哪种损失:平方损失 40
机器学习中的统计思维 (Python实现)
222如何估计模型参数:最小二乘法 41
23线性回归模型的预测 44
231一元线性回归模型的预测 44
232多元线性回归模型的预测 48
24拓展部分:岭回归与套索回归 49
241岭回归 50
242套索回归 51
25案例分析——共享单车数据集 53
26本章小结 56
27习题 57
第 3章 K近邻模型 59
31邻友思想 59
32 K近邻算法 60
321聚合思想 60
322 K近邻模型的具体算法 61
323 K近邻算法的三要素 63
324 K近邻算法的可视化 67
33最近邻分类器的误差率 67
34 k维树 70
341 k维树的构建 70
342 k维树的搜索 73
35拓展部分:距离度量学习的 K近邻分类器 76
36案例分析——莺尾花数据集 79
37本章小结 83
38习题 83
第 4章贝叶斯推断 85
41贝叶斯思想 85
411什么是概率 86
412从概率到条件概率 91
413贝叶斯定理 93
42贝叶斯分类器 97
421贝叶斯分类 97
422朴素贝叶斯分类 98
43如何训练贝叶斯分类器 103
431极大似然估计:概率最大化思想 104
432贝叶斯估计:贝叶斯思想 111
44常用的朴素贝叶斯分类器115
441离散属性变量下的朴素贝叶斯分类器 115
442连续特征变量下的朴素贝叶斯分类器 115
45拓展部分 116
451半朴素贝叶斯116
目录
452贝叶斯网络 119
46案例分析——蘑菇数据集 122
47本章小结 124
48习题124
49阅读时间:贝叶斯思想的起源 125
第 5章逻辑回归模型 131
51一切始于逻辑函数131
511逻辑函数 131
512逻辑斯谛分布133
513逻辑回归 134
52逻辑回归模型的学习 136
521加权最小二乘法 136
522极大似然法 139
53逻辑回归模型的学习算法141
531梯度下降法 141
532牛顿法143
54拓展部分 144
541拓展 1:多分类逻辑回归模型 144
542拓展 2:非线性逻辑回归模型 147
55案例分析——离职数据集 147
56本章小结 149
57习题150
58阅读时间:牛顿法是牛顿提出的吗 150
第 6章最大熵模型 153
61问世间熵为何物 153
611热力学熵 153
612信息熵155
62最大熵思想156
621离散随机变量的分布156
622连续随机变量的分布160
63最大熵模型的学习问题 163
631最大熵模型的定义 163
632最大熵模型的原始问题与对偶问题167
633最大熵模型的学习 169
64模型学习的最优化算法 173
641最速梯度下降法 177
642拟牛顿法:DFP算法和 BFGS算法 178
643改进的迭代尺度法 179
65案例分析——汤圆小例子 183
66本章小结 185
67习题186
机器学习中的统计思维 (Python实现)
68阅读时间:奇妙的对数 187
第 7章决策树模型 191
71决策树中蕴含的基本思想191
711什么是决策树191
712决策树的基本思想 195
72决策树的特征选择195
721错分类误差 195
722基于熵的信息增益和信息增益比 196
723基尼不纯度 199
724比较错分类误差、信息熵和基尼不纯度 201
73决策树的生成算法201
731 ID3算法202
732 C45算法 205
733 CART算法205
74决策树的剪枝过程211
741预剪枝211
742后剪枝213
75拓展部分:随机森林 223
76案例分析——帕尔默企鹅数据集 223
77本章小结 226
78习题226
79阅读时间:经济学中的基尼指数227
第 8章感知机模型 231
81感知机制——从逻辑回归到感知机 231
82感知机的学习 233
83感知机的优化算法234
831原始形式算法235
832对偶形式算法239
84案例分析——莺尾花数据集 241
85本章小结 243
86习题243
第 9章支持向量机 245
91从感知机到支持向量机 245
92线性可分支持向量机 248
921线性可分支持向量机与最大间隔算法 248
922对偶问题与硬间隔算法 254
93线性支持向量机 258
931线性支持向量机的学习问题259
932对偶问题与软间隔算法 260
933线性支持向量机之合页损失263
94非线性支持向量机265
目录
941核变换的根本——核函数 266
942非线性可分支持向量机 277
943非线性支持向量机 278
95 SMO优化方法 279
951“失败的”坐标下降法 279
952“成功的”SMO算法280
96案例分析——电离层数据集 287
97本章小结 288
98习题289
第 10章 EM算法 291
101极大似然法与 EM算法 291
1011具有缺失数据的豆花小例子291
1012具有隐变量的硬币盲盒例子295
102 EM算法的迭代过程298
1021 EM算法中的两部曲 298
1022 EM算法的合理性 302
103 EM算法的应用 305
1031高斯混合模型305
1032隐马尔可夫模型 309
104本章小结 316
105习题 317
第 11章提升方法 319
111提升方法(Boosting)是一种集成学习方法319
1111什么是集成学习 319
1112强可学习与弱可学习321
112起步于 AdaBoost算法 323
1121两大内核:前向回归和可加模型 323
1122 AdaBoost的前向分步算法324
1123 AdaBoost分类算法 326
1124 AdaBoost分类算法的训练误差 333
113提升树和 GBDT算法 339
1131回归提升树 339
1132 GDBT算法 342
114拓展部分:XGBoost算法344
115案例分析——波士顿房价数据集 346
116本章小结 347
117习题 348
参考文献 349