博客专栏

EEPW首页>博客> 从数学推导开始,7万字一定带你学会支持向量机(免费PDF下载)

从数学推导开始,7万字一定带你学会支持向量机(免费PDF下载)

发布人:机器之心 时间:2022-07-21 来源:工程师 发布文章

本书从零推导 SVM,涵盖从 SVM 的思想、到形式化、再简化、最后实现的完整过程。


SVM(Support Vector Machine,支持向量机)是一个非常经典且高效的分类模型。在机器学习领域,有两大类方法既理论优美又能在实践中取得很好的效果,其中一类是 SVM 及其衍生的核方法和统计学习理论;另一类是 AdaBoost 及其衍生的 Boosting 方法,例如在 Kaggle 竞赛中十分流行的 XGBoost 和 LightGBM 即属于 Boosting 方法。目前十分热门的深度学习方法虽然在实践中能取得十分突出的效果,但是理论支持不够完善。
在深度学习复兴之前,SVM 是最常被使用的模型之一。即使现在深度学习如火如荼,在一些领域 SVM 仍有其用武之地;此外,理解 SVM 对理解机器学习领域的关键概念和重要思想很有帮助;最后,因为 SVM 的影响力,其常常作为面试问题用于考察面试者的基本功。因此,SVM 是机器学习及相关领域初学者必须掌握的算法之一。
电子书概览
但是,SVM 涉及许多数学推导,有些还比较复杂,并且需要比较强的凸优化基础知识,这使得一些初学者虽花大量时间和精力研读,但仍一头雾水,最终望而却步,从入门到放弃。本书《手把手带你学懂 SVM》旨在从零推导 SVM,涵盖从 SVM 的思想、到形式化、再简化、最后实现的完整过程

图片

  • 电子书下载地址:https://pan.baidu.com/link/zhihu/7QhkzYuRhtikYhNkkFdf1qRHewTqJVRwZBVW==
  • 知乎链接:https://zhuanlan.zhihu.com/p/480302399


例如,SVM 涉及许多概念,比如间隔(又分为硬间隔和软间隔)、支持向量、基本型、对偶型、高斯核函数等,本书一方面会从数学角度详细定义和解释每个概念,另一方面会通过通俗的例子直观说明这些概念的含义,以帮助读者理解。
举个例子,假设读者要学习《高等数学》这门课,用机器学习的语言来进行描述,读者平时在上课的过程就是训练读者成为 “《高等数学》学习模型” 的过程,平时进行的模拟考试或做的练习就是训练样本,最终的期末考试就是训练样本之外的测试样本,用来测试读者对《高等数学》知识的掌握情况,即检验读者对运用《高等数学》知识解题的泛化能力
如果读者在模拟考试或练习(即训练样本)上只能达到 60 分或只比 60 分多几分,即十分接近及格和不及格的分类边界,虽然在模拟考试或练习中及格了(即训练样本预测正确),但是如果期末考试(即测试样本)和模拟考试或练习(即训练样本)相比变了些题型(进行了一些局部扰动),那么读者很有可能在期末考试上不及格(即测试样本预测错误)。
不同的同学有不同的学习策略(即不同的学习模型有不同的归纳偏好),SVM 的归纳偏好类似于 “学霸” 的学习策略,“学霸” 不满足于模型考试或练习只及格就可以,而是不仅是要在模型考试或练习中及格(即训练样本预测正确)、而且进一步要使得模型考试或练习的成绩尽量比 60 分高,比如达到 70 分或 80 分以上(即训练样本远离划分超平面),那么期末考试及格(即测试样本预测正确)的概率会很大。
从上面的例子可以了解到,训练样本是平时做的模拟考试或练习,测试样本是期末考试。基本型就像是闭卷考试,在期末考试时(即在预测阶段),你平时做的模拟考试或练习都不能带(即不依赖训练集 D),只能靠你聪明的头脑进行答题(即只能使用训练得到的参数 (w⋆,b⋆) 进行预测);而对偶型就像是开卷考试,在期末考试时(即在预测阶段),你可以带平时做过的模拟考试或练习(即依赖训练集 D),答题时不仅可以靠你聪明的头脑,还可以查阅平时做过的模拟考试或练习(即同时使用训练得到的参数和训练集 D 进行预测)。
基本型属于参数模型、而对偶型属于非参数模型。可以看出,参数模型的特点在于预测过程简单、预测耗时短(即闭卷考试时会就是会、不会就是不会,花再多时间也没啥用);而非参数模型的特点在于模型表示能力通常更强(读者应该有体会,通常开卷考试的成绩更高),但预测过程比较复杂、预测耗时长,预测耗时通常和训练集大小 m 成正比(即答题时需要将带的模拟考试或练习翻找一遍)。
更进一步,训练样本是平时做的模拟考试或练习,硬间隔要求你对平时做的所有的模拟考试或练习分数都要比 60 分高很多,而软间隔允许你有几次失误的机会,即允许有少量模拟考试或练习分数接近或低于 60 分。软间隔和硬间隔相比会放松一些要求,这样更加现实,有时候模拟考试或练习中会存在偏题怪题(即噪声样本),如果一味追求要所有的模拟考试或练习都做的很好(即硬间隔),那么会花大量的时间纠结偏题怪题(即拟合噪声样本),不见得期末考试成绩会好(即容易出现过拟合)。
训练样本是平时做的模型考试或练习,测试样本是期末考试,支持向量是错题集,基本型是闭卷考试,对偶型是开卷考试。那么软间隔高斯核 SVM 的对偶型告诉你,在开卷考试时不需要带所有做过的模拟考试或练习(即不需要全部训练集 D),只需要带错题集(即只需要支持向量),在期末考试答题时采用的策略是(即预测策略是),拿到一道题(即对于一个待预测的样本),将该题和错题集中收录的题一一比对一遍(即基于核函数对支持向量进行相似度计算),参考错题集中的解法(即参考支持向量的标记),相似度高的题解法就多参考参考、相似度低的题解法就少参考参考(即基于核函数得出的相似度进行加权投****),不过参考不是照抄,还需要你聪明的大脑进行加工和整合(即基于 进行加权投****)得到最终解法(即最终预测结果)。其实回顾你以前参加开卷考试的经历,使用的基本上就是这个答题策略,所以软间隔高斯核 SVM 的对偶型的表示能力十分强大。
下表对 SVM 中涉及的一些概念用学习《高等数学》课程的例子进行类比,类比不见得严谨,但是有助于理解概念。我们学习机器学习还有一个意义是促进人类的学习,SVM 中的很多思想和策略对人类学习很有启发价值。
图片
本书有以下特点:

  • 数学推导详细。对于一些数学性比较强的资料,读者有时会卡在其中的一两个关键步骤,无法理解其中的推导过程,导致无法学习后续的内容。本书会详细推导所有涉及的公式,数学基础比较好的读者可以快速浏览推导过程作为回忆和巩固;而对于数学基础有些薄弱的读者,详细的推导过程将使读者不会 “掉队”;
  • 补充背景知识。SVM 是凸优化领域的经典算法,需要读者对凸优化的背景知识有一定的了解。但是大部分读者可能并不是数学或优化背景出身,为了学习 SVM 先要掌握内容宏大的凸优化知识会是比较重的负担。为了减轻读者的负担并能使尽可能多的读者从中收益,本书不要求读者有凸优化背景知识,读者只需要有基础的微积分和线性代数背景即可。文本对 SVM 中涉及的背景知识会进行补充,力图使本书内容是自足的,即争取做到 “学懂 SVM 只看本书就够了”;
  • 概念图文结合。SVM 的另一个难点是涉及许多概念,有些还比较抽象。因此,本书配备了许多插图,用于辅助读者学习。读者如果能自动地做到将各个术语和概念对应到图中,那基本就可以达到对 SVM 融会贯通的程度;
  • 包含面试问题。本书内容涵盖了常见的对 SVM 的面试考察问题,因此也可以作为快速回顾和复习 SVM 的参考资料;
  • 穿插趣味示例。本书如果通篇都是对 SVM 的数学推导不免有些抽象和乏味,因此会多次用人类学习《高等数学》知识这一例子类比 SVM 中的重要概念和思想。类比不见得严谨,但对理解 SVM 具有帮助意义。


SVM 中涉及的关键内容可以用下图进行概括,本书将从最基础的部分进行,逐步深入,每一步都尽量提供详细的推导过程,使读者能跟上本书的节奏

图片



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:AI

相关推荐

技术专区

关闭