决策边界作为超平面
二元分类器将输入分配给两个类中的一个。分类器的决策边界将输入空间分为两个区域:一个属于每个类。该边界的几何学决定了分类器可以学习的模式。
在 ℝ^n 中,超平面是所有满足 w·x + b = 0 的点集,其中 w 是 ℝ^n 中的权重向量,b 是一个标量偏差。超平面有 n−1 个维度。
在 2D 中:超平面是一个线;在 3D 中:一个平面;在 n-D 中:一个平面(n−1)-维子空间。
一个感知器通过计算 w·x + b 并返回类别 1,如果正,则类别 0。如果负,则其决策边界是一个超平面。
线性可分离性
在 ℝ^n 中,如果存在一个超平面将所有类 0 的点放在一个侧面,并且所有类 1 的点放在另一个侧面,那么数据集就是线性可分离的。这是一个数据集几何属性。
测试线性可分离性
2D 中的 AND 门数据集:类 0 点位于 (0,0)、(1,0)、(0,1);类 1 点位于 (1,1)。这个数据集是线性可分离的。
2D 中的 XOR 数据集:类 0 点位于 (0,0) 和 (1,1);类 1 点位于 (1,0) 和 (0,1)。这两个类位于相对角的对角线上。
提升到高维空间
XOR在2D中不可分。解决方案:将数据映射到一个高维空间,使其在该空间中变得线性可分。这就是内核技巧的核心思想。
特征映射:一个函数φ:ℝ^n → ℝ^m (m > n),将每个输入点映射到一个更高维的表示。
对于XOR,这个有用的特征映射:φ(x₁, x₂) = (x₁, x₂, x₁x₂)
这添加了一个第三维z = x₁ × x₂。XOR点的变换为:
- (0,0) → (0, 0, 0),类0
- (1,0) → (1, 0, 0),类1
- (0,1) → (0, 1, 0),类1
- (1,1) → (1, 1, 1),类0
在3D中:类0的点在(0,0,0)和(1,1,1),类1的点在(1,0,0)和(0,1,0)。现在找到一个分隔平面。
在3D中的分隔平面
在特征映射φ(x₁, x₂) = (x₁, x₂, x₁x₂)之后,XOR数据存在于3D空间中。一维空间的超平面方程为w₁x₁ + w₂x₂ + w₃z + b = 0。
Cover 的定理:高维度如何帮助
Cover 的定理(1965 年):在高维空间中将复杂分类问题表示为低维空间中的线性可分问题的可能性比在低维空间中更高,提供的条件是空间不是密集居住的。
非正式陈述:如果将 n 个数据点映射到一个维数 d >> n 的空间中,那么随机标签的线性可分概率接近 1。
正式版本:在 ℝ^d 中具有一般位置的 n 个点的线性可分 dichotomies(类别分配)数目恰好等于 2 × Σ_{k=0}^{d} C(n−1, k) 对于 d < n,和等于 2^n(所有 dichotomies)对于 d ≥ n - 1。
实际意义:将 XOR 提升到 3D 的特征映射是这个通用原理的特殊情况。提升到更高维度增加了可分离性。成本:需要更多参数来拟合,高风险过拟合。
偏差-方差权衡作为几何
低维决策边界(参数少):高偏差(无法捕捉复杂模式),低方差(稳定性较高)。高维边界(许多参数):低偏差,高方差(可以对训练数据中的噪音进行过拟合)。
VC 维度:一个分类器的表达能力如何?
Vapnik-Chervonenkis (VC)维度用于衡量假设类H的复杂性:它是H可以正确分类所有2^n个标签的最大点数。
感知器在ℝ^d中:VC维度 = d + 1。d维超平面可以将d + 1个(一般位置)点打破(正确分类)但不能打破d + 2个。
VC维度决定了样本复杂性:要学习一个具有通用误差ε的假设,概率为1 - δ,需要大约n ≥ (d × log(1/ε) + log(1/δ)) / ε个样本,其中d是VC维度。
决策边界与机器能力限制
决策边界的几何直接连接到汉明的机器推理限制。
单层感知器(超平面分类器)无法解决 XOR。1969年,Minsky & Papert 对早期感知器的批评 precisely 这个。几何论证:XOR 不是线性可分的。机器无法解决它,不是因为计算能力不足,而是因为假设类别和问题之间的基本几何不兼容。
解决方案:多层网络可以表示非线性边界。隐藏层实现特征映射 φ — 将数据提升到更高的维度,线性分离成为可能。在那里,多个超平面组合近似曲线。每个隐藏神经元计算一个超平面。
这段历史映射到 Hamming 的观察:机器推理的每个局限性都有一个几何结构在底层。任务不是争论机器是否能‘思考’,而是要识别几何约束,并找到解决方法。