un

guest
1 / ?
back to lessons

决策边界作为超平面

二元分类器将输入分配给两个类中的一个。分类器的决策边界将输入空间分为两个区域:一个属于每个类。该边界的几何学决定了分类器可以学习的模式。

在 ℝ^n 中,超平面是所有满足 w·x + b = 0 的点集,其中 w 是 ℝ^n 中的权重向量,b 是一个标量偏差。超平面有 n−1 个维度。

在 2D 中:超平面是一个线;在 3D 中:一个平面;在 n-D 中:一个平面(n−1)-维子空间。

一个感知器通过计算 w·x + b 并返回类别 1,如果正,则类别 0。如果负,则其决策边界是一个超平面。

线性可分离性

在 ℝ^n 中,如果存在一个超平面将所有类 0 的点放在一个侧面,并且所有类 1 的点放在另一个侧面,那么数据集就是线性可分离的。这是一个数据集几何属性。

决策边界几何:线性可分离性 & XOR

测试线性可分离性

2D 中的 AND 门数据集:类 0 点位于 (0,0)、(1,0)、(0,1);类 1 点位于 (1,1)。这个数据集是线性可分离的。

2D 中的 XOR 数据集:类 0 点位于 (0,0) 和 (1,1);类 1 点位于 (1,0) 和 (0,1)。这两个类位于相对角的对角线上。

通过几何论证:解释为什么在 2D 平面上没有一条直线可以将两个类别分开。你的论证应该引用四个点的位置,并指出直线的某个性质使分离不可能。

提升到高维空间

XOR在2D中不可分。解决方案:将数据映射到一个高维空间,使其在该空间中变得线性可分。这就是内核技巧的核心思想。

特征映射:一个函数φ:ℝ^n → ℝ^m (m > n),将每个输入点映射到一个更高维的表示。

对于XOR,这个有用的特征映射:φ(x₁, x₂) = (x₁, x₂, x₁x₂)

这添加了一个第三维z = x₁ × x₂。XOR点的变换为:

- (0,0) → (0, 0, 0),类0

- (1,0) → (1, 0, 0),类1

- (0,1) → (0, 1, 0),类1

- (1,1) → (1, 1, 1),类0

在3D中:类0的点在(0,0,0)和(1,1,1),类1的点在(1,0,0)和(0,1,0)。现在找到一个分隔平面。

在3D中的分隔平面

在特征映射φ(x₁, x₂) = (x₁, x₂, x₁x₂)之后,XOR数据存在于3D空间中。一维空间的超平面方程为w₁x₁ + w₂x₂ + w₃z + b = 0。

在变换后的3D空间中找到一个超平面w·x + b = 0,正确地将XOR类分开。将所有四个变换后的点代入验证你的超平面。每个类0的点应该给出w·x + b < 0(或> 0),每个类1的点应该给出相反的符号。

Cover 的定理:高维度如何帮助

Cover 的定理(1965 年):在高维空间中将复杂分类问题表示为低维空间中的线性可分问题的可能性比在低维空间中更高,提供的条件是空间不是密集居住的。

非正式陈述:如果将 n 个数据点映射到一个维数 d >> n 的空间中,那么随机标签的线性可分概率接近 1。

正式版本:在 ℝ^d 中具有一般位置的 n 个点的线性可分 dichotomies(类别分配)数目恰好等于 2 × Σ_{k=0}^{d} C(n−1, k) 对于 d < n,和等于 2^n(所有 dichotomies)对于 d ≥ n - 1。

实际意义:将 XOR 提升到 3D 的特征映射是这个通用原理的特殊情况。提升到更高维度增加了可分离性。成本:需要更多参数来拟合,高风险过拟合。

偏差-方差权衡作为几何

低维决策边界(参数少):高偏差(无法捕捉复杂模式),低方差(稳定性较高)。高维边界(许多参数):低偏差,高方差(可以对训练数据中的噪音进行过拟合)。

VC 维度:一个分类器的表达能力如何?

Vapnik-Chervonenkis (VC)维度用于衡量假设类H的复杂性:它是H可以正确分类所有2^n个标签的最大点数。

感知器在ℝ^d中:VC维度 = d + 1。d维超平面可以将d + 1个(一般位置)点打破(正确分类)但不能打破d + 2个。

VC维度决定了样本复杂性:要学习一个具有通用误差ε的假设,概率为1 - δ,需要大约n ≥ (d × log(1/ε) + log(1/δ)) / ε个样本,其中d是VC维度。

ℝ^3中的感知器具有VC维度为4。根据VC的样本复杂性界,在95%的置信度下,要达到通用误差ε = 0.05,需要多少训练样本?使用简化界:n ≥ (d × log(1/ε) + log(1/δ)) / ε,并展示所有计算。

决策边界与机器能力限制

决策边界的几何直接连接到汉明的机器推理限制。

单层感知器(超平面分类器)无法解决 XOR。1969年,Minsky & Papert 对早期感知器的批评 precisely 这个。几何论证:XOR 不是线性可分的。机器无法解决它,不是因为计算能力不足,而是因为假设类别和问题之间的基本几何不兼容。

解决方案:多层网络可以表示非线性边界。隐藏层实现特征映射 φ — 将数据提升到更高的维度,线性分离成为可能。在那里,多个超平面组合近似曲线。每个隐藏神经元计算一个超平面。

这段历史映射到 Hamming 的观察:机器推理的每个局限性都有一个几何结构在底层。任务不是争论机器是否能‘思考’,而是要识别几何约束,并找到解决方法。

Minsky & Papert在1969年对感知器的批评使用了XOR非可分性论证。他们的书《感知器》几乎让神经网络研究停滞十年。但是多层网络解决了XOR问题。这段历史表明,应该如何理解一个机器推理系统的显示局限性?具体地说:一个显示的几何局限性应该被理解为永久的还是依赖于当前的假设类?给出一个原则性的回答。