Fronteras de Decisiones como Hiperventanas
Un clasificador binario asigna cada entrada a una de las dos clases. La frontera de decisión del clasificador divide el espacio de entrada en dos regiones: una por clase. La geometría de esa frontera determina qué patrones puede aprender el clasificador.
Una hiperventana en ℝ^n: el conjunto de todos los puntos x que satisfacen w·x + b = 0, donde w es un vector de peso en ℝ^n y b es un escalar sesgo. Una hiperventana tiene n−1 dimensiones.
En 2D: una hiperventana es una línea. En 3D: una superficie plana. En n-D: una superficie plana (n−1)-dimensional.
Un perceptron clasifica calculando w·x + b y devolviendo la clase 1 si es positivo, la clase 0 si es negativo. Su frontera de decisión es una hiperventana.
Separabilidad Lineal
Un conjunto de datos es separable linealmente en ℝ^n si existe una hiperventana que ponga a todos los puntos de clase-0 en un lado y a todos los puntos de clase-1 en el otro. Esta es una propiedad puramente geométrica del conjunto de datos.
Prueba de Separabilidad Lineal
El conjunto de datos de la puerta lógica AND en 2D: puntos de clase-0 en (0,0), (1,0), (0,1); punto de clase-1 en (1,1). Este conjunto de datos es linealmente separable.
El conjunto de datos XOR en 2D: puntos de clase-0 en (0,0) y (1,1); puntos de clase-1 en (1,0) y (0,1). Estas dos clases están en diagonales opuestas.
Elevación a espacios de mayor dimensión
XOR no es separable linealmente en 2D. La solución: mapear los datos a un espacio de mayor dimensión en el que se vuelve separable linealmente. Esta es la idea central del truco del núcleo.
Mapa de características: una función φ: ℝ^n → ℝ^m (m > n) que transforma cada punto de entrada en una representación de mayor dimensión.
Para XOR, un mapa de características útil: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
Esto agrega una tercera dimensión z = x₁ × x₂. Los puntos XOR se transforman a:
- (0,0) → (0, 0, 0), clase 0
- (1,0) → (1, 0, 0), clase 1
- (0,1) → (0, 1, 0), clase 1
- (1,1) → (1, 1, 1), clase 0
En 3D: los puntos de clase-0 están en (0,0,0) y (1,1,1); los puntos de clase-1 están en (1,0,0) y (0,1,0). Ahora encuentre un plano separador.
Plano separador en 3D
Después del mapa de características φ(x₁, x₂) = (x₁, x₂, x₁x₂), los datos XOR viven en 3D. Un hipercubo en 3D tiene ecuación w₁x₁ + w₂x₂ + w₃z + b = 0.
Teorema de Cover: Por qué Las Altas Dimensiones Ayudan
Teorema de Cover (1965): un problema de clasificación complejo en un espacio de alta dimensionalidad es más probable que sea separable linealmente que en un espacio de baja dimensionalidad, siempre y cuando el espacio no esté densamente poblado.
Estamento no formal: si mapea n puntos de datos a un espacio de dimensión d >> n, la probabilidad de que una etiquetado aleatorio sea separable linealmente se acerca a 1.
Versión formal: para n puntos en posición general en ℝ^d, el número de dicotomías separables linealmente (asignaciones de clase) es exactamente 2 × Σ_{k=0}^{d} C(n−1, k) para d < n, y es igual a 2^n (todas las dicotomías) para d ≥ n − 1.
Implicación práctica: el mapa de características φ que eleva a XOR a 3D es un caso especial de este principio general. Elevarse a dimensiones más altas aumenta la probabilidad de separabilidad. El costo: más parámetros para ajustar, mayor riesgo de sobreajuste.
El Complemento de Sesgo-Variance como Geometría
Límite de decisión de baja dimensionalidad (pocos parámetros): alto sesgo (no puede capturar patrones complejos), baja varianza (estable a través de muestras). Límite de alta dimensionalidad (muchos parámetros): bajo sesgo, alta varianza (puede sobreajustarse al ruido en los datos de entrenamiento).
Dimensión VC: ¿Cuán Expresivo Es Un Clasificador?
La dimensión de Vapnik-Chervonenkis (VC) de una clase de hipótesis H mide cuán compleja es la clase: el número más grande de puntos que H puede fragmentar (clasificar correctamente en todos los 2^n posibles etiquetados).
Perceptron en ℝ^d: dimensión VC = d + 1. Una hipervía d-dimensional puede fragmentar d + 1 puntos (en general) pero no d + 2.
La dimensión VC determina la complejidad de muestra: para aprender una hipótesis con error de generalización ε con probabilidad 1 − δ, se necesitan aproximadamente n ≥ (d × log(1/ε) + log(1/δ)) / ε muestras, donde d es la dimensión VC.
Límites de decisión y límites de capacidad de máquina
La geometría de las fronteras de decisión se conecta directamente con los límites de razónamiento de máquina de Hamming.
Un perceptron de capa única (clasificador de hiperplanos) no puede resolver el XOR. Esta fue la crítica de Minsky & Papert a los perceptrones tempranos en 1969. El argumento geométrico: el XOR no es separable linealmente. La máquina no puede resolverlo, no por falta de potencia de cálculo, sino por una incompatibilidad geométrica fundamental entre la clase de hipótesis y el problema.
La solución: las redes de múltiples capas pueden representar límites no lineales. Los capas ocultas implementan la función φ de mapeo — elevando los datos a dimensiones más altas donde la separación lineal se vuelve posible. Cada neuronas ocultas computa un hiperplano; la combinación de múltiples hiperplanos aproxima curvas.
Esta historia se mapea en la observación de Hamming: cada limitación de la razón de máquina tiene una estructura geométrica debajo de ella. La tarea no es discutir si las máquinas 'pueden pensar', sino identificar las restricciones geométricas y encontrar formas de trabajar alrededor de ellas.