un — Geometría de la Razón Máquina: III

un

guest

1 / ?

back to lessons

Fronteras de Decisiones como Hiperventanas

Un clasificador binario asigna cada entrada a una de las dos clases. La frontera de decisión del clasificador divide el espacio de entrada en dos regiones: una por clase. La geometría de esa frontera determina qué patrones puede aprender el clasificador.

Una hiperventana en ℝ^n: el conjunto de todos los puntos x que satisfacen w·x + b = 0, donde w es un vector de peso en ℝ^n y b es un escalar sesgo. Una hiperventana tiene n−1 dimensiones.

En 2D: una hiperventana es una línea. En 3D: una superficie plana. En n-D: una superficie plana (n−1)-dimensional.

Un perceptron clasifica calculando w·x + b y devolviendo la clase 1 si es positivo, la clase 0 si es negativo. Su frontera de decisión es una hiperventana.

Separabilidad Lineal

Un conjunto de datos es separable linealmente en ℝ^n si existe una hiperventana que ponga a todos los puntos de clase-0 en un lado y a todos los puntos de clase-1 en el otro. Esta es una propiedad puramente geométrica del conjunto de datos.

Geometría de la Frontera de Decisiones: Separabilidad Lineal y XOR

Prueba de Separabilidad Lineal

El conjunto de datos de la puerta lógica AND en 2D: puntos de clase-0 en (0,0), (1,0), (0,1); punto de clase-1 en (1,1). Este conjunto de datos es linealmente separable.

El conjunto de datos XOR en 2D: puntos de clase-0 en (0,0) y (1,1); puntos de clase-1 en (1,0) y (0,1). Estas dos clases están en diagonales opuestas.

Verifique que el conjunto de datos XOR no es linealmente separable en 2D. Utilice un argumento geométrico: explique por qué ninguna línea en el plano 2D puede separar las dos clases. Su argumento debe hacer referencia a las posiciones de los cuatro puntos y la propiedad de una línea recta que hace que la separación sea imposible.

Elevación a espacios de mayor dimensión

XOR no es separable linealmente en 2D. La solución: mapear los datos a un espacio de mayor dimensión en el que se vuelve separable linealmente. Esta es la idea central del truco del núcleo.

Mapa de características: una función φ: ℝ^n → ℝ^m (m > n) que transforma cada punto de entrada en una representación de mayor dimensión.

Para XOR, un mapa de características útil: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Esto agrega una tercera dimensión z = x₁ × x₂. Los puntos XOR se transforman a:

- (0,0) → (0, 0, 0), clase 0

- (1,0) → (1, 0, 0), clase 1

- (0,1) → (0, 1, 0), clase 1

- (1,1) → (1, 1, 1), clase 0

En 3D: los puntos de clase-0 están en (0,0,0) y (1,1,1); los puntos de clase-1 están en (1,0,0) y (0,1,0). Ahora encuentre un plano separador.

Plano separador en 3D

Después del mapa de características φ(x₁, x₂) = (x₁, x₂, x₁x₂), los datos XOR viven en 3D. Un hipercubo en 3D tiene ecuación w₁x₁ + w₂x₂ + w₃z + b = 0.

Encuentre un hipercubo w·x + b = 0 en el espacio transformado de 3D que separe correctamente las clases XOR. Verifique su hipercubo sustituyendo todos los cuatro puntos transformados. Cada punto de clase-0 debería dar w·x + b < 0 (o > 0) y cada punto de clase-1 debería dar el signo opuesto.

Teorema de Cover: Por qué Las Altas Dimensiones Ayudan

Teorema de Cover (1965): un problema de clasificación complejo en un espacio de alta dimensionalidad es más probable que sea separable linealmente que en un espacio de baja dimensionalidad, siempre y cuando el espacio no esté densamente poblado.

Estamento no formal: si mapea n puntos de datos a un espacio de dimensión d >> n, la probabilidad de que una etiquetado aleatorio sea separable linealmente se acerca a 1.

Versión formal: para n puntos en posición general en ℝ^d, el número de dicotomías separables linealmente (asignaciones de clase) es exactamente 2 × Σ_{k=0}^{d} C(n−1, k) para d < n, y es igual a 2^n (todas las dicotomías) para d ≥ n − 1.

Implicación práctica: el mapa de características φ que eleva a XOR a 3D es un caso especial de este principio general. Elevarse a dimensiones más altas aumenta la probabilidad de separabilidad. El costo: más parámetros para ajustar, mayor riesgo de sobreajuste.

El Complemento de Sesgo-Variance como Geometría

Límite de decisión de baja dimensionalidad (pocos parámetros): alto sesgo (no puede capturar patrones complejos), baja varianza (estable a través de muestras). Límite de alta dimensionalidad (muchos parámetros): bajo sesgo, alta varianza (puede sobreajustarse al ruido en los datos de entrenamiento).

Dimensión VC: ¿Cuán Expresivo Es Un Clasificador?

La dimensión de Vapnik-Chervonenkis (VC) de una clase de hipótesis H mide cuán compleja es la clase: el número más grande de puntos que H puede fragmentar (clasificar correctamente en todos los 2^n posibles etiquetados).

Perceptron en ℝ^d: dimensión VC = d + 1. Una hipervía d-dimensional puede fragmentar d + 1 puntos (en general) pero no d + 2.

La dimensión VC determina la complejidad de muestra: para aprender una hipótesis con error de generalización ε con probabilidad 1 − δ, se necesitan aproximadamente n ≥ (d × log(1/ε) + log(1/δ)) / ε muestras, donde d es la dimensión VC.

Un perceptrón en ℝ^3 tiene dimensión VC de 4. De acuerdo con el límite de complejidad de muestra VC, aproximadamente cuántas muestras de entrenamiento se necesitan para lograr un error de generalización ε = 0.05 con confianza 1 − δ = 0.95? Utilice la enmienda simplificada n ≥ (d × log(1/ε) + log(1/δ)) / ε con los valores dados. Muestre todos los cálculos.

Límites de decisión y límites de capacidad de máquina

La geometría de las fronteras de decisión se conecta directamente con los límites de razónamiento de máquina de Hamming.

Un perceptron de capa única (clasificador de hiperplanos) no puede resolver el XOR. Esta fue la crítica de Minsky & Papert a los perceptrones tempranos en 1969. El argumento geométrico: el XOR no es separable linealmente. La máquina no puede resolverlo, no por falta de potencia de cálculo, sino por una incompatibilidad geométrica fundamental entre la clase de hipótesis y el problema.

La solución: las redes de múltiples capas pueden representar límites no lineales. Los capas ocultas implementan la función φ de mapeo — elevando los datos a dimensiones más altas donde la separación lineal se vuelve posible. Cada neuronas ocultas computa un hiperplano; la combinación de múltiples hiperplanos aproxima curvas.

Esta historia se mapea en la observación de Hamming: cada limitación de la razón de máquina tiene una estructura geométrica debajo de ella. La tarea no es discutir si las máquinas 'pueden pensar', sino identificar las restricciones geométricas y encontrar formas de trabajar alrededor de ellas.

La crítica de Minsky & Papert en 1969 del perceptrón utilizó el argumento de la no separabilidad de XOR. Su libro, 'Perceptrons', casi mató la investigación de redes neuronales durante una década. Pero las redes de capas múltiples resuelven el problema de XOR. ¿Qué sugiere esta historia sobre la forma correcta de interpretar una limitación demostrada de un sistema de razónamiento de máquina? Específicamente: ¿debe entenderse una limitación geométrica demostrada como permanente o como contingente en la clase de hipótesis actual? Proporcione una respuesta fundamentada.