un — Géométrie de Vous Obtenez Ce Que Vous Mesurez

un

invité

1 / ?

retour aux leçons

Espace de Valeur vs Espace de Mesure

Modélisez le monde comme deux espaces :

Espace de valeur V : l'ensemble des états du monde en fonction de ce qui vous importe réellement. Les points dans V représentent différents niveaux de la vraie quantité sous-jacente (apprentissage des étudiants, progrès militaire, bien-être économique).

Espace de mesure M : l'ensemble des valeurs que la métrique peut prendre. Une métrique est une fonction f: V → M — une application de l'espace de valeur vers l'espace de mesure.

Une métrique valide est celle où f est proche d'une isométrie dans la région pertinente : les changements égaux dans M correspondent aux changements égaux dans V. Les points proches dans M correspondent aux points proches dans V.

Une métrique distordue est celle où f n'est pas isométrique : la métrique compresse certaines régions de V (rendant les grands changements invisibles) et en étend d'autres (rendant les petits changements apparemment grands). L'étalonnage du QI est une distorsion conçue : il mappe la distribution brute des scores à une Gaussienne dans M, indépendamment de la vraie distribution de l'intelligence dans V.

La loi de Goodhart en termes d'application : lorsque M devient une cible, les agents appliquent la montée du gradient en M. Parce que f est une distorsion, la montée du gradient en M ne correspond pas à la montée du gradient en V. L'agent se déplace en M sans se déplacer (ou en se déplaçant vers l'arrière) en V.

Distorsion Métrique: Espace de Valeur vs Espace de Mesure

Tester la Validité de la Métrique

Une entreprise évalue la performance des employés sur une échelle de 1 à 5 étoiles. L'échelle est calibrée de sorte que 80 % des employés reçoivent une note de 3 ou supérieure. Le système d'évaluation de la performance est utilisé à la fois pour les décisions de rémunération (où l'ordre de rang importe) et pour les plans d'amélioration (où le niveau absolu importe).

Cette métrique est-elle plus proche d'une application isométrique ou d'une application distordue de la vraie performance ? Expliquez en utilisant les concepts de compression et d'expansion. Ensuite : pour quel cas d'usage (décisions de rémunération ou plans d'amélioration) la distorsion importe-t-elle plus, et pourquoi ?

Montée du Gradient dans le Mauvais Espace

Modélisez le problème d'optimisation géométriquement. Soit V = espace de valeur (vraie apprentissage des étudiants, progrès militaire, etc.) et M = espace métrique (notes de test, décomptes, etc.).

Le gradient de la vraie valeur : ∇_V(value) pointe dans la direction en V qui augmente la quantité sous-jacente que vous recherchez.

Le gradient de la métrique : ∇_M(metric) pointe dans la direction en M qui augmente la métrique.

Parce que f: V → M n'est pas une isométrie, le gradient de la métrique dans l'espace de valeur (f(∇_M)) n'est pas aligné avec ∇_V. L'angle entre eux, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mesure la gravité de la défaillance de Goodhart.

Si θ = 0 : le gradient de métrique et le gradient de valeur pointent dans la même direction. Optimiser la métrique optimise la valeur. Pas de corruption de Goodhart.

Si θ = 90° : le gradient de métrique est orthogonal à la valeur. Optimiser la métrique se déplace en M sans se déplacer en V du tout.

Si θ = 180° : le gradient de métrique pointe à l'opposé de la valeur. Optimiser la métrique dégrade activement la valeur.

Lorsque la métrique devient une cible et que les agents appliquent la montée du gradient sur la métrique, ils suivent f*(∇_M), pas ∇_V. L'angle de divergence θ augmente au fil du temps à mesure que la métrique est trichée — l'application f devient moins isométrique à mesure que les agents trouvent les régions où ∇_M et ∇_V divergent le plus, car ce sont les chemins les plus efficaces pour tricher.

Mesurer la Divergence

Considérez un espace de valeur bidimensionnel simple V = (compétence, conformité) où compétence = compréhension réelle de l'étudiant, conformité = capacité de l'étudiant à suivre les procédures de test.

Une métrique de test M = 0,3 × compétence + 0,7 × conformité (une combinaison linéaire spécifique, où la conformité a un poids de 70 %).

Dans ce modèle 2D, le gradient de la métrique est le vecteur (0,3, 0,7) dans l'espace (compétence, conformité). Un étudiant optimise la métrique en améliorant uniquement la conformité (se déplaçant dans la direction (0, 1) dans l'espace de valeur). Calculez le cosinus de l'angle entre le gradient de métrique et la direction de compétence pure (1, 0). Expliquez : le gradient de métrique est-il bien aligné avec « l'augmentation de la compétence » (θ petit) ou mal aligné (θ grand) ? Qu'est-ce que cela prédit de ce qui se passe lorsque les étudiants optimisent pour cette métrique ?

Optimisation Multi-Objectif Comme Défense Contre Goodhart

La défense de Hamming : utilisez plusieurs métriques simultanément. L'interprétation géométrique : au lieu de maximiser une seule fonction objectif f(x), optimisez sur un vecteur d'objectifs F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Pour un objectif vectoriel, le concept de solution est la frontière de Pareto : l'ensemble des solutions où aucun objectif ne peut être amélioré sans dégrader un autre. La frontière de Pareto remplace l'optimum unique.

Pourquoi cela défend contre Goodhart : pour tricher sur les métriques, un agent rationnel doit trouver une direction dans l'espace de valeur qui augmente tous les fᵢ simultanément (ou au moins les métriques sur lesquelles il est jugé). Si les métriques sont suffisamment indépendantes — si leurs directions de gradient sont suffisamment non-parallèles — il n'existe pas de telle direction. Tricher sur une métrique dégrade une autre.

Le degré de défense : si les k gradients de métrique couvrent l'espace k-dimensionnel (sont linéairement indépendants), alors optimiser tout sous-ensemble approprié de métriques dégrade au moins une métrique exclue. La défense complète de Pareto nécessite qu'aucune direction de tricherie n'existe qui améliore toutes les métriques.

Invariance de mesure : une métrique M est invariante par rapport à un attribut non pertinent α si M(x + δα) = M(x) pour les changements δ dans α. La métrique du QI n'est pas invariante par rapport à la pratique du test : le QI change lorsque les étudiants s'entraînent au test sans gains véritables dans la construction sous-jacente.

Concevoir un Système Métrique Défendu par Pareto

Considérez l'évaluation d'un chercheur en sciences sur un système à deux métriques : M₁ = publications par an, M₂ = taux de citation par article (citations par article).

Expliquez géométriquement pourquoi ces deux métriques ensemble sont plus difficiles à tricher qu'une métrique seule. Spécifiquement : décrivez une stratégie pour maximiser M₁ seule, une stratégie pour maximiser M₂ seule, puis montrez que chacune de ces stratégies dégrade l'autre métrique. Ensuite : existe-t-il une stratégie résiduelle de tricherie qui augmente les deux simultanément sans produire de valeur réelle de recherche, et si oui, laquelle ?