un

guest
1 / ?
back to lessons

值空间与测量空间

将世界模型为两个空间:

值空间 V: 与你真正关心的世界状态有关的集合。V 中的点表示不同级别的真实潜在数量(学生学习、军事进展、经济福祉)。

测量空间 M: 指度量可以取的值集。一个度量是从值空间映射到测量空间的函数 f: V → M。

一个 有效度量 是指 f 与相关区域内的同构非常接近:M 中的等变化对应于 V 中的等变化。M 中的邻近点对应于 V 中的邻近点。

一个 变形度量 是指 f 不是同构:度量将 V 中的某些区域压缩(使大变化变得看不见)并将其他区域扩张(使小变化看起来很大)。IQ 调节是一种设计的变形:它将原始分数分布映射到 M 中的高斯分布,无论 V 中的智力真实分布如何。

Goodhart 法则在映射术语中:当 M 成为一个目标时,代理在 M 上执行梯度上升。当 f 是一个变形时,梯度在 M 上的上升不对应于梯度在 V 上的上升。代理在 M 中移动,而在 V 中没有移动(或后退)。

'度量变形:值空间与测量空间'

测试度量有效性

一家公司根据 1-5 星评分来评估员工表现。这个评分尺度是调整的,以便 80% 的员工获得 3 或更高的评分。绩效评审系统用于两种用途:用于决定补偿(排名顺序很重要)和制定改进计划(绝对水平很重要)。

这个度量更接近于一个同构映射还是一个变形映射的真实性能?使用压缩和扩张的概念来解释。然后:在变形对于哪种用例(补偿或改进计划)更重要,并且为什么?

在错误空间进行梯度上升

从几何上来看,优化问题可以这样模型化。让V = 真实价值空间(学生学习、军事进展等)和M = 指标空间(考试成绩、伤亡人数等)。

真实价值的梯度:∇_V(价值)指向V空间中的一个方向,使得您关心的底层数量增加。

指标的梯度:∇_M(指标)指向M空间中的一个方向,使得指标增加。

因为f: V → M不是等距映射,值空间中的指标梯度(f(∇_M))与真实梯度不对齐。它们之间的角度θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))表示Goodhart现象严重程度的度量。

如果θ = 0:指标梯度和价值梯度指向相同的方向。优化指标也优化价值。没有Goodhart污染。

如果θ = 90°:指标梯度与价值垂直。优化指标在M中移动,而在V中却没有移动。

如果θ = 180°:指标梯度与价值相反。优化指标实际上会降低价值。

当指标成为目标,代理人开始在指标上进行梯度上升时,他们会沿着f*(∇_M)而不是∇_V前进。随着时间的推移,θ的角度会增大,因为代理人发现∇_M和∇_V之间的差异最大的区域,这些区域是游戏指标最有效的路径,因为它们也是指标不对称性最严重的地方。

度量偏离

考虑一个简单的二维值空间V = (技能,遵从度),其中技能=学生的实际理解,遵从度=学生遵循测试手段的能力。

一个测试度量M = 0.3 × 技能 + 0.7 × 遵从度(一个特定的线性组合,其中遵从度权重为70%)。

在这个2D模型中,度量的梯度是(0.3, 0.7)在(技能,遵从度)空间。学生通过提高遵从度来优化度量(在值空间中沿(0, 1)方向移动)。计算度量梯度与纯技能方向(1, 0)之间的余弦值。解释:度量梯度是否与“技能提高”非常一致(θ小)还是不一致(θ大)?这预测什么关于学生优化这个度量时的情况?

多目标优化作为防御Goodhart现象

汉明防御:同时使用多个度量。几何解释:不是最大化单个目标函数f(x),而是优化目标向量F(x) = (f₁(x), f₂(x), ..., fₖ(x))。

对于向量目标,解决方案概念是帕累托前沿:改进一个目标没有损害另一个目标的集合。帕累托前沿取代了单个最优值。

为什么这有助于防御 Goodhart 效应:为了操纵指标,理性代理必须在价值空间中找到一个方向,使所有 fᵢ 同时增加(至少是他们被评估的指标)。如果指标相互独立——它们的梯度方向足够不平行——就不存在这样的方向。操纵一个指标会降低另一个指标。

防御程度:如果 k 个指标梯度填充 k 维空间(线性无关),则优化任何一个子集的指标都会降低至少一个被排除的指标。完全帕累托防御要求不存在改善所有指标的操纵方向。

测量不变性:一个指标 M 对于无关属性 α 是不变的,如果 M(x + δα) = M(x) 对于变化 δ。在测验实践方面,IQ 指标不稳定:IQ 会随着学生练习测试而变化,但没有真正提高潜在的构造。

设计一个帕累托防卫的指标系统

考虑评估一位研究科学家在一个双指标系统中:M₁ = 每年发表论文数,M₂ = 每篇论文的引用率(引用次数每篇论文)。

从几何角度解释为什么这两个指标一起比单个指标更难操纵。具体来说:描述最大化 M₁ 的策略,最大化 M₂ 的策略,然后证明这两个策略都会降低另一个指标。然后:是否存在剩余的操纵策略可以同时增加这两个指标而不产生真正的研究价值,如果有,那么是什么?