un

guest
1 / ?
back to lessons

如何形成纠缠

两个子系统最初作为独立模块开始生命。随着时间的推移,每个子系统都在共享的神对象上积累了一个字段:一个全局配置结构,一个单例管理器,一个静态类。每个添加:在孤立情况下正确。耦合:在小规模测试中不可见。

纠缠模式:系统A和B共享无快照或接口的全局状态

这三种子系统在这里变得坚化:

VLC媒体播放器。 音频,视频和播放列表共享一个锁,保护一个全局播放状态。一个跳到时间戳的请求获取锁,修改播放位置,并刷新音频缓冲区。视频子系统,等待同一个锁,被阻塞。播放列表子系统,也在等待,无法预先加载。结果:三个独立子系统通过一个状态对象进行序列化。性能成本:O(N)锁争用,其中N等于子系统的数量,所有的操作延迟都是线性关系。

Redis事件循环。 AOF fsync(磁盘写),复制(网络写)和命令执行(CPU)共享单线程事件循环。每个:在孤立情况下正确。一个慢的 fsync 会阻塞命令执行。复制延迟在写入负载下累积。耦合点:一个执行上下文由具有不同延迟特征的操作共享。

LevelDB VersionSet。 写路径(memtable flush)和背景压缩共享 VersionSet 锁。一个压缩作业保持锁定数十毫秒。写路径被阻塞。两个操作:必要。耦合:结构性,而不是时间问题。

关键区别

纠缠有一个结构耦合,而不是时间问题。一个竞态条件:两个线程访问共享状态没有同步。解决方案:添加一个互斥锁。

一个纠缠:两个子系统通过设计共享状态。添加一个互斥锁不会解决耦合;它会序列化访问。子系统仍然共享状态。瓶颈加紧。

将互斥锁添加到 VLC 纠缠中会使情况更糟:现在音频,视频和播放列表都在等待一个锁。结构性解决方案:为每个子系统提供自己的状态。阶段快照:在阶段边界上冻结共享状态的快照,让每个子系统独立地读取快照,最后在末端合并写入。

结构与时间

一个关键的诊断问题:在一个Intertangle中,添加一个互斥量是否能解决问题,或者会让问题更糟?

一个竞争条件:添加一个互斥量可以解决问题。正确的访问顺序消除了损坏。

一个Intertangle:添加一个互斥量序列化了访问,但保留了结构性耦合。子系统仍然共享状态。在负载下,他们仍然相互阻塞。瓶颈变窄。

两个子系统如何可能变得纠缠在一起。什么让这个问题成为结构问题,而不是简单的竞态条件?

如何找到一个Intertangle

三个检测信号:

1. 子系统之间共享的可变字段。 一个神秘对象,有字段被多个子系统读 & 写。如果移除一个子系统的字段访问另一个子系统会中断,他们共享状态。

2. 与不相关操作一起保护的单个互斥量。 一个锁定保护音频刷新和视屏解码和播放列表获取:三个子系统,有不同的延迟配置文件,所有等待对方。臭味:不相关的操作在同一个锁定名下。

3. 在添加负载时,性能回退。 操作 A 的延迟在操作 B 运行时并发时增加,即使 A & B 似乎独立。他们不是独立的:他们共享状态。

Phase-Snapshot Fix

Phase snapshot pattern:

# BEFORE: 子系统直接读写共享状态
class GameWorld:
    position = {}  # 共享可变
    velocity = {}  # 共享可变

def physics_tick(world):
    for entity in world.entities:
        world.position[entity] += world.velocity[entity]  # writes shared state mid-loop
# AFTER: snapshot frozen before phase; writes go to next_state buffer
def physics_tick(world):
    snapshot = world.freeze()  # immutable view
    next_state = {}
    for entity in snapshot.entities:
        next_state[entity] = snapshot.position[entity] + snapshot.velocity[entity]
    world.merge(next_state)  # atomic merge at phase boundary

每个子系统都读取快照。没有子系统会写入快照。写操作在缓冲区中累积,在阶段边界上原子合并。子系统现在独立执行:没有锁定争用,不存在顺序依赖,也没有隐藏的耦合。

应用修复

一支团队报告了一个缺陷:他们的游戏引擎的动画系统和碰撞系统都写入一个共享的实体变换对象。当它们在同一个tick中运行时,碰撞结果取决于动画是否首先运行。添加了互斥量解决了顺序问题,但现在动画会在碰撞运行广泛扫描时被阻塞。

命名缺陷类。解释为什么添加互斥量不是修复方法。描述结构修复。