动力学[∞] | 从化学反应到基因调控

质量作用定律 (Mass-Action Law)、Michaelis-Menten 模型、Hill 方程、基因调控网络

随想

模型

质量作用定律 (Mass-Action Law)

对于一部分“性质良好”的化学反应：

a\mathrm A+b\mathrm B \xrightarrow{k} c\mathrm C+d\mathrm D

各物质的产率（某种分子 M 的浓度 [M] 对时间的导数）正比于自己的化学计量数，正比于每种反应物的化学计量数次幂，符号取决于 M 位于反应物还是生成物一侧：

\frac{1}{a}\frac{\mathrm d[\mathrm A]}{\mathrm dt}=- k [\mathrm A]^a [\mathrm B]^b

\frac{1}{b}\frac{\mathrm d[\mathrm B]}{\mathrm dt}=- k [\mathrm A]^a [\mathrm B]^b

\frac{1}{c}\frac{\mathrm d[\mathrm C]}{\mathrm dt}=k [\mathrm A]^a [\mathrm B]^b

\frac{1}{d}\frac{\mathrm d[\mathrm D]}{\mathrm dt} = k [\mathrm A]^a [\mathrm B]^b

当然了，上式可以写成更有逼格的累加形式 $\sum_i r_i\mathrm R_i \xrightarrow{k} \sum_jp_j\mathrm P_j$ ，但我觉得不直观，没必要。

可逆的化学反应

a\mathrm A+b\mathrm B \xrightleftharpoons[k_r]{k_f} c\mathrm C+d\mathrm D

可以看作把两个方向的反应速率带正负号相加：

\frac{1}{a}\frac{\mathrm d[\mathrm A]}{\mathrm dt}=- k_f [\mathrm A]^a [\mathrm B]^b + k_r [\mathrm C]^c [\mathrm D]^d

\frac{1}{b}\frac{\mathrm d[\mathrm B]}{\mathrm dt} = - k_f [\mathrm A]^a [\mathrm B]^b + k_r [\mathrm C]^c [\mathrm D]^d

\frac{1}{c}\frac{\mathrm d[\mathrm C]}{\mathrm dt} = k_f [\mathrm A]^a [\mathrm B]^b - k_r [\mathrm C]^c [\mathrm D]^d

\frac{1}{d}\frac{\mathrm d[\mathrm D]}{\mathrm dt} = k_f [\mathrm A]^a [\mathrm B]^b - k_r [\mathrm C]^c [\mathrm D]^d

我上高中时化学课里的平衡常数，就来自上述动力学系统的驻点。

Michaelis-Menten 模型

考虑酶 E (enzyme) 和基底 S (substrate) 可逆地结合成复合体 ES，活化的复合体不可逆地生成产物 P (product)：

\mathrm E + \mathrm S \xrightleftharpoons[k_-]{k_+} \mathrm{ES} \xrightarrow{k_{cat}} \mathrm E + \mathrm P

可以写出各物质的反应速率：

\begin{array}{rcl} \mathrm d[\mathrm S] / \mathrm dt & = & k_- [\mathrm{ES}] - k_+ [\mathrm E] [\mathrm S] \\ \mathrm d[\mathrm E] / \mathrm dt & = & k_- [\mathrm{ES}] + k_{cat}[\mathrm{ES}] - k_+ [\mathrm E][\mathrm S] \\ \mathrm d[\mathrm{ES}] / \mathrm dt & = & k_+[\mathrm E][\mathrm S] - k_- [\mathrm{ES}] - k_{cat}[\mathrm{ES}] \\ \mathrm d[\mathrm P] / \mathrm dt & = & k_{cat}[\mathrm{ES}] \end{array}

其中自然包含了“酶在反应前后质量不变”的事实： $\frac{\mathrm d[\mathrm E]}{\mathrm dt} + \frac{\mathrm d[\mathrm{ES}]}{\mathrm dt} = 0$

我们把自由和结合状态的酶的总浓度叫做 $E_T \equiv [\mathrm E]+[\mathrm{ES}]$ ，这是我们在反应开始时可以控制的投料量，也是后面要用到的参数。

而 Michaelis 和 Menten 又额外添加了一个更强的约束：我们考虑整个反应“稳定”时的产出，也就是酶和底物的结合-分离处于稳态 (steady state) 时： $\mathrm d[\mathrm{ES}]/\mathrm dt = 0$

k_+[\mathrm E][\mathrm S] - k_- [\mathrm{ES}] - k_{cat}[\mathrm{ES}] = 0

可以用底物浓度和酶的投入量表示稳态时的酶-底物复合体的稳态浓度：

[\mathrm{ES}]_{ss} = \frac{k_+ E_T [\mathrm S]}{k_- + k_{cat}+k_+[\mathrm{S}]}

我们感兴趣的是此时产物 P 的生产速率：

v= \frac{\mathrm d[\mathrm P]}{\mathrm dt} = k_{cat}[\mathrm{ES}]_{ss} = \frac{k_{cat}E_T[\mathrm S]}{\frac{k_- + k_{cat}}{k_+}+[\mathrm S]} = \frac{V_{max}[\mathrm S]}{K_m+[\mathrm S]}

Hill 方程

从数学上讲，Hill 方程比 Michaelis-Menten 模型更普遍，M-M 的产物速率是 Hill 方程中 Hill 系数的一种取值下的特例；

从实验上讲，反而是 Hill 方程可以从比 Michaelis-Menten 更特殊的酶促反应里“推导”出来：考虑一个有 n 个转录因子结合位点的基因，在转录因子的调控下转录成 mRNA 分子，后者翻译成蛋白质。S 表示转录因子， $P_i$ 表示有 i 个位点被结合的基因：

n\mathrm S + \mathrm P_0 \xrightleftharpoons[k_-]{k_+} \mathrm P_n

各种分子的反应速率：

\begin{array}{rcl} (1/n) (\mathrm d[\mathrm S]/\mathrm dt) & = & -k_+[\mathrm S]^n[\mathrm P_0] + k_-[\mathrm P_n] \\ \mathrm d[\mathrm P_0]/\mathrm dt & = & -k_+[\mathrm S]^n[\mathrm P_0] + k_-[\mathrm P_n] \\ \mathrm d[\mathrm P_n]/\mathrm dt & = & k_+[\mathrm S]^n[\mathrm P_0] - k_-[\mathrm P_n] \end{array}

在化学平衡状态下，平衡常数 $Q=\frac{[\mathrm P_n]}{[\mathrm P_0][\mathrm S]^n}=\frac{k_+}{k_-}$

此时转录因子结合位点被占用的比例 O (occupancy):

O=\frac{n[\mathrm P_n]}{n([\mathrm P_0]+[\mathrm P_n])}=\frac{1}{1+[\mathrm P_0]/[\mathrm P_n]}=\frac{1}{1+(K_A/[\mathrm S_{active}])^n}

其中 $\mathrm S_{active}$ 是化学平衡时没有结合到 DNA 上的游离转录因子， $K_A$ 是从平衡常数和速率系数凑出来的参数，n 叫做 Hill 系数 (Hill coefficient)。

当转录因子是激活型 U (up-regulating)，也就是会调高基因表达水平时，我们认为下游表达产物的生产速率正比于结合位点的占用比例 O，用一个新参数 $v_{max}$ 写成等式：

v=v_{max}\cdot\frac{[\mathrm U_{active}]^n}{(K_A)^n+[\mathrm U_{active}]^n}

当转录因子是抑制型的 D (down-regulating)，也就是会降低基因表达水平时，我们认为下游表达产物的生产速率正比于结合位点未被占用的比例 (1 - O)，用一个新参数 $v_{max}$ 写成等式：

v=v_{max}\cdot\frac{(K_A)^n}{(K_A)^n+[\mathrm D_{active}]^n}

两者可以统一成 $v=v_{max}\frac{1}{1+(K_A/[\mathrm S_{active}])^n}$ ，其中 n > 0 表示激活型，n < 0 表示抑制型。

从数学上讲，Michaelis-Menten 模型相当于 Hill 系数 n = +1 的情况。（微观上，并不能说“M-M 是无协同性的 Hill 机制”）

基因调控网络

DNA 转录成 mRNA 分子，mRNA 翻译成蛋白质分子，整个过程经过上面的假设和近似以后，可以封装掉生物学细节，将一个基因视作调控网络中的一个节点 (node, vertex)。

而当这里的蛋白质分子的生物功能是另外某个/某些基因的调控因子时，后者的生成或降解速率函数以前者的浓度为自变量，调控和被调控节点之间的关系就表现为调控网络中的有向边 (edge)。

其中激活型的调控用尖箭头表示，抑制型的调控用平头表示。

虽说这里的基因调控网络可以包含无限多的节点，但是受限于动力学系统自身的特性，和人类对于高维空间的理解力，定量生物学往往还是要添加额外的假设和近似，把系统的自由度降低到 2 或 3。

之前写过的 ME，他的成名作就是 3 个基因前后单向抑制，构成一个循环。AH 的一个工作是在其中一个基因的下游挂 2 种成熟时间不同的荧光蛋白，用两个荧光信号的强度、方差、协方差等统计量来推测三基因网络的性质。

随想

生态学中的“功能反应”(functional response): 单个捕食者（或寄生者）在单位时间内的捕食（或寄生）数量，随猎物（或寄主）密度变化而改变的函数关系。
- 1825 Gompertz 函数: $f(t)=ae^{-be^{-ct}}$
- 1942 Monod 方程: 和 Michaelis–Menten 的形式一样，但是基于经验数据，没有理论推导。
- 1920 August Pütter, 1941 von Bertalanffy 方程: $\frac{\mathrm dL}{\mathrm da}=k(L_{\infty}-L)$
酶促反应动力学
- Reaction progress kinetic analysis
- 1901 Victor Henri: P = 0 的特殊情况就简化成 Michaelis-Menten
- 1913 Michaelis–Menten 动力学: https://en.wikipedia.org/wiki/Michaelis–Menten_kinetics
- 1910 Hill 方程
1918 Langmuir 吸收模型
- Hill contribution to Langmuir equation

由此也就可以理解，为什么演化与生态学领域不愧为数学在生物学界的第一雄关，不用考虑底层原理，受到其他任意领域的“启发”，抓几个函数过来拟合一下数据就是一篇文章，不失封侯之位，岂不美哉～

但是也能看到，所谓“考虑底层原理”的“推导”也并没有那么高尚。

对于逻辑蕴含 $p \Rightarrow q$ ，若前提不成立，则推论的对错未可知 (underdetermined)——

物理毕竟不同于数学，前面的“推导”中，每一个“考虑”“假设”“认为”“当……时”，顺着听下来没一个有问题，但听到这些之前，并没有十足的必要性来采用这些设定。

一个反面典型就是我老板，他第一年在我们系开 physics of the cell 这门课的时候，非常自信地一个一个一个结合位点地列方程：

\begin{array}{r} \mathrm S + \mathrm P_0 \xrightleftharpoons[k_1^-]{k_1^+} \mathrm P_1 \\ \mathrm S + \mathrm P_1 \xrightleftharpoons[k_2^-]{k_2^+} \mathrm P_2 \\ \vdots\ \\ \mathrm S + \mathrm P_{n-1} \xrightleftharpoons[k_n^-]{k_n^+} \mathrm P_n \end{array}

注意其中每个 $\mathrm P_0$ 分子有 n 个空闲的结合位点， $\mathrm P_1$ 有 n - 1 个……它们的化学计量数和浓度应该怎么列入微分方程，可得想仔细了。

转录因子结合位点的占用比例变成了

O=\frac{\sum_{j=0}^nj[\mathrm P_j]}{n\sum_{i=0}^n[\mathrm P_i]}

好家伙，这复杂度一下子就上来了。

然后他就卡壳了，讲不下去了……哎这节课我们就先上到这里，然后下节课乖乖把正文里那个简单模型端回来了。

~~我感觉我们系的生物物理方向没有更加繁荣昌盛这件事，他至少得定一个乙级战犯 LMAO~~

所谓物理学家的“品位”，很多语境下指的就是建模时在何处出老千的选择。

如果你之前就了解这部分内容，应该会同意本文最有品位的地方，当属 Michaelis-Menten 反应方程式最后那个单向箭头。而这种对品位的判断是一种观点，并非科学的一部分，不妄图重新发明一遍轮子很难有体会。

由此也就很好理解，第一性原理 (ab initio) 计算为什么能成为一时风潮。

管你怎么建模，只要我把还原论 (reductionism) 用到巅毫，考虑研究对象的基本组成单元相关的物理定律而非定理，算力出奇迹，上层尺度的规律应当自然地涌现出来，能避免多少过度简化把有意义的结果忽略掉的风险？

而且还很容易招生，计算机和计量金融学硕士的学费多少钱，物理博士的工资多少钱，学生赚麻了好吧。

之所以这个风潮基本上过去了 (?)，就在于计算机科学家也不都是地主家的傻儿子，计算也是讲性能优化的，把那些优化技术翻译回物理，很多时候就又回到了对模型进行基于假设的简化。搞优化，计算物理学家卷得过科班出身的程序员吗～

由此也就很好理解，机器学习/人工智能为什么能成为时下风潮。

管你怎么建模，只要我的通用函数族的参数足够多，算力出奇迹，我这一个函数包打天下一切问题，能避免多少劳而无功的风险？

现在，基于 AI 的新科学大厦已经基本建成，天边只剩下两朵乌云，一朵是合成数据集，另一朵是古德哈特定律～

本文收录于以下合集：