质量作用定律 (Mass-Action Law)、Michaelis-Menten 模型、Hill 方程、基因调控网络

模型

质量作用定律 (Mass-Action Law)

对于一部分“性质良好”的化学反应:

aA+bBkcC+dDa\mathrm A+b\mathrm B \xrightarrow{k} c\mathrm C+d\mathrm D

各物质的产率(某种分子 M 的浓度 [M] 对时间的导数)正比于自己的化学计量数,正比于每种反应物的化学计量数次幂,符号取决于 M 位于反应物还是生成物一侧:

1ad[A]dt=k[A]a[B]b\frac{1}{a}\frac{\mathrm d[\mathrm A]}{\mathrm dt}=- k [\mathrm A]^a [\mathrm B]^b 1bd[B]dt=k[A]a[B]b\frac{1}{b}\frac{\mathrm d[\mathrm B]}{\mathrm dt}=- k [\mathrm A]^a [\mathrm B]^b 1cd[C]dt=k[A]a[B]b\frac{1}{c}\frac{\mathrm d[\mathrm C]}{\mathrm dt}=k [\mathrm A]^a [\mathrm B]^b 1dd[D]dt=k[A]a[B]b\frac{1}{d}\frac{\mathrm d[\mathrm D]}{\mathrm dt} = k [\mathrm A]^a [\mathrm B]^b

当然了,上式可以写成更有逼格的累加形式 iriRikjpjPj\sum_i r_i\mathrm R_i \xrightarrow{k} \sum_jp_j\mathrm P_j,但我觉得不直观,没必要。

可逆的化学反应

aA+bBkrkfcC+dDa\mathrm A+b\mathrm B \xrightleftharpoons[k_r]{k_f} c\mathrm C+d\mathrm D

可以看作把两个方向的反应速率带正负号相加:

1ad[A]dt=kf[A]a[B]b+kr[C]c[D]d\frac{1}{a}\frac{\mathrm d[\mathrm A]}{\mathrm dt}=- k_f [\mathrm A]^a [\mathrm B]^b + k_r [\mathrm C]^c [\mathrm D]^d 1bd[B]dt=kf[A]a[B]b+kr[C]c[D]d\frac{1}{b}\frac{\mathrm d[\mathrm B]}{\mathrm dt} = - k_f [\mathrm A]^a [\mathrm B]^b + k_r [\mathrm C]^c [\mathrm D]^d 1cd[C]dt=kf[A]a[B]bkr[C]c[D]d\frac{1}{c}\frac{\mathrm d[\mathrm C]}{\mathrm dt} = k_f [\mathrm A]^a [\mathrm B]^b - k_r [\mathrm C]^c [\mathrm D]^d 1dd[D]dt=kf[A]a[B]bkr[C]c[D]d\frac{1}{d}\frac{\mathrm d[\mathrm D]}{\mathrm dt} = k_f [\mathrm A]^a [\mathrm B]^b - k_r [\mathrm C]^c [\mathrm D]^d

我上高中时化学课里的平衡常数,就来自上述动力学系统的驻点。

Michaelis-Menten 模型

考虑酶 E (enzyme) 和基底 S (substrate) 可逆地结合成复合体 ES,活化的复合体不可逆地生成产物 P (product):

E+Skk+ESkcatE+P\mathrm E + \mathrm S \xrightleftharpoons[k_-]{k_+} \mathrm{ES} \xrightarrow{k_{cat}} \mathrm E + \mathrm P

可以写出各物质的反应速率:

d[S]/dt=k[ES]k+[E][S]d[E]/dt=k[ES]+kcat[ES]k+[E][S]d[ES]/dt=k+[E][S]k[ES]kcat[ES]d[P]/dt=kcat[ES]\begin{array}{rcl} \mathrm d[\mathrm S] / \mathrm dt & = & k_- [\mathrm{ES}] - k_+ [\mathrm E] [\mathrm S] \\ \mathrm d[\mathrm E] / \mathrm dt & = & k_- [\mathrm{ES}] + k_{cat}[\mathrm{ES}] - k_+ [\mathrm E][\mathrm S] \\ \mathrm d[\mathrm{ES}] / \mathrm dt & = & k_+[\mathrm E][\mathrm S] - k_- [\mathrm{ES}] - k_{cat}[\mathrm{ES}] \\ \mathrm d[\mathrm P] / \mathrm dt & = & k_{cat}[\mathrm{ES}] \end{array}

其中自然包含了“酶在反应前后质量不变”的事实:d[E]dt+d[ES]dt=0\frac{\mathrm d[\mathrm E]}{\mathrm dt} + \frac{\mathrm d[\mathrm{ES}]}{\mathrm dt} = 0

我们把自由和结合状态的酶的总浓度叫做 ET[E]+[ES]E_T \equiv [\mathrm E]+[\mathrm{ES}],这是我们在反应开始时可以控制的投料量,也是后面要用到的参数。

而 Michaelis 和 Menten 又额外添加了一个更强的约束:我们考虑整个反应“稳定”时的产出,也就是酶和底物的结合-分离处于稳态 (steady state) 时:d[ES]/dt=0\mathrm d[\mathrm{ES}]/\mathrm dt = 0

k+[E][S]k[ES]kcat[ES]=0k_+[\mathrm E][\mathrm S] - k_- [\mathrm{ES}] - k_{cat}[\mathrm{ES}] = 0

可以用底物浓度和酶的投入量表示稳态时的酶-底物复合体的稳态浓度:

[ES]ss=k+ET[S]k+kcat+k+[S][\mathrm{ES}]_{ss} = \frac{k_+ E_T [\mathrm S]}{k_- + k_{cat}+k_+[\mathrm{S}]}

我们感兴趣的是此时产物 P 的生产速率:

v=d[P]dt=kcat[ES]ss=kcatET[S]k+kcatk++[S]=Vmax[S]Km+[S]v= \frac{\mathrm d[\mathrm P]}{\mathrm dt} = k_{cat}[\mathrm{ES}]_{ss} = \frac{k_{cat}E_T[\mathrm S]}{\frac{k_- + k_{cat}}{k_+}+[\mathrm S]} = \frac{V_{max}[\mathrm S]}{K_m+[\mathrm S]}

Hill 方程

从数学上讲,Hill 方程比 Michaelis-Menten 模型更普遍,M-M 的产物速率是 Hill 方程中 Hill 系数的一种取值下的特例;

从实验上讲,反而是 Hill 方程可以从比 Michaelis-Menten 更特殊的酶促反应里“推导”出来:考虑一个有 n 个转录因子结合位点的基因,在转录因子的调控下转录成 mRNA 分子,后者翻译成蛋白质。S 表示转录因子,PiP_i 表示有 i 个位点被结合的基因:

nS+P0kk+Pnn\mathrm S + \mathrm P_0 \xrightleftharpoons[k_-]{k_+} \mathrm P_n

各种分子的反应速率:

(1/n)(d[S]/dt)=k+[S]n[P0]+k[Pn]d[P0]/dt=k+[S]n[P0]+k[Pn]d[Pn]/dt=k+[S]n[P0]k[Pn]\begin{array}{rcl} (1/n) (\mathrm d[\mathrm S]/\mathrm dt) & = & -k_+[\mathrm S]^n[\mathrm P_0] + k_-[\mathrm P_n] \\ \mathrm d[\mathrm P_0]/\mathrm dt & = & -k_+[\mathrm S]^n[\mathrm P_0] + k_-[\mathrm P_n] \\ \mathrm d[\mathrm P_n]/\mathrm dt & = & k_+[\mathrm S]^n[\mathrm P_0] - k_-[\mathrm P_n] \end{array}

在化学平衡状态下,平衡常数 Q=[Pn][P0][S]n=k+kQ=\frac{[\mathrm P_n]}{[\mathrm P_0][\mathrm S]^n}=\frac{k_+}{k_-}

此时转录因子结合位点被占用的比例 O (occupancy):

O=n[Pn]n([P0]+[Pn])=11+[P0]/[Pn]=11+(KA/[Sactive])nO=\frac{n[\mathrm P_n]}{n([\mathrm P_0]+[\mathrm P_n])}=\frac{1}{1+[\mathrm P_0]/[\mathrm P_n]}=\frac{1}{1+(K_A/[\mathrm S_{active}])^n}

其中 Sactive\mathrm S_{active} 是化学平衡时没有结合到 DNA 上的游离转录因子,KAK_A 是从平衡常数和速率系数凑出来的参数,n 叫做 Hill 系数 (Hill coefficient)。

当转录因子是激活型 U (up-regulating),也就是会调高基因表达水平时,我们认为下游表达产物的生产速率正比于结合位点的占用比例 O,用一个新参数 vmaxv_{max} 写成等式:

v=vmax[Uactive]n(KA)n+[Uactive]nv=v_{max}\cdot\frac{[\mathrm U_{active}]^n}{(K_A)^n+[\mathrm U_{active}]^n}

当转录因子是抑制型的 D (down-regulating),也就是会降低基因表达水平时,我们认为下游表达产物的生产速率正比于结合位点未被占用的比例 (1 - O),用一个新参数 vmaxv_{max} 写成等式:

v=vmax(KA)n(KA)n+[Dactive]nv=v_{max}\cdot\frac{(K_A)^n}{(K_A)^n+[\mathrm D_{active}]^n}

两者可以统一成 v=vmax11+(KA/[Sactive])nv=v_{max}\frac{1}{1+(K_A/[\mathrm S_{active}])^n},其中 n > 0 表示激活型,n < 0 表示抑制型。

从数学上讲,Michaelis-Menten 模型相当于 Hill 系数 n = +1 的情况。(微观上,并不能说“M-M 是无协同性的 Hill 机制”)

基因调控网络

DNA 转录成 mRNA 分子,mRNA 翻译成蛋白质分子,整个过程经过上面的假设和近似以后,可以封装掉生物学细节,将一个基因视作调控网络中的一个节点 (node, vertex)。

而当这里的蛋白质分子的生物功能是另外某个/某些基因的调控因子时,后者的生成或降解速率函数以前者的浓度为自变量,调控和被调控节点之间的关系就表现为调控网络中的有向边 (edge)。

其中激活型的调控用尖箭头表示,抑制型的调控用平头表示。

虽说这里的基因调控网络可以包含无限多的节点,但是受限于动力学系统自身的特性,和人类对于高维空间的理解力,定量生物学往往还是要添加额外的假设和近似,把系统的自由度降低到 2 或 3。

之前写过的 ME,他的成名作就是 3 个基因前后单向抑制,构成一个循环。AH 的一个工作是在其中一个基因的下游挂 2 种成熟时间不同的荧光蛋白,用两个荧光信号的强度、方差、协方差等统计量来推测三基因网络的性质。

随想

由此也就可以理解,为什么演化与生态学领域不愧为数学在生物学界的第一雄关,不用考虑底层原理,受到其他任意领域的“启发”,抓几个函数过来拟合一下数据就是一篇文章,不失封侯之位,岂不美哉~


但是也能看到,所谓“考虑底层原理”的“推导”也并没有那么高尚。

对于逻辑蕴含 pqp \Rightarrow q,若前提不成立,则推论的对错未可知 (underdetermined)——

物理毕竟不同于数学,前面的“推导”中,每一个“考虑”“假设”“认为”“当……时”,顺着听下来没一个有问题,但听到这些之前,并没有十足的必要性来采用这些设定。

一个反面典型就是我老板,他第一年在我们系开 physics of the cell 这门课的时候,非常自信地一个一个一个结合位点地列方程:

S+P0k1k1+P1S+P1k2k2+P2 S+Pn1knkn+Pn\begin{array}{r} \mathrm S + \mathrm P_0 \xrightleftharpoons[k_1^-]{k_1^+} \mathrm P_1 \\ \mathrm S + \mathrm P_1 \xrightleftharpoons[k_2^-]{k_2^+} \mathrm P_2 \\ \vdots\ \\ \mathrm S + \mathrm P_{n-1} \xrightleftharpoons[k_n^-]{k_n^+} \mathrm P_n \end{array}

注意其中每个 P0\mathrm P_0 分子有 n 个空闲的结合位点,P1\mathrm P_1 有 n - 1 个……它们的化学计量数和浓度应该怎么列入微分方程,可得想仔细了。

转录因子结合位点的占用比例变成了

O=j=0nj[Pj]ni=0n[Pi]O=\frac{\sum_{j=0}^nj[\mathrm P_j]}{n\sum_{i=0}^n[\mathrm P_i]}

好家伙,这复杂度一下子就上来了。

然后他就卡壳了,讲不下去了……哎这节课我们就先上到这里,然后下节课乖乖把正文里那个简单模型端回来了。

我感觉我们系的生物物理方向没有更加繁荣昌盛这件事,他至少得定一个乙级战犯 LMAO

所谓物理学家的“品位”,很多语境下指的就是建模时在何处出老千的选择。

如果你之前就了解这部分内容,应该会同意本文最有品位的地方,当属 Michaelis-Menten 反应方程式最后那个单向箭头。而这种对品位的判断是一种观点,并非科学的一部分,不妄图重新发明一遍轮子很难有体会。


由此也就很好理解,第一性原理 (ab initio) 计算为什么能成为一时风潮。

管你怎么建模,只要我把还原论 (reductionism) 用到巅毫,考虑研究对象的基本组成单元相关的物理定律而非定理,算力出奇迹,上层尺度的规律应当自然地涌现出来,能避免多少过度简化把有意义的结果忽略掉的风险?

而且还很容易招生,计算机和计量金融学硕士的学费多少钱,物理博士的工资多少钱,学生赚麻了好吧。

之所以这个风潮基本上过去了 (?),就在于计算机科学家也不都是地主家的傻儿子,计算也是讲性能优化的,把那些优化技术翻译回物理,很多时候就又回到了对模型进行基于假设的简化。搞优化,计算物理学家卷得过科班出身的程序员吗~


由此也就很好理解,机器学习/人工智能为什么能成为时下风潮。

管你怎么建模,只要我的通用函数族的参数足够多,算力出奇迹,我这一个函数包打天下一切问题,能避免多少劳而无功的风险?

现在,基于 AI 的新科学大厦已经基本建成,天边只剩下两朵乌云,一朵是合成数据集,另一朵是古德哈特定律~

本文收录于以下合集: