模型
质量作用定律 (Mass-Action Law)
对于一部分“性质良好”的化学反应:
aA+bBkcC+dD
各物质的产率(某种分子 M 的浓度 [M] 对时间的导数)正比于自己的化学计量数,正比于每种反应物的化学计量数次幂,符号取决于 M 位于反应物还是生成物一侧:
a1dtd[A]=−k[A]a[B]b
b1dtd[B]=−k[A]a[B]b
c1dtd[C]=k[A]a[B]b
d1dtd[D]=k[A]a[B]b
当然了,上式可以写成更有逼格的累加形式 ∑iriRik∑jpjPj,但我觉得不直观,没必要。
可逆的化学反应
aA+bBkfkrcC+dD
可以看作把两个方向的反应速率带正负号相加:
a1dtd[A]=−kf[A]a[B]b+kr[C]c[D]d
b1dtd[B]=−kf[A]a[B]b+kr[C]c[D]d
c1dtd[C]=kf[A]a[B]b−kr[C]c[D]d
d1dtd[D]=kf[A]a[B]b−kr[C]c[D]d
我上高中时化学课里的平衡常数,就来自上述动力学系统的驻点。
Michaelis-Menten 模型
考虑酶 E (enzyme) 和基底 S (substrate) 可逆地结合成复合体 ES,活化的复合体不可逆地生成产物 P (product):
E+Sk+k−ESkcatE+P
可以写出各物质的反应速率:
d[S]/dtd[E]/dtd[ES]/dtd[P]/dt====k−[ES]−k+[E][S]k−[ES]+kcat[ES]−k+[E][S]k+[E][S]−k−[ES]−kcat[ES]kcat[ES]
其中自然包含了“酶在反应前后质量不变”的事实:dtd[E]+dtd[ES]=0
我们把自由和结合状态的酶的总浓度叫做 ET≡[E]+[ES],这是我们在反应开始时可以控制的投料量,也是后面要用到的参数。
而 Michaelis 和 Menten 又额外添加了一个更强的约束:我们考虑整个反应“稳定”时的产出,也就是酶和底物的结合-分离处于稳态 (steady state) 时:d[ES]/dt=0
k+[E][S]−k−[ES]−kcat[ES]=0
可以用底物浓度和酶的投入量表示稳态时的酶-底物复合体的稳态浓度:
[ES]ss=k−+kcat+k+[S]k+ET[S]
我们感兴趣的是此时产物 P 的生产速率:
v=dtd[P]=kcat[ES]ss=k+k−+kcat+[S]kcatET[S]=Km+[S]Vmax[S]
Hill 方程
从数学上讲,Hill 方程比 Michaelis-Menten 模型更普遍,M-M 的产物速率是 Hill 方程中 Hill 系数的一种取值下的特例;
从实验上讲,反而是 Hill 方程可以从比 Michaelis-Menten 更特殊的酶促反应里“推导”出来:考虑一个有 n 个转录因子结合位点的基因,在转录因子的调控下转录成 mRNA 分子,后者翻译成蛋白质。S 表示转录因子,Pi 表示有 i 个位点被结合的基因:
nS+P0k+k−Pn
各种分子的反应速率:
(1/n)(d[S]/dt)d[P0]/dtd[Pn]/dt===−k+[S]n[P0]+k−[Pn]−k+[S]n[P0]+k−[Pn]k+[S]n[P0]−k−[Pn]
在化学平衡状态下,平衡常数 Q=[P0][S]n[Pn]=k−k+
此时转录因子结合位点被占用的比例 O (occupancy):
O=n([P0]+[Pn])n[Pn]=1+[P0]/[Pn]1=1+(KA/[Sactive])n1
其中 Sactive 是化学平衡时没有结合到 DNA 上的游离转录因子,KA 是从平衡常数和速率系数凑出来的参数,n 叫做 Hill 系数 (Hill coefficient)。
当转录因子是激活型 U (up-regulating),也就是会调高基因表达水平时,我们认为下游表达产物的生产速率正比于结合位点的占用比例 O,用一个新参数 vmax 写成等式:
v=vmax⋅(KA)n+[Uactive]n[Uactive]n
当转录因子是抑制型的 D (down-regulating),也就是会降低基因表达水平时,我们认为下游表达产物的生产速率正比于结合位点未被占用的比例 (1 - O),用一个新参数 vmax 写成等式:
v=vmax⋅(KA)n+[Dactive]n(KA)n
两者可以统一成 v=vmax1+(KA/[Sactive])n1,其中 n > 0 表示激活型,n < 0 表示抑制型。
从数学上讲,Michaelis-Menten 模型相当于 Hill 系数 n = +1 的情况。(微观上,并不能说“M-M 是无协同性的 Hill 机制”)
基因调控网络
DNA 转录成 mRNA 分子,mRNA 翻译成蛋白质分子,整个过程经过上面的假设和近似以后,可以封装掉生物学细节,将一个基因视作调控网络中的一个节点 (node, vertex)。
而当这里的蛋白质分子的生物功能是另外某个/某些基因的调控因子时,后者的生成或降解速率函数以前者的浓度为自变量,调控和被调控节点之间的关系就表现为调控网络中的有向边 (edge)。
其中激活型的调控用尖箭头表示,抑制型的调控用平头表示。
虽说这里的基因调控网络可以包含无限多的节点,但是受限于动力学系统自身的特性,和人类对于高维空间的理解力,定量生物学往往还是要添加额外的假设和近似,把系统的自由度降低到 2 或 3。
之前写过的 ME,他的成名作就是 3 个基因前后单向抑制,构成一个循环。AH 的一个工作是在其中一个基因的下游挂 2 种成熟时间不同的荧光蛋白,用两个荧光信号的强度、方差、协方差等统计量来推测三基因网络的性质。
随想
由此也就可以理解,为什么演化与生态学领域不愧为数学在生物学界的第一雄关,不用考虑底层原理,受到其他任意领域的“启发”,抓几个函数过来拟合一下数据就是一篇文章,不失封侯之位,岂不美哉~
但是也能看到,所谓“考虑底层原理”的“推导”也并没有那么高尚。
对于逻辑蕴含 p⇒q,若前提不成立,则推论的对错未可知 (underdetermined)——
物理毕竟不同于数学,前面的“推导”中,每一个“考虑”“假设”“认为”“当……时”,顺着听下来没一个有问题,但听到这些之前,并没有十足的必要性来采用这些设定。
一个反面典型就是我老板,他第一年在我们系开 physics of the cell 这门课的时候,非常自信地一个一个一个结合位点地列方程:
S+P0k1+k1−P1S+P1k2+k2−P2⋮ S+Pn−1kn+kn−Pn
注意其中每个 P0 分子有 n 个空闲的结合位点,P1 有 n - 1 个……它们的化学计量数和浓度应该怎么列入微分方程,可得想仔细了。
转录因子结合位点的占用比例变成了
O=n∑i=0n[Pi]∑j=0nj[Pj]
好家伙,这复杂度一下子就上来了。
然后他就卡壳了,讲不下去了……哎这节课我们就先上到这里,然后下节课乖乖把正文里那个简单模型端回来了。
我感觉我们系的生物物理方向没有更加繁荣昌盛这件事,他至少得定一个乙级战犯 LMAO
所谓物理学家的“品位”,很多语境下指的就是建模时在何处出老千的选择。
如果你之前就了解这部分内容,应该会同意本文最有品位的地方,当属 Michaelis-Menten 反应方程式最后那个单向箭头。而这种对品位的判断是一种观点,并非科学的一部分,不妄图重新发明一遍轮子很难有体会。
由此也就很好理解,第一性原理 (ab initio) 计算为什么能成为一时风潮。
管你怎么建模,只要我把还原论 (reductionism) 用到巅毫,考虑研究对象的基本组成单元相关的物理定律而非定理,算力出奇迹,上层尺度的规律应当自然地涌现出来,能避免多少过度简化把有意义的结果忽略掉的风险?
而且还很容易招生,计算机和计量金融学硕士的学费多少钱,物理博士的工资多少钱,学生赚麻了好吧。
之所以这个风潮基本上过去了 (?),就在于计算机科学家也不都是地主家的傻儿子,计算也是讲性能优化的,把那些优化技术翻译回物理,很多时候就又回到了对模型进行基于假设的简化。搞优化,计算物理学家卷得过科班出身的程序员吗~
由此也就很好理解,机器学习/人工智能为什么能成为时下风潮。
管你怎么建模,只要我的通用函数族的参数足够多,算力出奇迹,我这一个函数包打天下一切问题,能避免多少劳而无功的风险?
现在,基于 AI 的新科学大厦已经基本建成,天边只剩下两朵乌云,一朵是合成数据集,另一朵是古德哈特定律~