清理一下草稿箱,以后应该会再回来补充笔记
翻译过程:
- 复制粘贴
- 按页从 PDF 文件复制粘贴到 markdown 文档
- 每页复制完之后在自然段之间添加 1 个换行
- 给引文添加
>
标记 - 有脚注的页面,将脚注复制到正文的数字标号后面,用方括号包裹起来。
- 消除行末连字符:
- vscode 查找的 regex 模式下搜索
-$
- 右击其中一处,选择 change all occurrences
- 删掉连字符和换行符
- vscode 查找的 regex 模式下搜索
- 消除自然段内的换行:vscode 查找的 regex 模式下
- 将
\n\n
替换为\n\n\n
- 搜索
\n[^\n]
,change all occurrences,删除后添加空格 - 搜索
\n
(换行+空格),change all occurrences,删除后添加换行
- 将
搞比例
基因组
- 人类基因组 2003 年公布,但直到 2022 年的一份报告,大多数人才发现,其中剩余的 8% 由于技术原因难以测序,在此之前仍未知。
- 基因组中的蛋白质编码基因
- 人类的只有 2% 左右。
- 大多数遗传学家估计它含有大约五万到十万个基因。
- (当时)其余大部分 DNA 被认为是“垃圾”
- 大约 90% 的细菌基因组是蛋白质编码。
- 对于秀丽隐杆线虫来说,这个数字是 25%。
- 人类的只有 2% 左右。
转录因子 (TF),即调节 DNA 转录为 RNA 的蛋白质。
- 编码 TF 的基因占我们编码蛋白质的基因组的 10% 以上:已知约 3,000 个。
- ENCODE 项目确定了超过 630,000 个看起来像潜在结合位点的基因组区域,约占整个人类基因组的 8%。
非编码蛋白质基因
- 人类基因组中仍有多达 20% 的非编码蛋白质基因被转录,这表明它们在某些方面是有用的。
- 在某个时刻,我们的细胞似乎转录了高达 80% 的基因组。非编码 DNA 到底有多少真正起到了作用,ENCODE 成员布拉德利·伯恩斯坦猜测 30% 可能是一个更现实的数字。
DNA 碱基的甲基化:
它几乎只发生在 C 核苷酸上,尤其是那些与 G 相邻的核苷酸,这些核苷酸被称为 C p G 片段。甲基化在我们的基因组中非常普遍,在基因组所含的 2800 万个 C p G 元素中约有 60-80% 存在。
染色质中
蛋白质含量是 DNA 的两倍(以及通常约 10% 的 RNA,主要是新生的转录链)。
DNA 单碱基替换 SNP
- 基因中的许多单碱基替换根本没有任何可观察到的影响,并且在群体中很少见。只有那些相对常见的单碱基替换(通常存在于超过 1% 的群体中)才会被授予 SNP 的地位
- 旨在将特征与基因组序列变异联系起来的 GWAS 会突出显示小于基因的 DNA 片段——通常只有一个 SNP。这些 SNP 中几乎 90% 根本不在蛋白质编码基因中,而是在它们之间的非编码 DNA 中。
- 在人类群体中看到的所有常见 SNP 中,有 62% 与身高有关,而且这些 SNP 往往出现在大多数细胞类型中活跃的染色体部分。
基因与性状
- 成千上万的遗传变异与身高有关,尽管每一个变异似乎只占人口身高差异的不到 1%。通常,如果没有成千上万的基因组序列,就无法发现这么微弱的影响。
- 智力的很大一部分是遗传的。通常这个数字在 50% 左右,尽管它会随着年龄和社会经济背景的变化而变化。
microRNA
一项估计表明,我们约 60% 的基因受 microRNA 调控。
基因的选择性剪接
- 大约 90% 的基因通过 选择性剪接 产生不止一个 mRNA。这种现象在大脑中尤为常见,但其原因尚不完全清楚。
- 大约 80% 的 选择性剪接 蛋白质是部分或 完全紊乱 的。
无序/紊乱蛋白质
- 整个人类蛋白质组中无序片段的比例为 37% 至 50%。本质上无序的蛋白质仅占许多细菌蛋白质组的 4% 左右。这种差异人类细胞实际上并不像细菌细胞那样工作。
- 多域蛋白约占我们蛋白质组的 80%。蛋白质数据库中三分之二的结构是单域的——更像细菌蛋白。同样,为什么?因为这种结构最适合用 X 射线晶体学技术来解决。
- DeepMind 团队宣布了一种名为 AlphaFold2 的蛋白质折叠算法
- 几乎预测了目前生物科学已知的所有蛋白质,超过 2 亿种,35% 被认为高度准确,另外 45% 足以作为生物学中许多研究应用的可靠指南。
- 由于许多蛋白质不会形成晶体,我们仅知道大约 50% 的人类蛋白质组(即我们所有蛋白质)的结构。其余的都是谜,有时被称为“暗蛋白质组”。AlphaFold 在这方面遇到了困难:它预测了结构,但承认对预测的“信心不足”
- 大多数候选药物(约占 85-90%)在临床试验的后期失败,通常是因为它们的效果不够好——即使它们击中了指定目标,对身体的影响也不大——或者因为它们有严重的副作用。了解蛋白质结构也无助于预测这些潜在的障碍。
DNA
结构
- 异染色质:特别致密、几乎像固体的区域
- 真染色质:更开放的
序列
- 启动子位点 (promoter site):
- 基因在其起始点附近(就读出方向而言,位于“上游”)存在序列,通常为一百到一千个碱基对长,特定蛋白质(启动子 promoter)必须与这些区域结合,RNA 聚合酶才能开始转录。
- 启动子中的许多位于具有高密度 C p G 基团的基因组序列内,启动子区域的甲基化会抑制转录。
- 增强子 (enhancers):转录发生的可能性受到其影响。增强子可能距离它们影响的基因很远——可能多达一百万个碱基对左右。此外,基因不一定有自己专用的增强子;有些基因可能共享增强子。
- 转座子 (transposons):与蛋白质编码基因相对应的区域之外,短片段 DNA 的复制十分猖獗。它们能够简单地将自身的副本随机插入基因组的其他部分(包括蛋白质编码基因内)。非正式地称为跳跃基因。65% 的人类基因组能够表现出转座子行为。
- 内含子 (intron): DNA 序列中充满了 mRNA 中没有的片段。mRNA 完全是一堆碎片,丢弃的序列(称为内含子)在 mRNA 呈现给核糖体进行翻译之前被编辑掉。
- 外显子 (exon):保留的序列称为外显子,在内含子(转录出的 mRNA 片段)被移除后重新拼接在一起。
- 操纵子 (operon):编码基因之前的一段 DNA。(Lac 的例子中位于启动子和编码基因之间)
- “抑制子”蛋白 (repressor):和操纵子位点结合的蛋白质,阻止 RNA 聚合酶从启动子向编码序列移动。
- 开放阅读框 (ORF)
- 绝缘子 (insulator): 确保只有每个基因的正确增强子才能发挥作用。
- CCCTC 结合因子,部分决定黏连蛋白“结”的这种套索式滑动能形成多大的环。
- 擅长抓住含有 CCCTC 序列的 DNA 片段——整个基因组中有成千上万个这样的序列,通常靠近基因启动子位点。
- CTCF 充当停止滑动的信号。实际上,它会让环展开以暴露正确的增强子,并让结收紧以停止滑动
- 意外:某些情况下,CTCF 似乎会激活其他增强子,而不是抑制它们。Jpx RNA 可以包括移除 CTCF 以释放结并允许染色质环重组。
操作
- DNA 甲基化往往相当稳定且寿命较长,而组蛋白标记则更短暂且不稳定。
- DNA 碱基的甲基化:基因开启或关闭的一种方式。
- 甲基化,即将甲基(带有三个氢原子的碳原子:-CH3 )附着到核苷酸碱基上。
- 哺乳动物中,它几乎只发生在 C 核苷酸上,尤其是那些与 G 相邻的核苷酸,这些核苷酸被称为 C p G 片段。
- 基因组所含的 2800 万个 C p G 元素中约有 60-80% 存在。
- 基因编码部分的甲基化可以促进转录,而启动子区域的甲基化会抑制转录。
- 当甲基化的 DNA 在细胞分裂中复制时,表观遗传标记也会被复制。
- 将化学标记放在染色体中双螺旋所缠绕的组蛋白上:甲基、磷酰基、乙酰基和泛素基
- 组蛋白的表观遗传乙酰化会削弱带负电荷的 DNA 和蛋白质表面带正电荷的化学基团之间的吸引
- 组蛋白中去除乙酰基可以触发染色质的压缩。
RNA
结构
mRNA
信使 RNAhnRNA
异质核 RNA:真核细胞中,转录的 RNA 似乎比以 mRNA 形式输出到细胞核外供核糖体翻译的 RNA 多得多。hnRNA 的某些部分被剪掉并缝合在一起形成了 mRNAncRNA
非编码 RNA:编码特指编码蛋白质。lncRNA
功能性长链非编码 RNA (“长”是指超过 200 个核苷酸)主要用于沉默其中一个等位基因- 大约 90% 的细菌基因组是蛋白质编码。
- 对于秀丽隐杆线虫来说,这个数字是 25%。
- 对于人类来说,最多只有 2%。
microRNA
微小 RNA:在调控基因、提高或降低基因表达方面发挥着多种重要作用。- 约 60% 的基因受 microRNA 调控。
- 干细胞多能状态基因似乎激活了名为 Let-7 家族的 microRNA 家族的表达。microRNA 的作用是尽快引导分化细胞进入新状态,方法是靶向结合干细胞产生的 mRNA 并加速它们的拆除。 这就是 microRNA 可以充当肿瘤抑制因子的原因
piRNA
Piwi 相互作用 RNA:与所谓的 Piwi 蛋白协作,参与沉默错误的转座子。snoRNA
小核仁 RNA:可操纵和指导其他 RNA 分子的化学修饰,例如核糖体中的 RNA 或将氨基酸运送到核糖体以缝合成蛋白质的“转移 RNA”分子。tRNA
转运 RNA
操作/过程
- 转录并不局限于那一小部分“有意义的”DNA。相反,在某个时刻,我们的细胞似乎转录了高达 80% 的基因组。仅仅因为一段 DNA 被转录,就认为它一定具有生化功能是不够的。
- 转录干扰 (transcriptional interference):干扰 DNA 与 目标基因的启动子区域重叠,因此如果干扰 DNA 被转录,RNA 聚合酶就太忙了,无法对目标基因进行处理。重要的不是干扰 DNA 的转录产物本身,而是制造它的过程造成的干扰效应
- 甲基化,即将甲基(带有三个氢原子的碳原子:-CH3 )附着到核苷酸碱基上。
- 多聚腺苷酸化 (polyadenylation),
- 控制 RNA 群的化学修饰,附加一种由一串 A 核苷酸组成的尾巴或标签
- 似乎对于确保 mRNA 被运送出细胞核并在那里被翻译成蛋白质很重要。
- 影响 mRNA 的稳定性和寿命,充当一种保质期:poly(A) 尾巴会随着时间的推移而缩短,如果它变得太短,分子就会被酶分解。
蛋白质
- 连接子 (connexons):细胞通过所谓的间隙连接进行电通信,细胞膜彼此相邻,将它们连接在一起的蛋白质通道。
性别
卵子中来自母亲的染色体版本称为 X,而精子中来自父亲的染色体版本则是另一个 X 或 Y。如果是前者,胚胎有两个 X,通常会成为解剖学上的女性;如果是后者,胚胎是 XY,通常会成为解剖学上的男性。
Y 染色体上的一个基因,称为 SRY(Y 染色体的性别决定区),引导发育成为男性。如果没有它,X 染色体将默认产生女性解剖结构。
女性体内的每个细胞都会将其两条 X 染色体中的一条全部停用。玛丽·里昂 (Mary Lyon) 提出,雌性身体中的每个细胞都会随机决定关闭两条 X 染色体中的哪一条。
本文收录于以下合集: