李雷:Alu是从猿到人调控模块发生相变的重要遗传驱动力
我们思考人类的一个终极问题:我们人类是谁?我们从哪儿来?我们到哪儿去?这一问题的前两部分更加根本,一个有客观数据支持的、理性的答案会深刻地影响到人类对自身的认识,并进而影响到人类的社会、教育、和发展。
客观回答上述终极问题的一个视角是比较物种的基因组。基于DNA序列的系统发生学研究表明,在地球上现有生物中,黑猩猩是我们最近的亲属。比较人类基因组和黑猩猩基因组(2005年版本),在全部可比对的DNA序列中,差异只有1.23%。King and Wilson博士认为巨大性状差异的解释因子应该位于占人类基因组98.5%的非编码序列中,进化和适应是在调控层面上实现的。这个假设最早是做为第一性原则提出的。几十年以来,它得到了大量的但却是孤立的例子支持。目前,还缺乏简明的量化数学模型和工具来系统地刻画这个结论。
我们从基因近端调控序列順式元件频数(Cis-regulatory element frequencies)的矩阵出发,提出了CREF双重特征模块和极化特征向量的概念,并比较了人、黑猩猩、红猩猩的CREF双重特征模块。
研究发现,在第1,2,3,6容级,调控模块都是保守的。如图1(A)所示,比较人类与黑猩猩前6对调控元件特征向量的散点图,前3对和第6对高度相关(Pearson相关系数> 0.99),表明这四个模块是保守的。相反,第4对和第5对之间的相关性较低,表明在这两个模块中发生了分化。如图1(B)所示,从猿到人,在第4和第5元件特征向量之间发生旋转。也就是说,在第4和第5个元件特征向量张成的二维特征子空间中,人类的两个特征方向相对于黑猩猩的特征方向旋转了大约28°。图1(C)展示了人类的前6个奇异值的样本分布(从右到左,由密度函数表示),样本分布是从包含80%的順式元件的100个随机子矩阵中获得的。前3个奇异值的样本分布与相邻奇异值的样本分布是完全分开的,而第4个和第5个奇异值的样本分布有很大一部分重叠,这表明历史上可能存在融合事件,即出现了二维退化特征空间。
图2.(A)在人类和黑猩猩的前6个极化基因特征向量的两极,基因富集的生物过程。
用不同颜色标记的每个框的两端,对应一个极化基因特征向量的两极。从上到下,6个极化基因特征向量按照奇异值的降序排列。前3个和第6个基因特征向量的富集结果保守,因此仅显示了人类的结果。人类和黑猩猩在第4和第5特征向量之间出现显着差异。突触可塑性的调控、社交行为、耳蜗发育、视觉学习和长期记忆的GO类别在人的第4个基因特征向量的两极得到了显著富集,而一个重要发现是在第4、5容级之间,调控模块发生了相变。这在数学上对应着相等特征值带来的特征空间退化现象。这一相变产生了人类特有的第4容级模块,如图2所示,它调控长期记忆、以耳蜗发育为核心的语言功能,以视觉为基础的认知学习功能、社交行为、以及副交感神经系统。
图3. 上图:比较黑猩猩和人,在每个极化元件特征向量两极的MPA(ALU携带的順式调控元件)个数的相对百分比变化。下图: 在人类第4容级的顺式调控模块中,SP1是一个新增的MPA,它与若干重要的调控认知的因子有交互作用。
通过本课题组原创的双重特征分析方法,我们发现推动这一基因组相变的重要驱动力之一是与ALU转座子相关的变异。ALU携带的順式调控元件(MPA)是认识这个现象的重要线索。在图3中,我们比较黑猩猩和人在每个极化元件特征向量两极的MPA个数的相对百分比变化。MPA数量在人类的第4级增加最为明显,增加了27.9%。
人类特有的转座子插入约占基因组的4.7%。我们报道了47个人类特有的插入在近端调控区域的Alu转座子。这些调控区域对应的基因大都与长期记忆、认知、语言、学习、外观形态有关。
我们认为,上述发现给出了终极问题的部分答案。这个工作发表在Molecular Biology and Evolution,2020 Jun 1;37(6):1679-1693. doi:10.1093/molbev/msaa036。研究获得了以下基金资助:中国科学院国家数学与交叉科学中心基金;中国科学院战略性先导科技专项基金(B类(XDB13040600);中国科学院系统控制重点实验室基金;国家自然科学基金(11871462,91530105)。
评论排行