Cell：无序即信息？NARDINI+算法量化连接IDR序列与细胞功能

2025-05-01 16:06:26 100医药网

从混沌到语法：为蛋白质的无序建立一部词典

如果把蛋白质看作是一篇文章，那么氨基酸就是构成文章的20个字母。对于有固定结构的蛋白质来说，这些字母需要排列组合成特定的单词（如 -螺旋、 -折叠），再进一步构筑成完整的句子和段落（即三维结构），从而表达清晰的意义（即功能）。但IDRs却像是一段段看似杂乱无章的字母流，我们如何从中读出意义？

传统方法往往力不从心。研究人员意识到，必须超越对单一结构的依赖，转而从序列本身寻找规律。他们认为，IDRs的功能密码就隐藏在其氨基酸序列的学特征和排列模式之中。这，就是分子语法的核心思想。

为了破解这套语法，研究团队开发了一款名为NARDINI+的创新算法。这个算法不关心IDR 长什么样，而是专注于它是由什么构成的以及它们是如何排列的。具体来说，NARDINI+对任何一段IDR序列进行两个层面的深度剖析：

1. 成分分析（Compositional analysis）：这就像是分析一篇文章的用词习惯。NARDINI+会计算IDR中20种氨基酸各自的比例、带正电/负电/疏水/极性等不同类型氨基酸的比例，以及由此衍生的净电荷、疏水性等54项成分特征。例如，一段IDR是富含带正电的精氨酸（Arginine, R），还是偏爱带负电的谷氨酸（Glutamate, E）？

2. 模式分析（Patterning analysis）：这好比是分析文章的句式结构。同样的词汇，不同的排列方式会产生截然不同的效果。我爱你和你爱我意义迥异。NARDINI+通过计算36种不同的模式特征，来量化不同类型氨基酸在线性序列上的分布模式。它们是均匀混合（well-mixed）的，还是各自扎堆成块（blocky）？例如，一段序列中的正电荷和负电荷是交错分布，形成电荷中性的盐桥网络，还是正电荷聚集在一端，负电荷聚集在另一端，形成一个偶极子？

通过这90个维度的量化描述，NARDINI+将每一条模糊的IDR序列，转化成一个精确的90维 Z分数向量（Z-score vector, ZSV）。这个向量就像是这条IDR的语法指纹，独一无二地记录了它的序列特性。

有了这个强大的语法解码器，研究人员开启了一项雄心勃勃的工程：对整个人类蛋白质组中所有预测的IDRs：一个包含24,508个序列的庞大集合，也被称为人类IDRome ，进行全面的语法分析。他们将所有IDRs的语法指纹输入一个无监督学习模型（K-means聚类），让计算机自动地对这些指纹进行分类。

结果令人振奋。计算机发现，这些看似千差万别的IDRs，其语法可以被归纳为30种主要的类型。研究人员将这30个类别命名为 GIN簇（GIN clusters）。每一个GIN簇都代表了一种独特的分子语法，拥有其标志性的氨基酸成分和排列模式。例如，GIN簇7的语法特征是富含D/E氨基酸残基，形成酸性长链（D/E-tracts）；GIN簇23的语法核心则是富含K氨基酸，形成赖氨酸区块（K blocks）；而GIN簇11则以Q氨基酸串联（Q-tracts）为代表。

至此，研究人员成功地为人类蛋白质组的无序世界，构建了第一部语法词典：GIN资源库。这30个GIN簇，如同30个词性或句式，为我们理解IDRs的功能提供了一个全新的框架。现在，真正激动人心的问题来了：这本语法书真的能帮助我们阅读蛋白质的功能吗？

蛋白质的 GPS密码：序列语法如何决定细胞住址？

细胞是一个高度组织化的微缩城市，蛋白质需要在正确的时间出现在正确的地点，才能履行职责。这种精确的亚细胞定位（subcellular localization）是如何实现的？研究表明，IDRs在其中扮演着重要的导航员角色。那么，不同的分子语法是否对应着不同的细胞地址呢？

利用GIN资源库和人类蛋白质图谱（Human Protein Atlas）数据库，研究人员进行了一次大规模的数据关联分析。他们发现，特定的GIN簇与特定的亚细胞定位之间存在着惊人的强相关性。特别是在细胞核这个中央司令部内，语法的导向作用表现得淋漓尽致。

核仁（Nucleolus）的入场券：数据显示，GIN簇23，即以赖氨酸（K）区块为特征的语法，在定位于核仁的蛋白质中显著富集。核仁是细胞内核糖体（ribosome）的组装工厂，许多参与其中的蛋白质都佩戴着这张由 K区块构成的特殊工牌。

核斑（Nuclear speckles）的通行证：与此不同，GIN簇26，以精氨酸（R）斑块为特征的语法，则在定位于核斑的蛋白质中高度集中。核斑是mRNA剪接（splicing）因子储存和修饰的仓库，这些蛋白质似乎凭借 R斑块这张通行证进出其中。

这种关联性是真实的因果关系，还仅仅是巧合？为了回答这个问题，研究人员设计了一系列巧妙的活细胞实验。他们选择了非洲爪蟾（Xenopus laevis）的卵母细胞作为实验系统，其巨大的细胞核为观察蛋白质定位提供了绝佳的窗口。

他们挑选了几种定位尚不明确，但其IDR分别属于GIN簇23和GIN簇26的蛋白质，将它们与绿色荧光蛋白（GFP）融合，然后将其mRNA注入卵母细胞核中。结果正如预测的那样：所有携带GIN簇23 IDR的蛋白质，无一例外地聚集到了核仁中；而所有携带GIN簇26 IDR的蛋白质，则精确地靶向了核斑。这为语法决定定位提供了直接的视觉证据。

更具说服力的实验来自于一个结构域交换（domain swap）实验。研究人员选择了GPatch3和GPatch4这两个蛋白质，它们都含有一个结构相似的折叠结构域（GPatch domain），但其IDR的语法却截然不同：GPatch3的IDR属于一个较弱的簇19，而GPatch4的IDR则属于特征鲜明的簇23。实验发现，GPatch4能高效地进入核仁，而GPatch3则不能。

接下来是关键一步：他们将GPatch3的折叠域换成GPatch4的，同时保留其原来的簇19 IDR。反之，也将GPatch4的折叠域换成GPatch3的，保留其簇23 IDR。如果定位是由折叠域决定的，那么交换后，原来的GPatch3应该会进入核仁。但实验结果恰恰相反：无论与哪个折叠域相连，只要蛋白质携带的是簇23的IDR，它就能进入核仁；反之则不能。

这个实验有力地证明，在这些例子中，真正决定蛋白质去哪里的，不是那个结构规整的折叠域，而是那段看似杂乱的IDR的分子语法。这套语法规则，就是蛋白质在细胞内导航的 GPS密码。

功能与社交：从职业规划到朋友圈的语法逻辑

如果说定位是蛋白质的住址，那么功能就是它的职业。一个深刻的问题是：分子语法是否也为蛋白质预设了职业规划？

研究人员利用GO这个庞大的功能注释数据库，系统分析了每个GIN簇与特定分子功能的关联。结果再次揭示了清晰的语法-功能对应关系。

电荷的偏好：他们发现，参与RNA结合的蛋白质，其IDRs的电荷残基比例（Fraction of Charged Residues, FCR）显著高于参与DNA结合的蛋白质（p = 3.5 10⁻ ⁶）。这意味着，与RNA这种单链、结构多变的分子打交道的IDRs，倾向于使用更多的电荷工具；而与DNA这种结构规整的双螺旋相互作用的IDRs，则策略不同。

特定的语法偏好：更细致地看，调控DNA转录的蛋白质富含GIN簇11（Q-tracts）的IDRs，这与之前发现谷氨酰胺（Q）富集区在转录因子中发挥重要作用的报道不谋而合。而参与mRNA代谢的蛋白质，则大量使用GIN簇26（R-patches）的IDRs，这正是剪接因子等RNA结合蛋白的典型特征。

这些发现表明，分子语法不仅决定了蛋白质的住址，还深刻影响了它的职业选择。不同的生物学任务，似乎需要不同语法风格的IDRs来完成。

生命活动并非由单个蛋白质孤立完成，而是依赖于一个复杂而动态的蛋白质社交网络。那么，拥有相似语法的蛋白质，是否在功能上也走得更近，更容易形成一个朋友圈呢？

为了探索这个问题，研究团队引入了一个强大的工具：DepMap（癌症依赖性图谱）。DepMap项目通过CRISPR基因敲除技术，在超过1000种系中系统性地评估了每个基因失活对细胞生存的影响。如果敲除基因A和敲除基因B对所有癌细胞系的生存影响曲线非常相似，那么A和B这两个基因（及其编码的蛋白质）在功能上很可能是紧密相关的。

研究人员巧妙地利用DepMap数据，构建了一个基于GIN簇的蛋白质功能关联网络。他们计算了任意两个GIN簇之间蛋白质的功能关联强度。结果令人震惊：

同类相吸原则：拥有相同GIN簇语法的蛋白质之间（簇内关联），其功能相关性远高于随机选择的蛋白质对。排名前列的簇，如簇26、11、23，正是那些在亚细胞定位上高度特化的簇。这说明，使用相同语言的蛋白质，往往在执行相似或协同的功能。

近邻效应：在同一亚细胞区域居住的蛋白质（例如，都在核仁工作），它们的功能相关性也显著更高。具体来说，核仁内的蛋白质功能网络最为密集，其次是核斑和核质。

更有趣的是，研究人员发现，仅仅通过住址来预测功能关系是不够的。比如，核斑和核质内的蛋白质，它们基于语法的簇内功能关联强度，要显著高于仅仅基于同住在一个区域所预期的关联强度。这暗示了一个更深层次的逻辑：蛋白质们不仅是因为住得近才成为功能伙伴，更是因为它们说着相似的分子语言，才聚集到一起，共同完成某项任务。分子语法，是连接它们功能网络的内在纽带。

语法错误之后：癌症中的拼写失误与句子重组

既然分子语法对蛋白质的正常功能至关重要，那么当语法出现错误时，会发生什么？研究人员将目光投向了癌症，这个由基因突变导致的复杂疾病。他们发现，癌症的发生，在很多情况下，正是一种分子语法的严重破坏。

他们首先分析了已知的619个癌症驱动基因（cancer driver genes），发现这些基因编码的蛋白质中，有相当一部分（51个）拥有超常语法（exceptional grammars）的IDRs。所谓超常语法，是指其序列特征（如特定氨基酸的含量、聚集程度等）在整个人类IDRome中排名前80位（总数约2.5万），是极其罕见和非随机的。这些拥有超常语法的蛋白质，往往是细胞内的关键调控枢纽，如转录复合体、染色质重塑复合体的核心成员。

当研究人员将这些区域与COSMIC数据库中的癌症突变数据进行比对时，一个清晰的模式浮现出来：

拼写失误，插入与缺失（Indels）的偏好：在25个由块状（blocky）模式定义的超常语法IDR中，有11个区域的插入/缺失（indel）突变频率显著高于预期。一个典型的例子是MAML2蛋白，它的IDR拥有在人类蛋白质组中长度排名第11位的谷氨酰胺（Q）长链。在某些肿瘤中，这个Q长链内会发生缺失突变。这种拼写错误直接破坏了语法的完整性，可能改变蛋白质的相互作用价态（valence），进而扰乱其参与的Notch信号通路。

如果说Indel是单词级别的拼写失误，那么融合癌蛋白（fusion oncoproteins）则是一种更为剧烈的句子重组。在某些癌症中，染色体易位会将两个原本不相干的基因拼接到一起，产生一个缝合怪式的融合蛋白。这种融合常常将一个蛋白的DNA结合域（DBD）与另一个蛋白的IDR拼接起来。

研究团队分析了29个此类融合癌蛋白，发现它们无一例外地都发生了剧烈的语法交换（grammar swapping）。例如，在B细胞急性淋巴细胞中，转录因子MEF2D的正常IDR（富含Q-patch）丢失了，取而代之的是另一个蛋白（如HNRNPUL1或FOXJ2）的IDR，后者要么富含酪氨酸（Y）和脯氨酸（P），要么富含块状的负电荷。这种彻底的语法改变，就像是把一个文档的标题（DNA结合域）嫁接到另一篇完全不相干文章的正文（新的IDR）上。其结果是，这个融合蛋白会被错误地招募到基因组的特定位置，并利用其全新的语法招募错误的相互作用伙伴，从而劫持细胞的基因表达程序，驱动癌症的发生。

研究人员还通过对UBTF蛋白融合的分析，进一步展示了这种语法交换如何重塑蛋白质的社交圈。正常的UBTF蛋白通过其富含D/E的IDR（属于GIN簇7）与其他核仁蛋白互作，而MAML3蛋白则通过其富含Q-patch的IDR（属于GIN簇11）与另一群蛋白互作。在一种罕见的肿瘤中，UBTF与MAML3发生融合，UBTF丢失了它自己的D/E尾巴，换上了MAML3的Q-patch尾巴。DepMap数据显示，与UBTF功能相关的蛋白（UBTF的朋友圈）和与MAML3功能相关的蛋白（MAML3的朋友圈）几乎没有交集，它们的IDR语法也截然不同。这意味着，UBTF::MAML3这个融合蛋白，很可能丢失了与原有UBTF伙伴的联系，却获得了与MAML3伙伴进行异常互作的能力，从而导致细胞功能紊乱。

这些来自癌症研究的证据，为分子语法的重要性提供了强有力的佐证。它们表明，语法的正确性是维持细胞稳态的基石，而语法的破坏，无论是拼写错误，还是句子重组，都可能成为通向疾病的危险路径。

开启理解生命复杂性的新篇章

这项发表于《细胞》的研究，远不止于鉴定出30种IDR的语法类型。它为我们提供了一套全新的概念框架和强大的分析工具，让我们能够从序列本身出发，去预测、解释和操纵蛋白质的功能。

一个可操作的资源库：研究人员将GIN资源库和NARDINI+算法打包成易于使用的Google Colab笔记本，向所有研究者开放。这意味着，任何对特定IDR感兴趣的研究人员，都可以轻松地查询它的语法指纹、所属的GIN簇，并预测其潜在的定位和功能。

从关联到因果的桥梁：这项工作巧妙地结合了预测、大规模数据挖掘和的实验验证，成功地在序列语法与生物学功能之间建立了坚实的因果联系。它不仅仅是告诉我们什么与什么相关，更是通过实验证明了这个语法导致了这个功能。

对疾病的新洞见：通过揭示癌症中分子语法的破坏模式，该研究为我们理解肿瘤发生机制提供了新的视角。未来，我们或许可以基于语法修复的思路，设计新型的治疗策略，或者通过分析肿瘤特异的语法错误，开发更精准的标志物。

更重要的是，这项工作标志着我们对蛋白质世界的认知正在发生一次深刻的转变。长期以来，结构-功能范式如同物理学中的牛顿定律，为我们理解宏观世界提供了坚实的基础。然而，在生命的量子尺度，那个充满动态、随机性和模糊性的IDR世界里，我们需要一套新的语言来描述。分子语法正是这样一种语言，它让我们从刚性结构的束缚中解放出来，转向从动态序列集合（sequence ensemble）的角度去理解功能。

生命之书，是用氨基酸的字母书写的。有些章节，辞藻华丽，结构工整，一目了然；而另一些章节，则语焉不详，看似散乱，却蕴含着更深邃、更灵活的语法逻辑。今天，我们终于拿到了后者的第一本语法书。虽然这只是一个开始，但它无疑为我们打开了一扇通往理解生命更深层次复杂性的崭新大门。未来的研究，将在这张语法地图的指引下，继续探索蛋白质黑暗地带中更多未知的秘密。

87%用户都在用100医药网APP 随时阅读、评论、分享交流请扫描二维码下载->

标签：医保目录创新药医保谈判药品降价

分享到：

Cell：无序即信息？NARDINI+算法量化连接IDR序列与细胞功能

搜索资讯

热门资讯

最新资讯

热门标签

医药招商网

快速链接

联系我们

订阅资讯