近日,國際學術期刊《美國科學院院刊》(PNAS)在線發表了由中國科學院數學與系統科學研究院和美國斯坦福大學、清華大學等單位的科研人員合作的基因調控網絡建模的研究成果,提出了利用匹配的基因表達和染色質可及性數據刻畫順式調控元件和反式調控元件相互作用的數學模型,將基因調控網絡的建模研究從編碼基因推進到了非編碼區域的調控元件,有望用來注釋疾病等表型相關的遺傳變異。
分子生物學的中心法則指出了從DNA編碼基因到RNA再到蛋白質的遺傳信息的流動方向。一個基因被轉錄為RNA時,人們稱之為“表達”。基因調控網絡,即對基因表達水平進行精準控制的蛋白與DNA間相互作用。基因調控網絡是幾乎所有生物過程的核心。在特定的條件下,特定基因表達的啟動或停止,增強或抑制,是細胞選擇基因組中的調控元件和相互作用完成基本生命活動以及對外界刺激作出應答的分子基礎。而且組織和細胞特異的基因調控塑造了不同的表型,是健康和疾病研究的基石。闡明基因選擇性表達所依賴的調控元件及其相互作用的分子機制,需要對基因調控進行建模。特別是轉錄因子等反式調控元件和增強子等順式調控元件在特定的細胞環境下如何合作使得一個基因快速轉錄是基因調控網絡研究的核心問題。
來自中國和美國的科學家緊密合作,開展了對基因調控研究中的核心的元件(轉錄因子TF、染色質調控因子CR和調控元件RE)之間的相互作用的研究,進而對基因表達的定量預測進行建模,發展了網絡推斷的新方法PECA。PECA重點對轉錄調控的三個關鍵環節進行建模:一,基于CR與序列特異性TF的相互作用推斷CR在RE上的結合位點;二,基于CR的結合和RE的可及性,預測RE的激活狀態;三,基于激活RE上結合的TF預測目標基因的表達。PECA推斷得到的條件特異的基因調控網絡可注釋數量性狀位點(QTL) 研究給出的非編碼區域的功能,從而對發生在非編碼調控區域的點突變和結構變異與表型之間的聯系給出分子機理層面的解釋。該研究中利用了人類基因組計劃之后的“DNA元件百科全書”計劃 (Encyclopedia of DNA elements,簡稱ENCODE)中的數據,特別是部分具有匹配的染色質狀態和基因表達數據的細胞類型,解讀這些重要的數據,將極大地促進人們對后基因組時代基因調控網絡的理解。
領銜這項研究的斯坦福大學教授王永雄、中科院數學院研究員王勇、清華大學自動化系副教授江瑞分別得到美國國立衛生研究院、中科院B類先導專項和國家自然基金委的經費資助。論文的第一作者是數學院博士生都仁扎那。