研究亮點 基因表達的機器學習模型能助力精準腫瘤學。本文建立的模型能識別TCGA數(shù)據(jù)庫里的腫瘤和細胞系中的Ras激活;此模型能鑒別擬表型Ras激活事件,例如NF1 loss;此方法描繪了Ras通路的各種變異,并且可以拓展到其他通路的研究。 研究背景 精準腫瘤學通過基因組證據(jù)來為癌癥病人匹配特定的療法,然而截止至今它僅僅使相對低比例的病人獲益。盡管在臨床上很有前景,精準腫瘤學缺少完整準確的匹配策略,并且未能識別許多用其他方法可以匹配到的病人。覆蓋數(shù)千腫瘤的轉(zhuǎn)錄組測量編目,在系統(tǒng)性的生物學上促成了對分子擾動的下游結(jié)果的透視。用轉(zhuǎn)錄組狀態(tài)來檢測這些擾動,可以使精準腫瘤學更準確、完整地匹配病人與有效療法。研究者用了TCGA(The Cancer Genome Atlas Research)癌癥組織的大范圍腫瘤數(shù)據(jù)來建立、評估可以基于異?;蚝屯饭δ軄韺⒛[瘤分類的統(tǒng)計模型。一些策略使用了來自個別癌癥類別的數(shù)據(jù),如在結(jié)腸癌中的KRAS異常和成膠質(zhì)細胞癌中的NF1功能異常的基因表達特征。2017年有文章提出了一個非監(jiān)督方法以分解細胞系的基因表達狀態(tài),以此來定位通路活性。在本文中研究者將介紹一種用彈性網(wǎng)絡懲罰邏輯回歸分類器來從各類型腫瘤組織的基因表達芯片數(shù)據(jù)中學習基因特征和通路改變。研究者將他們的方法應用在各癌癥類型來學習一種獨立的通路異常的泛癌特征。研究者表明此方法可以被用來鑒別擬表型變體,同時只需要基因表達數(shù)據(jù)來推理出新數(shù)據(jù)即可。他們用了此方法來檢測Ras通路的泛癌激活。 Ras通路在很多不同的癌癥類型中頻繁改變。該通路常通過KRAS,NRAS或HRAS的獲得功能性變異和NF1的失去功能性變異來激活,使細胞增加翻譯輸出和未被查驗的細胞增殖。具體的癌癥類型,像胰腺癌,黑色素瘤,甲狀腺腫瘤,肺腺癌,結(jié)腸癌,已經(jīng)為人所知地很大程度上受Ras通路基因的突變所驅(qū)動。此外,Ras通路的突變被觀察到是腫瘤形成的早期事件,并且與低存活率、治療抵抗等相關。因為Ras通路無所不在地失調(diào),發(fā)展出特定的療法靶點是國家癌癥研究所的初衷。然而,Ras也是眾所周知地很難決定靶點,精確檢測其故障是其中最重要的一環(huán)。 最直接的評估Ras激活的方法是有Ras靶向測序。然而,這些方法未能檢測在那些擬表型Ras激活突變的基因中的未知變異。本研究描述了一種集成大量RNA測序、拷貝數(shù)和點突變數(shù)據(jù)的機器學習方法。研究者宣稱此方法能夠檢測Ras激活的泛癌。這個分類器同樣能鑒別TCGA的NF1擬表型事件。人工精選的Ras通路基因致癌變異相比于未知重要性的變異,被分配了更高的分類得分。研究者表示此方法還可應用于其他的癌癥相關基因和通路。例如,TCGA的DNA損傷修復研究分析小組就在TP53失活的檢測中應用了此方法。 研究成果 1.機器學習模型預測通路活性 此模型用TCGA數(shù)據(jù)的33種腫瘤類型的9075個腫瘤樣本,基于受彈性網(wǎng)絡懲罰調(diào)節(jié)的邏輯回歸分類器架構。轉(zhuǎn)錄組數(shù)據(jù)被用來描述腫瘤表達狀態(tài)并訓練分類器以檢查與異常通路活性符合的下游基因表達模式(如圖1A)。算法結(jié)合基因價值分數(shù),或比重,來綜合學習如何將異常的與野生型的表達模式分隔開。陽性訓練集數(shù)據(jù)包括含非沉默體細胞突變(如圖1B)以及致癌基因拷貝數(shù)增加和抑癌基因拷貝數(shù)大量減少的腫瘤樣本。 圖1A&1B. 分類器的構建 2.檢測Ras激活化的泛癌 研究者通過KRAS,HRAS和NRAS的突變和拷貝數(shù)增加來訓練了分類器,這三種核心Ras基因在各癌癥類別的突變比例差異極大。根據(jù)TCGA數(shù)據(jù)庫顯示,KRAS突變在胰腺癌(72%)、結(jié)腸型癌(45%)、直腸腺癌(42%)、肺腺癌(31%),而NRAS突變通常是在黑色素瘤(31%)上。研究者針對特定腫瘤類型里野生型與Ras突變腫瘤進行差異表達分析。 在分類器中,為了執(zhí)行更平衡的分類表示法,為了減少度量上的膨脹,研究者用了來自33個癌癥類型中的16個(圖2A)。同時他們也基于絕對中位差用了8000個最具表達多樣性的基因。研究者從中挑出10%(n=476)作為測試集,90%(n=4283)作為訓練集。他們執(zhí)行了5-折交叉驗證,并將驗證結(jié)果和訓練集、測試集的表現(xiàn)共同展示。他們評估了在各癌癥類型中通過訓練篩選得到的最終分類器。 最后,這個分類器展現(xiàn)出很好的表現(xiàn),它的交叉驗證和測試集在受試者工作特征曲線(AUROC)中的下半部分超過84%并且有超過63%的部分位于精準召回曲線(AUPR)下半?yún)^(qū)域(圖2B)。對于最初從訓練中篩出的樣本,同樣觀察到可觀的表現(xiàn),受試者工作特征曲線中75.2%與精準召回曲線24.7%。因此,這個分類器檢測到的在組織中的Ras激活信號在訓練中沒有顯示。在最終分類器的9075個樣本中,研究者觀察到86.7%在受試者工作特征曲線和61.2%精準召回曲線。 圖2. 彈性網(wǎng)絡懲罰分類器的訓練和測試 對彈性網(wǎng)絡懲罰分類器的訓練構建出了數(shù)據(jù)稀疏性的分類器,只有185個基因有助于分類。比重大于0的基因和協(xié)變量可以被解讀為對Ras激活的腫瘤的正調(diào)節(jié),與之相對,比重為負的基因可被視為含野生型Ras的腫瘤的特征(圖2C)。然而,對系數(shù)的解讀必須要謹慎,因為彈性網(wǎng)絡調(diào)整的方法導致了稀疏性,這意味著此結(jié)果只能代表一個與Ras激活相關基因的子集。 研究者還把將訓練好的分類器用來獨立地做每種癌癥類型的泛癌分類。指定癌癥類型和泛癌分類器都在各癌癥類型中有多樣化的表現(xiàn),同時泛癌模型在約半數(shù)的比較中勝過癌癥類型內(nèi)部最優(yōu)模型(圖2D)。
3.Ras分類器基準分析 研究者用了幾種分析手段來評估Ras分類器的穩(wěn)健性。一個虛無模型在隨機混淆的基因表達矩陣中用抵抗測試和交叉驗證來得到了50%受試者工作特征曲線和20%精準召回曲線的結(jié)果。這表明了此模型在基線上的強大表現(xiàn)。他們也發(fā)現(xiàn)分類器在Ras突變和Ras復制數(shù)增長上的表現(xiàn)相似,Ras突變的模型表現(xiàn)最好。這個模型把KRAS, NRAS, 和HRAS還有另外11個Ras病變基因從表達矩陣中選出的能力很強。而表現(xiàn)也未被參數(shù)信息影響。 模型間基因系數(shù)存在聯(lián)系。在復制數(shù)模型中的高比重正向基因都在12號染色體的KRAS周圍,導致復制數(shù)事件的假象,而其另一個原因是只發(fā)生正向拷貝數(shù)的樣本量過小。研究者發(fā)現(xiàn),舍棄不同Ras通路基因的不同模型中基因系數(shù)具有相似性。表達差異分數(shù)和學習到的系數(shù)很相近,但會比稀疏性分類器識別更多基因。總之,分類器隨表達類型而效果不同,但是在將基因輸入表達矩陣中都很強力,不依賴協(xié)變量。和表達差異分析包含的基因類似但更少。
圖3. Ras野生型與突變型與Ras分類器分數(shù)的相關性 4.檢測細胞系中的Ras激活 研究者用兩個細胞系數(shù)據(jù)集來檢測訓練好的分類器是否可以用在細胞系上。首先將分類器應用在10個小導管上皮細胞轉(zhuǎn)錄組數(shù)據(jù)中。該分類器正確地將10個樣品中的9個分類(p=1.16e-2)(如圖3A),并將所有含突變的樣品排序在野生型之前。 接著研究者將分類器應用在包含表達和突變數(shù)據(jù)的來自于癌癥細胞系百科全書(CCLE)的737個不同細胞系的RNA測序數(shù)據(jù)中(如圖3B)。分類器顯著性地給突變Ras分配了更高分數(shù)(p=6.35-36)。393個預測到的野生型中,357個是事先被標記的野生型(陰性預測值=90.8%)。然而344個預測突變中只有153個突變是被事先標記好的突變(準確率44.5%)??偣?,737個中510個細胞系預測正確(69.2%)。在此情況下,低準確度可能表明此分類器未能成功推廣;或者分類器可能成功識別了這些擬表型,他們在評估觀點中呈陰性,但卻是研究者本想捕捉到的那些。 為了探明哪種可能性為真,研究者檢查了BRAF(一個特點鮮明的致癌下游Ras基因)的突變狀態(tài)。BRAF變異的擬表型Ras會被記為陰性,并且如果他們在分類器的排名中很高,會減少上述觀察到的準確度。事實上,與BRAF野生型相比,分類器顯著性地將高分分配給了BRAF變異細胞系(p=1.16e-11)。在191個假陽性中,56個有BRAF變異(29.3%)。剩下的假陽性指向要么是腫瘤錯配,要么是腫瘤還藏有其他擬表型變異。接下來,研究者測試了CCLE藥理學反應數(shù)據(jù)來決定Ras分類器分數(shù)是否具有對MEK抑制劑的敏感預測性。研究者觀察到含Ras分類器分數(shù)與兩個MEK抑制劑(selumetinib和PD-0325901)的敏感性有相關性(如圖3C&3D)。相關性主要是受到Ras基因野生型的細胞系驅(qū)動的,這意味著幾個藥物敏感的細胞系可能是被僅針對Ras基因測序漏掉了。將上述分析整理,對額外突變和Ras野生型細胞系藥物反應數(shù)據(jù)的評估強烈顯示在這次分析的低準確度與擬表型事件的鑒別有關。 最后,分類器將34個攜帶Ras突變的細胞系打分為野生型。研究者觀察到34個中的22個(64%)假陰性細胞系攜帶COSMIC數(shù)據(jù)庫中收錄的變異。與之相對,152個假陽性中的144個(95%)被發(fā)現(xiàn),這個比例顯著性高于假陰性的發(fā)現(xiàn)比例。因此這個分類器檢測到了變異水平分辨率的信號。
圖4. Ras通路突變與復制數(shù)與Ras分類器打分關系 5.其他Ras通路變異擬表型的Ras激活 這個Ras分類器尤其能檢測在CNS腫瘤中的NF1-丟失事件。而且表現(xiàn)比得上用特定癌癥模型和泛癌模型構建的NF1分類器(圖4A)。這些腫瘤并不包含在Ras分類器訓練集中。與NF1-特異分類器相比,卵巢癌、結(jié)腸腺癌和子宮內(nèi)膜癌中的NF1-失活事件檢測效果也有所提升(圖4A)。 通過對38個核心Ras通路基因的精選的變異進行分類打分,研究者觀察到KRAS、NRAS、HRAS和BRAF中的致癌變異都得到高分(圖4B)。然而,在THCA中的BRAFV600E 突變被壓倒性地被預測為Ras野生型。研究者將兩個BRAF-主導的癌癥類型(甲狀腺癌和黑色素瘤)去除后重訓練了一個分類器。在這個模型中,研究者觀察到THCA、BRAF、V600E突變被預測為含Ras激活,這和之前對BRAF功能以及對細胞系的分析保持了一致。 最后,在野生型的KRAS、NRAS和HRAS中,研究者觀察到Ras分數(shù)在其他通路基因的后續(xù)突變后增加了;在KRAS、NRAS和HRAS突變的樣本中,分數(shù)并沒有在出現(xiàn)其他附加的通路突變之后增加(圖4C)。然而,在其他Ras通路基因中更多的拷貝數(shù)事件導致了Ras突變樣本的分類器低分(圖4D)。這些結(jié)果可能暗示了在Ras通路上Ras自己以外的基因的多次突變可能會導致Ras激活表型的增加。 討論 這個機器學習方法構建的分類器不僅能應用在檢測Ras激活,同時也能廣泛地應用在擬表型、細胞系等其他基因或通路研究上。研究結(jié)果提供了一個有效的生物標記應用,它可用于揭露可能隱藏的被測序所忽略的響應者。 跟其他被推薦的方法一樣,此方法也會被以往文獻不準確的資料影響。研究者克服了在甲狀腺癌的BRAF檢測的不利限制。BRAF突變被熟知為激活ERK,且不應分類為野生型Ras.本研究建議在預測的是混淆突變的情況下,最好在訓練時保留一個癌癥類型。通過保留這種數(shù)據(jù),不需要重建用BRAF V600E突變作為陽性例子的新分類器,這可能有助于防止分類器不斷擴大矩陣規(guī)模的蔓延過程。此外,并不清楚如何去最適當?shù)馗鶕?jù)高度變異的表型來進行調(diào)整。這些腫瘤更可能含有Ras突變。這個問題可能可以通過提前分離不同來源的變異來回避。 當多重突變發(fā)生在Ras通路基因時,腫瘤展示出與增加的Ras活性相關的轉(zhuǎn)錄模式。這和對觀察到的拷貝數(shù)事件相反。很多KRAS, NRAS, 和HRAS得到了低分,這或許表示要么劑量反應抵消了超激活,要么準確的Ras分類受到堿基替換事件的抑制。 總之,研究者展示了一個可以用轉(zhuǎn)錄組數(shù)據(jù)預測大量腫瘤中Ras 活性的機器學習方法。這個方法或能避免使用多種基因組測量來檢測Ras激活并識別更多有Ras激活的病人。 小編評論 本文用機器學習的方法來構建了彈性網(wǎng)絡懲罰的分類器,開創(chuàng)了在Ras通路研究上的一個新應用。而更可貴的是,這個分類器經(jīng)TCGA的其他小組應用,在其他表達通路上也有不錯的表現(xiàn)。或許在現(xiàn)階段這種缺乏部分監(jiān)督與標準化的方法無法成為主流的研究辦法,但在測序分析中,它可以作為輔助辦法來查漏補缺,通過模型增加數(shù)據(jù)的可讀性,回避一些傳統(tǒng)方法會引起的偏差。使研究結(jié)果更多樣化,結(jié)論更可信,為將機器學習應用在生物信息學及醫(yī)學上提供良好思路。 參考文獻: [1] Way GP, Sanchez-Vega F, La K, et al. Machine learning detects pan-cancer ras pathway activation in the cancer genome atlas[J]. Cell reports, 2018, 23(1): 172. |
|
來自: 生物_醫(yī)藥_科研 > 《TCGA 》