腫瘤干性細(xì)胞指數(shù)si是一種描述腫瘤細(xì)胞與干細(xì)胞相似程度的指標(biāo),可以認(rèn)為是CSCs的量化。干細(xì)胞具有自我更新以及治療耐藥性的特征,在癌癥中發(fā)揮著重要作用。
2018年發(fā)表在Cell上面的一篇文章采用創(chuàng)新的單類邏輯回歸(OCLR)機(jī)器學(xué)習(xí)算法,通過對(duì)干細(xì)胞轉(zhuǎn)錄組、甲基化組和轉(zhuǎn)錄因子結(jié)合位點(diǎn)的多平臺(tái)分析,得到了兩個(gè)獨(dú)立的干性指數(shù),其中mRNAsi可以反映干細(xì)胞的基因表達(dá)特征,另一種mDNAsi則反映干細(xì)胞的表觀遺傳特征。目前研究腫瘤干細(xì)胞大多通過RNA計(jì)算的mRNAsi進(jìn)行相似程度評(píng)估,因此本次我們也針對(duì)mRNAsi的OCLR計(jì)算過程進(jìn)行分享。
? 流程大體思路如下:
利用PCBC數(shù)據(jù)庫(kù)中的干細(xì)胞類群及其分化的外胚層、中胚層和內(nèi)胚層祖細(xì)胞信息作為初始數(shù)據(jù)集,使用OCLR算法訓(xùn)練推導(dǎo)出干性指數(shù)。然后將基于OCLR的計(jì)算得到的干性指數(shù)對(duì)應(yīng)的轉(zhuǎn)錄組表達(dá)量應(yīng)用于TCGA數(shù)據(jù)集,計(jì)算每個(gè)樣本的mRNAsi。每個(gè)干性指數(shù)(si)的范圍從低(0)到高(1)。
一、加載相應(yīng)R包
二、創(chuàng)建genes2hugo函數(shù)
該函數(shù)可以將Ensemble ID轉(zhuǎn)換為HUGO Symbols。
三、創(chuàng)建模型訓(xùn)練函數(shù)
首先我們創(chuàng)建函數(shù)main.train對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練,該函數(shù)的流程分為以下幾步:
1)利用synGet獲取PCBC數(shù)據(jù),包括兩種數(shù)據(jù),其中X是一個(gè)由229個(gè)細(xì)胞樣本的13189個(gè)基因構(gòu)成的表達(dá)矩陣,Y是一個(gè)含有301個(gè)觀測(cè)值的單變量數(shù)據(jù)框;
2)從 metadata 獲取 labels;
3)調(diào)用之前創(chuàng)建的genes2hugo函數(shù),將Ensembl ID轉(zhuǎn)換為HUGO Symbols;
4)計(jì)算每個(gè)基因的平均值中心(初始值-平均值);
5)根據(jù)y是否等于“SC”判斷干細(xì)胞并將所有樣本劃分為干細(xì)胞組X.tr和非干細(xì)胞組X.bk;
6)執(zhí)行g(shù)elnet函數(shù)來訓(xùn)練模型,gelnet函數(shù)使用協(xié)調(diào)下降的迭代方法,具有四個(gè)主要的參數(shù):
# X: 由( X.r )轉(zhuǎn)置后的矩陣
# y: 如果為`NULL`則為一類模型?
# l1: L1范數(shù)懲罰的系數(shù)=> 0?
# l2: L2范數(shù)懲罰的系數(shù)=> 1
7)將signature文件存儲(chǔ)為pcbc-stemsig.tsv;
8)使用留一法交叉驗(yàn)證測(cè)試模型的準(zhǔn)確性。
函數(shù)main.train完整代碼如下:
四、創(chuàng)建預(yù)測(cè)函數(shù)
接下來創(chuàng)建main.predict函數(shù)預(yù)測(cè)未知樣本的mRNAsi指數(shù),該函數(shù)的流程分為以下幾步:
1)讀入上個(gè)模塊中保存的signature文件,同時(shí)讀入樣本的基因表達(dá)數(shù)據(jù)(該示例從synapse中獲取表達(dá)數(shù)據(jù));
2)過濾基因ID,保留僅在signature中包含的HUGO symbols, 并將表達(dá)矩陣X轉(zhuǎn)為矩陣形式,其中行為基因名,列為樣本名稱;
3)使用Spearman相關(guān)性對(duì)矩陣`X`評(píng)分,并將評(píng)分標(biāo)準(zhǔn)化為0到1之間;
4)分?jǐn)?shù)輸出到文件mRNA_StemScore.tsv。
函數(shù)main.predict完整代碼如下:
五、執(zhí)行完整分析
在創(chuàng)建完上述函數(shù)main.train和main.predict后,我們使用main函數(shù)將這兩個(gè)函數(shù)打包,最后運(yùn)行main函數(shù)執(zhí)行完整的分析。
參考文獻(xiàn):Malta TM, Sokolov A, Gentles AJ, Burzykowski T, Poisson L, Weinstein JN, Kamińska B, Huelsken J, Omberg L, Gevaert O, Colaprico A, Czerwińska P, Mazurek S, Mishra L, Heyn H, Krasnitz A, Godwin AK, Lazar AJ; Cancer Genome Atlas Research Network, Stuart JM, Hoadley KA, Laird PW, Noushmehr H, Wiznerowicz M. Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation. Cell. 2018 Apr 5;173(2):338-354.e15. doi: 10.1016/j.cell.2018.03.034. PMID: 29625051; PMCID: PMC5902191.