我司計(jì)劃推出【醫(yī)學(xué)數(shù)據(jù)庫(kù)專輯】欄目,計(jì)劃專輯每一期,通過(guò)臨床基因檢測(cè)報(bào)告、生信組學(xué)結(jié)題報(bào)告、行業(yè)前沿?zé)狳c(diǎn)為拋磚,推出一個(gè)與人類醫(yī)學(xué)疾病、生信分析相關(guān)的重磅級(jí)別的數(shù)據(jù)庫(kù)。每期介紹的數(shù)據(jù)庫(kù),經(jīng)過(guò)我們的技術(shù)團(tuán)隊(duì)的多層篩選、評(píng)價(jià),優(yōu)選出來(lái)的數(shù)據(jù)庫(kù)。一是方便醫(yī)學(xué)研究者了解優(yōu)秀的公共數(shù)據(jù)庫(kù)資源;二是,我們計(jì)劃籌備,將部分優(yōu)秀的公共數(shù)據(jù)庫(kù)資源,通過(guò)大數(shù)據(jù)文本挖掘,模型預(yù)測(cè),整合到高通量測(cè)序的生信分析服務(wù)中,形成具有行業(yè)特色的醫(yī)學(xué)型+組學(xué)的生信分析服務(wù),這對(duì)助推生物醫(yī)學(xué)領(lǐng)域產(chǎn)學(xué)研一體化的發(fā)展有著積極的作用。
“大數(shù)據(jù)”時(shí)代已經(jīng)到來(lái),在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗(yàn)和直覺。在生活中,小到如今日頭條、抖音、京東淘寶對(duì)每個(gè)人手機(jī)滑動(dòng)動(dòng)作產(chǎn)生的智能推薦。大到,整個(gè)城市交通軌跡、自動(dòng)化物流、瞬時(shí)天氣預(yù)測(cè)。
在醫(yī)院,不斷加強(qiáng)對(duì)精準(zhǔn)醫(yī)學(xué)的建設(shè),很多大型醫(yī)院,開始建設(shè)有醫(yī)學(xué)樣本庫(kù)、醫(yī)學(xué)數(shù)據(jù)庫(kù)。樣本類型包括組織切片、血液、尿液、細(xì)胞、多肽、核酸提取物等,數(shù)量已達(dá)數(shù)萬(wàn)例;數(shù)據(jù)類型包括醫(yī)療機(jī)構(gòu)的管理數(shù)據(jù)、健康管理數(shù)據(jù)、臨床數(shù)據(jù)、AI 影像數(shù)據(jù)等大數(shù)據(jù)。
在生物學(xué)領(lǐng)域,大數(shù)據(jù)的整合分析更是亟不可待。臨床基因檢測(cè)報(bào)告,每個(gè)檢出變異位點(diǎn),有上千條文獻(xiàn)、實(shí)驗(yàn)驗(yàn)證的證據(jù)鏈的支持;每次NCBI 核酸序列blast比對(duì)的點(diǎn)擊,檢索世界上萬(wàn)個(gè)物種時(shí),弱弱感覺到數(shù)據(jù)檢索的力量。在大數(shù)據(jù)時(shí)代,如何充分利用數(shù)據(jù),讓數(shù)據(jù)不再沉睡?如何將自己的數(shù)據(jù)和已有的數(shù)據(jù)聯(lián)合分析、充分挖掘數(shù)據(jù)的意義?如何基于臨床研究設(shè)計(jì)科研課題,整合多組學(xué)數(shù)據(jù),形成科研論文?
文章內(nèi)容較長(zhǎng),堅(jiān)持看到底,
文末有彩蛋!??!
正文
下面,將舉例介紹,如何通過(guò)全球范圍的數(shù)據(jù)庫(kù)導(dǎo)航門戶,找到想要的重磅級(jí)數(shù)據(jù)庫(kù)~
◆ 麥吉爾圖書館:生信數(shù)據(jù)庫(kù)導(dǎo)航入口網(wǎng)站
https://libraryguides.mcgill.ca/bioinformatics/databases
看到四個(gè)數(shù)據(jù)庫(kù)搜索工具,下面將逐一介紹,這4個(gè)數(shù)據(jù)庫(kù)搜索入口~
01??Nucleic Acids Research 2020 Database Issue
2020年數(shù)據(jù)庫(kù)主題收集網(wǎng)址:
https://academic.oup.com/nar/issue/48/D1
核酸研究(Nucleic Acids Research)的年度數(shù)據(jù)庫(kù)期刊對(duì)與分子生物學(xué)和生物信息學(xué)有關(guān)的許多可公開獲得的在線數(shù)據(jù)庫(kù)進(jìn)行了分類,并對(duì)數(shù)據(jù)庫(kù)進(jìn)行了最新更新。
1.1 第27期年度數(shù)據(jù)庫(kù)主題期刊和分子生物數(shù)據(jù)庫(kù)收集
介紹頁(yè)網(wǎng)址:
https://academic.oup.com/nar/article/48/D1/D1/5695332
該欄目介紹了2020年數(shù)據(jù)庫(kù)文章發(fā)表的動(dòng)態(tài)。NAR在線分子生物學(xué)數(shù)據(jù)庫(kù)集合已經(jīng)過(guò)修訂,更新了305個(gè)條目,增加了65個(gè)新資源,并消除了125個(gè)不連續(xù)的URL;因此將目前的總數(shù)增加到1637個(gè)數(shù)據(jù)庫(kù)。
NR期刊提出了建議,未來(lái)數(shù)據(jù)庫(kù)類的論文將按以下方式進(jìn)行論文歸類:
(i)核酸序列和結(jié)構(gòu),轉(zhuǎn)錄調(diào)控;
(ii)蛋白質(zhì)序列和結(jié)構(gòu);
(iii)代謝和信號(hào)傳導(dǎo)途徑,酶和網(wǎng)絡(luò);
(iv)病毒,細(xì)菌,原生動(dòng)物和真菌的基因組學(xué);
(v)人類和模型生物的基因組學(xué)以及比較基因組學(xué);
(vi)人類基因組變異,疾病和藥物;
(vii)植物和(viii)其他主題,例如蛋白質(zhì)組學(xué)數(shù)據(jù)庫(kù)。
? 1637個(gè)在線數(shù)據(jù)庫(kù),收錄在牛津大學(xué)期刊官網(wǎng):
http://www.oxfordjournals.org/nar/database/c/
1.2 NCBI中心數(shù)據(jù)庫(kù)資源盤點(diǎn)
介紹頁(yè)網(wǎng)址:
https://academic.oup.com/nar/article/48/D1/D9/5585551
美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)提供了大量的在線生物信息和數(shù)據(jù)資源,包括GenBank 核酸序列數(shù)據(jù)庫(kù),以及在生命科學(xué)期刊上發(fā)表的引用和摘要的PubMed數(shù)據(jù)庫(kù)。Entrez系統(tǒng)為來(lái)自35個(gè)不同數(shù)據(jù)庫(kù)的大多數(shù)這些數(shù)據(jù)提供搜索和檢索操作。E-utilities serve實(shí)用程序充當(dāng)Entrez系統(tǒng)的編程接口。
NCBI旗下,所有數(shù)據(jù)庫(kù)收錄在,NCBI官網(wǎng):
www.ncbi.nlm.nih.gov
下圖為2019年NCBI數(shù)據(jù)庫(kù)的年度增長(zhǎng)率,從前五可以看出,近年來(lái),二代測(cè)序、蛋白組數(shù)據(jù)、臨床疾病的變異信息的上傳,有著爆炸式的增長(zhǎng)。
下表為2019年NCBI數(shù)據(jù)庫(kù)的列表,當(dāng)然包含生信分析中常用的芯片數(shù)據(jù)、高通量測(cè)序數(shù)據(jù)、參考基因組信息、臨床突變信息等。
表格網(wǎng)址:
https://academic.oup.com/view-large/191000235
1.3 EBI數(shù)據(jù)庫(kù)資源大盤點(diǎn)
歐洲生信信息中心the European Bioinformatics Institute (EMBL-EBI),與美國(guó)NCBI類似。
數(shù)據(jù)庫(kù)收錄在EBI官網(wǎng):
https://www.ebi.ac.uk/
在EMBL-EBI資源中,數(shù)據(jù)交換可確保在所有資源之間共享和搜索新信息,無(wú)論是有關(guān)基因,蛋白質(zhì),結(jié)構(gòu)還是其他實(shí)體的信息。資源之間的數(shù)據(jù)交換由應(yīng)用程序編程接口(API)進(jìn)行調(diào)解,以確保我們的數(shù)據(jù)資源可以響應(yīng)任何查詢?yōu)橛脩籼峁┍M可能多的信息。這些數(shù)據(jù)交換可增強(qiáng)用戶訪問(wèn)數(shù)據(jù)的體驗(yàn),并避免重復(fù)勞動(dòng)。
下圖示例,如何通過(guò)EMBL-EBI基礎(chǔ)結(jié)構(gòu)傳播新的開放數(shù)據(jù)。
EMBL-EBI上的數(shù)據(jù)資源之間的數(shù)據(jù)交換。該數(shù)據(jù)集包含EMBL-EBI 41種資源之間的911個(gè)單獨(dú)數(shù)據(jù)連接。圓形圓周上的資源通過(guò)內(nèi)部弧相互連接,內(nèi)部弧的寬度表示資源之間不同交互的總數(shù)。
圓弧寬度與數(shù)據(jù)連接的數(shù)量成正比,并不代表交換的數(shù)據(jù)量。資源按功能簇在圓周圍分組,并按顏色區(qū)分。內(nèi)部弧線顏色標(biāo)識(shí)每個(gè)群集,并且不反映數(shù)據(jù)交換的方向。
1.4 國(guó)家基因組中心
國(guó)家基因組數(shù)據(jù)中心(NGDC)提供了一套數(shù)據(jù)庫(kù)資源,以支持學(xué)術(shù)界和工業(yè)界的全球研究活動(dòng)。隨著高通量和低成本測(cè)序技術(shù)的飛速發(fā)展,以及由此產(chǎn)生的以指數(shù)級(jí)和速率成倍增長(zhǎng)的大量多組學(xué)數(shù)據(jù),NGDC正在通過(guò)大數(shù)據(jù)集成和價(jià)值不斷擴(kuò)展,更新和豐富其核心數(shù)據(jù)庫(kù)資源。
國(guó)家基因組數(shù)據(jù)中心(NGDC)是中國(guó)科學(xué)技術(shù)部和財(cái)政部于2019年6月正式批準(zhǔn)的國(guó)家級(jí)中心,致力于通過(guò)存檔,管理和管理生命科學(xué)和健康科學(xué)的工作并處理各種與基因組學(xué)相關(guān)的數(shù)據(jù)。
NGDC是在中國(guó)科學(xué)院北京基因組研究所(BIG)的BIG數(shù)據(jù)中心的基礎(chǔ)上,與兩個(gè)CAS機(jī)構(gòu),即生物物理研究所(IBP)和上海密切合作建立的營(yíng)養(yǎng)與健康研究所(SINH)。
數(shù)據(jù)庫(kù)收錄在,國(guó)家生信信息中心官網(wǎng):https://bigd.big.ac.cn/
國(guó)家基因組數(shù)據(jù)中心的核心數(shù)據(jù)資源。分別采用數(shù)據(jù),信息和知識(shí)這三類來(lái)表示資源,這些資源通常分別用于存放原始數(shù)據(jù)/元數(shù)據(jù)(檔案),房屋增值信息(數(shù)據(jù)庫(kù))和通過(guò)文獻(xiàn)管理(知識(shí)庫(kù))整合經(jīng)過(guò)驗(yàn)證的知識(shí)。
數(shù)據(jù)庫(kù)收錄在:https://bigd.big.ac.cn/databases
進(jìn)入數(shù)據(jù)庫(kù)欄目后,首先看到的是2019新冠病毒資源數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)且不斷在更新。
從數(shù)據(jù)庫(kù)信息,可以看出美國(guó)仍位居新冠人口大國(guó)榜首。從2020年12月病毒變異率在加速上升。衛(wèi)生機(jī)構(gòu),每檢測(cè)到新的SNV變異,都會(huì)在網(wǎng)站上進(jìn)行記錄,累計(jì)1.5萬(wàn)次新增變異的序列信息記錄,序列文件也可以通過(guò)本網(wǎng)站下載。
02??2019年年度數(shù)據(jù)庫(kù)資源主題
資源列表網(wǎng)站:
https://academic.oup.com/nar/issue/47/W1
在線網(wǎng)站的分析工具,可視化效果非常好。以下列舉前幾個(gè):
1)MAFFT-DASH:整合的蛋白質(zhì)序列和結(jié)構(gòu)比對(duì)
MAFFT-DASH: integrated protein sequence and structural alignment
2)Web 3DNA 2.0用于3D核酸結(jié)構(gòu)的分析,可視化和建模
Web 3DNA 2.0 for the analysis, visualization, and modeling of 3D nucleic acid structures
3)HNADOCK:用于對(duì)RNA / DNA–RNA / DNA 3D復(fù)雜結(jié)構(gòu)建模的核酸對(duì)接
HNADOCK: a nucleic acid docking server for modeling RNA/DNA–RNA/DNA 3D complex structures
4)RegulationSpotter:轉(zhuǎn)錄外DNA變體的注釋和解釋
RegulationSpotter: annotation and interpretation of extratranscriptic DNA variants
— 彩蛋 —
如果文章點(diǎn)贊人數(shù)較多,后續(xù)每期會(huì)在文末添加一個(gè)彩蛋,與生物行業(yè)有關(guān)或無(wú)關(guān)的高效辦公工具。如科研矢量圖素材庫(kù)、穩(wěn)定科研上網(wǎng)VPN、可視化網(wǎng)頁(yè)交互工具等~
? 本期推薦
cell signaling:
https://www.cellsignal.cn/pathways
Cell Signaling Technology (CST) 致力于提供全球最高品質(zhì)的創(chuàng)新研究產(chǎn)品,以加速生物學(xué)認(rèn)知。一家總部位于美國(guó)馬薩諸塞州丹弗斯的私營(yíng)公司。在CST公司官網(wǎng)有著大量的細(xì)胞通路圖,還提供免費(fèi)的通路海報(bào),和中文圖示信息,非常好的通路學(xué)習(xí)資源。