永久免费精品精品永久-夜色,亚洲日韩国产精品乱-久,最近免费中文字幕中文高清百度,爆乳无码系列肉感在线播放

企業(yè)新聞

新手如何開始基因組測序數(shù)據(jù)分析點擊次數(shù):2950 更新時間:2011-11-09

                                            新手如何開始基因組測序數(shù)據(jù)分析

作為生命科學領域的“圈內(nèi)人”,如果你還不知曉近期基因組測序的飛速發(fā)展,那你就實在太out了。。。這項技術在短短5年時間里,從一種令人仰望的技術變成了實驗室里的常規(guī)操作,僅僅就去年一年時間,這項技術就應用到了千人基因組計劃、人類微生物計劃這兩項重要的研究項目中,識別了大量孟德爾遺傳疾病相關的基因,比如朱伯特綜合癥(Joubert Syndrome),米勒費雪綜合癥(Miller Syndrome),還破解了蘋果,虱子,以及前段時間侵襲海地的霍亂弧菌的基因組,實力確實不可小窺。

然而由于這一領域的發(fā)展速度飛快,因此一些新接觸的實驗人員可能會感到茫然無措:雖然這些研究人員都具有實體測序?qū)嶒灢僮鹘?jīng)驗,但是如何處理獲得的龐大數(shù)據(jù)是一個巨大挑戰(zhàn)。幸運的是,目前已經(jīng)有了一些免費的,或者說是低成本的多元化工具,以及活躍的用戶群,可以幫助我們解決其中的一些問題,包括大部分新手都會提的一個問題——從那兒開始?以下的這些測序?qū)<視倪@一zui常見的新手問題開始,一一幫助我們解答疑惑。

需要什么IT基礎設備?

簡而言之:視情況而定。測序數(shù)據(jù)集信息量都很大,但不是所有的數(shù)據(jù)集都一樣,比如說,*基因組測序項目包括原始測序數(shù)據(jù),比對數(shù)據(jù),變異檢出數(shù)據(jù)等,每個樣品都能達到上百GB,而像ChIP-Seq數(shù)據(jù)集(例如染色體免疫共沉淀實驗數(shù)據(jù))就小得多了,才幾個GB而已。

因此要回答需要多少空間來存儲所有數(shù)據(jù)這個問題,也是視情況而定。弗吉尼亞州立聯(lián)邦大學生物標記研究及個性化醫(yī)療中心有一臺2010年早期購買的ABI SOLiD 4測序儀,目前這個中心有大約35TB(即35000GB)的磁盤空間來存儲數(shù)據(jù),其中一些保存在實驗室內(nèi),但是大部分實際上都外包了,比如1575個個體甲基化測序數(shù)據(jù)。中心主任Edwin van den Oord說,“僅僅是實驗室里產(chǎn)生的數(shù)據(jù)不需要這么大的空間”,但即使是35TB的空間還是不夠的,“我們需要購買更多的磁盤才能分析這些數(shù)據(jù)”。來自杜克大學的Kevin Shianna實驗室完成了200個*基因組測序,以及另外100個基因組外顯子(即蛋白編碼區(qū)域)測序,目前他們有300TB磁盤空間,而且其中大部分都是滿的!

除了磁盤空間外,另外一個關鍵的元素就是電腦的運作能力,數(shù)據(jù)文件如此之大,往往不能通過臺式機來準確分析,因此需要計算機PC集群(cluster)——一種特別的ad-hoc超級電腦(ad-hoc:電腦到電腦網(wǎng)絡),電腦之間通過網(wǎng)絡鏈接,由許多小電腦并聯(lián)組成。舉例而言,杜克大學所用的一種軟件工具:Sequence Variant Analyzer(能注釋基因變異,以及這些變異在基因組中位置)就是“一個內(nèi)存怪獸”,Shianna說,“它至少需要24-32GB的內(nèi)存空間。”

如果沒有這些設備該怎么辦?

許多高校都提供集群資源服務,但也不是每個都有,對于沒有集群設施的研究人員來說,可以尋找一些Web,云模式(cloud-based)為基礎的來替代,比如Amazon Web Services,這是一種可以提供基礎設施的計算平臺服務,包括云計算平臺EC2(Elastic Compute Cloud)——擁有幾乎無限的計算設施,和云儲存服務S3(simple storage service)——提供在線存儲服務。每個人都可以在AWS上建立自己的戶頭,這要求有一臺實體的機器,一個計算機界面來連接網(wǎng)絡,然后通過Amazon的云服務進行數(shù)據(jù)分析。

這種付費系統(tǒng)靈活性很大,通過Amazon(或其它的云服務平臺,比如Google和Microsoft)完成繁重的高計算量任務,研究人員就能從購買,維修和升級IT設備這些繁雜的事情中脫身,DNAnexus公司總裁Andreas Sundquist說,“我看到Amazon預算好像訂了十萬個CPU,還有上百個PB(1PB=1000TB)磁盤”,“世界上能接觸到這么多計算機和磁盤的地方非常少”,一些無私的研究人員還研發(fā)了一種預先組態(tài)(preconfigured)生物信息學為基礎的虛擬Linux機器,作為一個Amazon鏡像系統(tǒng)(Amazon Machine Image),這種打包的服務器環(huán)境能運行需要的軟件和應用程序,

除此之外,還可以試試賓州的Galaxy (galaxy.psu.edu/),其網(wǎng)頁介紹道,“Galaxy能幫助你完成其它任何地方都無法完成的分析,而且無需安裝或者下載任何東西,你可以分析多重比對,比較基因組注釋,解析宏基因組樣品等更多得多的應用”,這一系統(tǒng)包含有大量的文檔資料和教程視頻,來自凱撒西儲大學的Mark Adams將Galaxy稱為“一個能整合不同類別數(shù)據(jù),查詢數(shù)據(jù),協(xié)調(diào)性尤其好的系統(tǒng)”。

對于云計算有更高要求的研究人員就可以嘗試下一些商業(yè)公司,比如 DNAnexus (dnanexus.com)和GenomeQuest (www.genomequest.com),前者可以通過直接上傳,或者聯(lián)網(wǎng)的測序儀上接收數(shù)據(jù),進行變異查找,RNA表達分析和ChIP-Seq分析。Sundquist說,“你不用考慮這些分析在哪里進行,也不用考慮結果存儲在哪里,這些DNAnexus云計算都能幫你做到”。這些服務(AWS)的價格是20美元/GB/2年(科研單位),5美元/GB(測序機構)。

電話:
13788993509
13788995069
021-64133189
傳真:
021-64129208
陳小姐點擊這里給我發(fā)消息
徐小姐點擊這里給我發(fā)消息
朱小姐點擊這里給我發(fā)消息
 
安全聯(lián)盟站長平臺

化工儀器網(wǎng)

推薦收藏該企業(yè)網(wǎng)站