大數據推動基因測序產業化
觀察
作者:老鬼阿定
在今年2月叫停所有基因測序後,6月30日,國家食藥監總局發布公告稱,經審查,批準兩款二代基因測序儀和兩款檢測試劑盒注冊。這意味著基因測序臨床應用重新啟動。基因體檢是當前基因測序臨床應用最主要的形式。
DNA是生物的遺傳物質,基因是具有遺傳效應的基本DNA單位,基因組則是所有基因的總集,包含全部DNA。DNA是長鏈聚合物,由以A、C、G、T為符號的四種脫氧核苷酸組成。如果將基因組視為一部書,那麼書的所有章節都是用A、C、G、T四個字母寫成。基因組測序就是測定DNA分子中A、C、G、T的排列順序,相當於將遺傳信息以四字母組成的文本形式讀出。人類基因組測序已於2005年完成,科學界也已在人類基因組中發現大量與健康相關的基因。
基因體檢時首先需提供唾液,采用生物學方法可提取脫落在唾液中的細胞中的DNA,采用基因測序儀測得基因組中A、C、G、T的排列順序,並生成數據文件。再將該數據文件與已知數據比對,最後在體檢報告中指出受體檢者基因組中與健康或疾病相關的基因,並提供健康和醫療建議。第二代測序技術將每基因組測序成本從2001年的9526萬美元下降到1000美元。
2007年成立的美國23andMe公司是最早的基因測序互聯網公司,由穀歌投資,創始人沃西基是穀歌布林的妻子。體檢者在試管裏吐一口唾沫,蓋上蓋子,寄往23andMe。兩周後會收到郵件提示,你的基因檢測結果已經準備好。用戶登錄,便可看到自己基因組上超過100萬個位點的基因信息和所做的分析,包括對259種疾病患病率的風險預測、祖先血統分析和藥物的反應預測等。23andMe目前已有40萬用戶,測序價格也已從創業時的999美元降為99美元。23andMe被稱為“個人健康醫療領域的穀歌”。
在解決了測序成本問題以後,基因測序服務普及的最大瓶頸在於數據處理。完全測序的人類個體基因組數據量為100GB~1000GB,壓縮後數據量約為3GB。科學界已知有3000個基因與特定疾病相關,大約每5天發現一個新致病基因,對已有致病基因的認識也在不斷深化。數據量巨大、數據複雜、數據更新頻繁,使得數據存儲、解讀及共享已經成為基因測序產業麵臨的最大挑戰。而大數據和雲計算則成為突破數據處理瓶頸的利器。
2011年,穀歌投資美國DNANexus公司,穀歌將和 DNANexus 一道,利用穀歌的雲計算和大數據平台,打造巨大的開放式的DNA 數據庫,而美國國家生物技術信息中心的DNA數據也將並入其中。
有“基因測序界蘋果”之稱的美國基因測序廠商 IIIumina於2012年推出基因測序雲計算平台——BaseSpace。每用戶可免費存儲1TB測序數據、數百次運行結果的數據,用戶可根據需要運行雲端的基因數據分析應用程序,包括開源和第三方應用程序。
在國內,2012年華大基因推出了第一個自主開發的雲服務產品——EasyGenomicsTM。該平台集基因組學領域內常用的和華大基因特有的數據及參數為一體,結合雲存儲和高性能計算技術,能夠以更低的成本、更高的效率完成大量的基因數據處理及分析。華大基因目前已經擁有212TFlops的峰值計算能力,總內存容量已達到37.2TB,總存儲能力已達到17PB。
老話說“上醫治未病”,意思是最高明的醫生擅長防病。當癌症等重大疾病突然降臨,人們往往哀鳴:“為什麼是我?”基因測序服務能夠為個性化健康管理提供科學依據。新一代測序技術與大數據、雲計算共同發力,將使大眾“治未病”成為可能,一個龐大的基因測序市場即將形成。
6月30日,國家食藥監總局發布公告稱,經審查,批準兩款二代基因測序儀和兩款檢測試劑盒注冊。這意味著基因測序臨床應用重新啟動。