Nvidia與哈佛大學共同發表深度學習工具AtacWorks 以AI加速基因分析
Nvidia與哈佛大學發展以應用深度學習來加速基因分析,使基因診斷疾病更快,難度及成本也更低。
Nvidia與哈佛大學研究人員利用原本用於電腦視覺的神經網路,發展出一個能協助科學家研究罕見細胞型態的深度學習工具,稱為AtacWorks,進一步找出致病的基因突變。他們也在期刊Nature Communication發表論文。
Nvidia研究人員Avantika Lal指出,AtacWorks能協助研究人員研究疾病和基因變異對特定類型的人體細胞有什麼樣的影響,也能進行過去做不到的生物學研究,有助於發現新的標靶藥物。
AtacWorks可配合基因學上研究健康與疾病細胞內基因組常用的方法ATAC-seq。人體細胞都會承載著基因組序列的複本。一個DNA序列大約有30億個鹼基對。但是不同部位的細胞,如肝、血液或皮膚細胞,只能取用形成相關功能的DNA區域。研究DNA的可取用區域可了解不同細胞的差異何在,以及疾病或病變對細胞有什麼影響。
ATAC-seq研究法就是透過為每一組基因組產生訊號來找出這些DNA。訊號的峰值意謂著可取用的DNA區域。但這種方法一般需要數萬個同類細胞才能取得乾淨的訊號,而在研究罕見細胞,如製造紅、白血球和血小板的幹細胞時,就會發生困難。
以AtacWorks神經網路來分析ATAC-seq資料時,Nvidia和哈佛大學研究人員發現他們只需要數十個,而非數萬個同類細胞。研究團隊僅用了50個幹細胞即可辨識出發展出白血球的相關DNA,以及發展出紅血球的DNA序列。
AtacWorks是一個PyTorch的卷積神經網路,利用一對(一組是高品質資料集,一組充滿雜訊的資料集)標註的ATAC-seq資料集訓練而成的模型。這個模型能預測精確、高品質的資料集,辨識出訊號峰值。
AtacWorks過去在32個CPU核心的系統上完成整個基因組的推論(inference)需要15小時,而跑在Nvidia Tensor Core GPU的系統上,只需不用30分鐘即可完成。
Lal指出,研究人員現在可以在任何型態的細胞上訓練模型,然後用在其他類細胞樣本上。因此AtacWorks模型有助於提高多種疾病,包括心血管、阿茲海默症、糖尿病或神經性病變的研究。現在這套模型在Nvidia的NGC軟體實驗室供任何研究人員使用。
來源:ZDNet