AI 加速生物研究!用機器學習發現近 6000 種未知病毒,登上《Nature》

研究人員利用人工智慧發現了近 6000 種未知的病毒。這項工作是在 3 月 15 日由美國能源部 (DOE) 組織的一次會議上提出的,它展示了一種探索地球上巨大而未知的病毒多樣性的新工具。
評論
Photo credit: Leonel Cunha on Flickr
Photo credit: Leonel Cunha on Flickr
評論

原文刊登於 雷鋒網 ,INSIDE 獲授權轉載。

《Nature》 雜誌近日發佈消息稱,研究人員利用人工智慧發現了近 6000 種未知的病毒。這項工作是在 3 月 15 日由美國能源部 (DOE) 組織的一次會議上提出的,它展示了一種探索地球上巨大而未知的病毒多樣性的新工具。

從人類健康到垃圾降解,雖然病毒的影響力十分巨大,但它們卻很難被摸透。 科學家們無法在實驗室環境中培養大多數病毒,識別其基因序列的嘗試也往往無法進行,因為病毒的基因組很小並且進化得很快。

近年來,研究人員透過對來自不同環境的樣本進行 DNA 測序,來尋找未知的病毒。為了識別出現的微生物,研究人員搜尋已知病毒和細菌的遺傳特徵,正如文字處理器的「尋找」功能會突出顯示文檔中包含特定字母的單詞。但是這種方法經常失敗,因為病毒學家無法搜尋他們不知道的東西。

不過,機器學習解決了這個問題,因為它可以發現大量訊息中的新興模式。機器學習演算法解析數據,從中學習,然後自主分類資訊。

南加州大學洛杉磯分校的計算生物學家 Jie Ren 表示,「以前,人們沒有辦法好好地研究病毒,但現在我們有新工具可以找到它們。」

在最近的一項研究中,美國能源部聯合基因組研究所(JGI)的計算生物學家 Simon Roux 訓練計算機識別不常見的 Inoviridae 病毒家族的基因序列。這些病毒生存在細菌中並改變宿主的行為,例如,它們會使得引起霍亂的霍亂弧菌細菌毒性更強。在加州舊金山召開的會議上,他提出了自己的研究成果。他表示,在他的研究開始之前已經有不到 100 種基因組被發現。

Roux 提出了一種機器學習演算法,其中包含兩組數據:其中一組含有來自已知的 Inoviridae 的 805 個基因組序列,另一個含有來自細菌和其他類型病毒的約 2000 個基因序列。該演算法可以找到區分它們的方法。

接下來,Roux 向模型饋送大量宏基因組學數據集。該計算機回收了超過 10000 種的 Inoviridae 基因組,並將其分成不同種類的集群。他說,其中一些集群之間的遺傳變異很大,以至於 Inoviridae 可能有很多家族。

瞭解到,在另一項研究中,巴西聖保羅大學的生物訊息學家 Deyvid Amgarten 利用機器學習在城市動物園尋找肥料堆中的病毒。他編寫了演算法來搜尋病毒基因組的一些顯著特徵,例如給定長度的 DNA 鏈中的基因密度。訓練結束後,計算機復原了幾個似乎是新型的基因組,Amgarten 表示。他在 JGI 會議上介紹了他的結果。最後一步是瞭解這些病毒產生的蛋白質,看看它們中的哪些會加速有機物質分解的速度。「我們想提高肥料的質量。」他說。

Amgarten 是從去年報告的一項機器學習工具即 Ren 的團隊開發的 VirFinder 中得到靈感的。VirFinder 被設計為尋找 DNA 鹼基組合,例如 DNA 雙鏈中的 AT 或 GC。Ren 將該演算法應用於健康者和肝硬化患者(一種由肝炎、慢性酒精中毒引起的疾病)的基因組樣本。機器將取樣的病毒完成了分組之後,該團隊注意到樣本中某些特定類型的基因組在健康人群中相對更少或更多,這意味著這些基因組相關的病毒可能導致了疾病。

Ren 的發現是一個引人注目的發現:生物醫學研究人員一直在想,病毒是否會導致一些難以捉摸的症狀,如慢性疲勞綜合徵(也稱為肌痛性腦脊髓炎)和炎症性腸病。康乃狄克州法明頓的 Jackson 基因組醫學實驗室免疫學家 Derya  Unutmaz 推測,病毒可能會引發一種破壞性炎症反應,或者他們可能會改變人體微生物群中細菌的行為,反過來會破壞新陳代謝和免疫系統。

Unutmaz 說,應用機器學習,研究人員可以確定隱藏在患者身上的病毒。此外,由於 AI 有能力在大量數據集中尋找模式,這種方法也許可以將病毒數據與細菌相關聯,然後將症狀數據與蛋白質變化聯繫起來。Unutmaz 說,「機器學習甚至可以揭示我們從來沒有想過的問題。」



精選熱門好工作

網頁前端工程師

Omlet Arcade 美商歐姆雷特
臺北市.台灣

獎勵 NT$15,000

HR 人資總務專員

WeMo Scooter
臺北市.台灣

獎勵 NT$15,000

財務行政專員 Finance Associate

百睿達有限公司
臺北市.台灣

獎勵 NT$15,000