人工智能利用生物數(shù)據(jù)的難點(diǎn)
前言
人工智能(AI)最近在圖像和語音識別等領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響,這一進(jìn)展已經(jīng)轉(zhuǎn)化為實(shí)際應(yīng)用。然而,在藥物發(fā)現(xiàn)領(lǐng)域,這種進(jìn)展仍然很少,其中一個(gè)原因是所使用的數(shù)據(jù)本身。不同領(lǐng)域的數(shù)據(jù)存在顯著的差異,即圖像、語音、化學(xué)和生物領(lǐng)域,尤其在生物領(lǐng)域受限于可用數(shù)據(jù)的數(shù)量,以及與藥物發(fā)現(xiàn)的相關(guān)性,這些都限制了AI在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用。
未來需要我們改進(jìn)對生物系統(tǒng)的理解,以及隨后產(chǎn)生的足夠數(shù)量的實(shí)際相關(guān)數(shù)據(jù),以真正推進(jìn)AI在藥物發(fā)現(xiàn)領(lǐng)域的發(fā)展,從而能夠發(fā)現(xiàn)新的化合物,以及新的作用模式,從而能夠在實(shí)際的臨床應(yīng)用中表現(xiàn)出理想的療效和安全性。
物理數(shù)據(jù)和生物數(shù)據(jù)的差異
人工智能已經(jīng)改變了許多領(lǐng)域,可能最顯著的是圖像和語音識別領(lǐng)域,除了算法,對于數(shù)據(jù)的要求也非常重要。特別是在“深度學(xué)習(xí)”的背景下,數(shù)據(jù)更是至關(guān)重要的,這涉及到可用數(shù)據(jù)的數(shù)量及其分布。
不同領(lǐng)域的可用數(shù)據(jù)量差別很大,從僅有數(shù)百個(gè)帶有體內(nèi)注釋的數(shù)據(jù)點(diǎn)(例如注釋有可能誘發(fā)藥物性肝損傷的藥物,DILI)到特斯拉運(yùn)營的車隊(duì)每年可用的Zettabytes(1021字節(jié))。在其他領(lǐng)域,可供使用的化學(xué)和生物數(shù)據(jù)量相對較少。
除了大量可用數(shù)據(jù)外,以計(jì)算機(jī)可修改的形式表示數(shù)據(jù)的能力也至關(guān)重要,為數(shù)據(jù)挖掘使用相關(guān)端點(diǎn)標(biāo)記數(shù)據(jù)的能力也是如此。在這方面圖像識別和化學(xué),生物領(lǐng)域具有顯著的差異。
在對圖像和語音進(jìn)行分類時(shí),對對象的模型結(jié)構(gòu)的表示和呈現(xiàn)比使用化學(xué)和生物數(shù)據(jù)時(shí)更為完整,標(biāo)簽的分配也相對不那么模糊。在化學(xué)領(lǐng)域,一個(gè)物體的最佳表征通常是未知的,一種化學(xué)物質(zhì)的不同方面導(dǎo)致不同類型的效應(yīng),有些可能與官能團(tuán)有關(guān),有些可能與表面性質(zhì)有關(guān)。而在生物領(lǐng)域,哪種類型的信息提供了與哪個(gè)終點(diǎn)相關(guān)的信息也是很模糊的;瘜W(xué)和生物領(lǐng)域的共同點(diǎn)是,標(biāo)簽在很大程度上取決于特定實(shí)驗(yàn)的設(shè)置,即使這些相同的東西在“原則上”是可測量的。
人工智能在圍棋等類型的游戲上取得了突破性的進(jìn)展,但這樣的游戲比藥物發(fā)現(xiàn)設(shè)置簡單得多,因?yàn)榇嬖谝唤M有限的狀態(tài),規(guī)則是明確定義的,并且可以窮盡地計(jì)算(至少在理論上是)。然而在生物學(xué)領(lǐng)域,系統(tǒng)通常不遵循明確定義的規(guī)則(或者至少那些通常屬于未知的規(guī)則,并且只能從可用的有限數(shù)據(jù)中獲取)。相反,系統(tǒng)可以在大量不同的水平上定義,例如轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)水平,也可以從表觀遺傳和功能相互作用水平,以時(shí)間和空間分辨的方式,同時(shí)考慮細(xì)胞內(nèi)和細(xì)胞間信號,從細(xì)胞到生物整體水平。
此外,在生物領(lǐng)域的觀察是高度條件性的(取決于大量的參數(shù)),這通常是未知的。在諸如副作用資源(SIDER)之類的數(shù)據(jù)庫中,人們可以對具有特定副作用的藥物進(jìn)行注釋,并使用這些信息訓(xùn)練計(jì)算模型以進(jìn)行預(yù)測。然而,除了給藥本身外,這種效應(yīng)還取決于:(i)劑量;(ii)受體的遺傳設(shè)置或遺傳多態(tài)性;(iii)影響藥物藥代動(dòng)力學(xué)(PK)特性的因素(如食物攝入量);(iv)聯(lián)合用藥;(v)疾病狀態(tài);(vi)性別;(vii)年齡;或者(viii)微生物組;然后副作用可能只發(fā)生在特定的一部分患者身上,而且可能在不同的嚴(yán)重程度、不同的器官中以不同的形式出現(xiàn)。可以明顯看出,不同領(lǐng)域的數(shù)據(jù)及其含義存在很大差異,并非每個(gè)在一個(gè)領(lǐng)域有效的方法都可以直接轉(zhuǎn)移到另一個(gè)領(lǐng)域。化學(xué)和生物數(shù)據(jù)的使用必須非常謹(jǐn)慎,并始終在其背景下加以解釋。
難點(diǎn)1:如何將生物活性和不良反應(yīng)聯(lián)系起來
我們現(xiàn)在根據(jù)間接的藥理學(xué)分析數(shù)據(jù),并將蛋白質(zhì)基團(tuán)的生物活性與生理功能聯(lián)系起來,試圖說明化學(xué)和生物領(lǐng)域結(jié)論的復(fù)雜性。盡管人們可以假設(shè),針對蛋白質(zhì)靶點(diǎn)的活性足以理解并預(yù)測其在生物系統(tǒng)中的作用(這確實(shí)有利于藥物發(fā)現(xiàn)中的人工智能方法),但不幸的是,實(shí)際情況并非如此。
例如,基于FDA不良事件報(bào)告系統(tǒng)(FAERS)在考慮靶細(xì)胞生物活性與未結(jié)合血漿濃度的比值時(shí),即如果一種藥物的血漿濃度高于作用于某一特定靶點(diǎn)所需的閾值,那么假定人們就會(huì)看到一種特定類型的副作用(或者更普遍地說,生物效應(yīng)),分析結(jié)果如下圖所示。
根據(jù)體外生物活性與血漿游離濃度的比值進(jìn)行分析,針對靶點(diǎn)具有高陽性預(yù)測值(PPV)的不良事件往往具有較低的命中率,這意味著只有一小部分與不良事件相關(guān)的藥物與靶點(diǎn)的生物活性相關(guān)。另外,高命中率與低PPV相關(guān),表明該靶點(diǎn)活性與不良事件對應(yīng)的高假陽性率。因此,總的來說,靶向活性與給藥后觀察到的不良事件之間不存在明確的一對一關(guān)系。
此外,這種分析過于簡單,因?yàn)樵谶@種分析中沒有考慮到許多因素(如化合物代謝、完整的PK、脫靶效應(yīng)等),化合物的單一(甚至沒有)描述將無法解釋預(yù)測藥物效應(yīng)的全部生物學(xué)復(fù)雜性,然而,這是許多計(jì)算藥物發(fā)現(xiàn)方法的基本假定。
比如氯胺酮,氯胺酮既是一種麻醉劑,也是一種街頭毒品,在2000年發(fā)現(xiàn),當(dāng)明顯低于用作麻醉劑的劑量時(shí),其表現(xiàn)出抗抑郁的效果,此外,其支氣管擴(kuò)張?zhí)匦砸彩潜娝苤。盡管氯胺酮長期以來被認(rèn)為是通過阻斷NMDA受體發(fā)揮作用,但其他NMDA阻斷劑,如美金剛和蘭尼西明,在臨床試驗(yàn)中并沒有成功,這暗示了它們各自作用方式的不同,這一點(diǎn)還有待充分了解。除了NMDA受體外,研究發(fā)現(xiàn)阿片受體系統(tǒng)也與氯胺酮的作用有關(guān)。此外,最近發(fā)現(xiàn)氯胺酮的代謝物在抑郁癥動(dòng)物模型中具有活性,人類對氯胺酮的研究仍然有許多未知。這個(gè)案例說明了用明確的作用模式和適應(yīng)癥來注釋藥物的困難,因?yàn)檫@些通常都不知道細(xì)節(jié),并且取決于劑量、代謝以及其他因素。這使得人工智能在藥物發(fā)現(xiàn)中對這些注釋很差的數(shù)據(jù)的應(yīng)用變得極為艱難。
難點(diǎn)2:藥物發(fā)現(xiàn)中的數(shù)據(jù)和問題設(shè)定
為了在藥物發(fā)現(xiàn)領(lǐng)域使用數(shù)據(jù)分析方法,我們通?梢詤^(qū)分兩種類型的模型:(i)基于大規(guī)模和代替指標(biāo)的模型,這些模型通常旨在從大量物理可用或虛擬分子(例如,在虛擬篩選中)中選擇化合物,在性質(zhì)上更傾向于定性的模型,包括溶解度、脂溶性或蛋白質(zhì)靶點(diǎn)生物活性的模型通常屬于這一類;以及(ii)基于通常規(guī)模較小的可用數(shù)據(jù)的模型(但通常是與體內(nèi)終點(diǎn)更相關(guān)的數(shù)據(jù)),其中具有更定量的性質(zhì),旨在預(yù)測安全性或療效相關(guān)終點(diǎn),更復(fù)雜的模型,如動(dòng)物模型(人體藥效或安全性數(shù)據(jù))屬于這一類。
在藥物發(fā)現(xiàn)中,通過相對簡單的分析類型可以生成大量的數(shù)據(jù)點(diǎn),這有利于培訓(xùn)所需的數(shù)據(jù)量。然而,在代理指標(biāo)對相關(guān)體內(nèi)終點(diǎn)的預(yù)測性相對較低的情況下,單純的數(shù)據(jù)量往往不足以生成實(shí)際有用的模型。而相比之下,復(fù)雜生物學(xué)的定量讀數(shù)在人體內(nèi)相關(guān)性方面可能更有利,但這些數(shù)據(jù)更難生成和建模。
總而言之,我們目前還沒有合適類型的數(shù)據(jù)來生成模型,從而真正利用人工智能進(jìn)行藥物發(fā)現(xiàn)。因此,對這些代理終點(diǎn)進(jìn)行建模的能力的增量變化也不會(huì)改變游戲規(guī)則,因?yàn)樗鼈儾粫?huì)轉(zhuǎn)化為與藥物安全性和療效相關(guān)的任何體內(nèi)終點(diǎn)。在許多情況下,我們對生物學(xué)的理解還不足以指導(dǎo)我們需要測量什么,而替代終點(diǎn)的選擇(與理化性質(zhì)、PK、療效或安全性相關(guān))總是與它們?nèi)绾无D(zhuǎn)化為臨床的重大不確定性相關(guān)。鑒于可用基礎(chǔ)數(shù)據(jù)的這一特性,無論使用何種算法也無法改善當(dāng)前的情況。
難點(diǎn)3:藥物發(fā)現(xiàn)中的數(shù)據(jù)注釋與標(biāo)識
由于各種原因,生物注釋通常遠(yuǎn)遠(yuǎn)不適合用于數(shù)據(jù)挖掘,例如藥物的“作用模式”概念,其中通常使用解剖治療分類(ATC)代碼來提供這種類型的標(biāo)簽。然而,ATC代碼在歷史上一直在增長,ATC的最高級別類別是器官級別,這與任何有意義的生物學(xué)行為模式都沒有聯(lián)系。
那么還有哪些選擇?例如,在特定靶標(biāo)上的活性是一種常見的選擇,可以使用Entrez基因ID作為目標(biāo)標(biāo)識符,然而,情況并不是那么簡單。如果一個(gè)唯一可識別的基因不是靶標(biāo),而只是一個(gè)特定的剪接變體,或者一個(gè)的特定激活狀態(tài)(例如激酶的磷酸化形式),或者一個(gè)特定的變構(gòu)結(jié)合位點(diǎn),那么應(yīng)該使用哪個(gè)標(biāo)識符?此外,該靶點(diǎn)也可能被抑制(而其濃度保持不變),或其表達(dá)可能被改變(例如,跨細(xì)胞類型或狀態(tài)),或可能通過PROTACs標(biāo)記降解,等等。
因此,有許多不同的方式與藥物靶點(diǎn)相互作用,其中只有少數(shù)是功能等效的。此外,同一靶點(diǎn)上不同類型的相互作用可能導(dǎo)致不同的效果;在最簡單的情況下,這可能是蛋白質(zhì)上的激動(dòng)劑和拮抗劑之間的差異;但受體藥理學(xué)當(dāng)然比這更微妙,而且偏倚的信號傳遞或考慮配體-受體相互作用的藥效學(xué),它們的功能性后果,導(dǎo)致了如何用行為模式“標(biāo)記”特定化合物以實(shí)現(xiàn)數(shù)據(jù)挖掘的進(jìn)一步復(fù)雜化。因此,即使一個(gè)人接受這樣一個(gè)前提,即針對特定靶點(diǎn)的活性可以被用來注釋化合物的作用模式(這本身就是一個(gè)很大的“如果”),那么用于這個(gè)目的的標(biāo)簽決不是無足輕重的。
未來AI在藥物發(fā)現(xiàn)中的發(fā)展方向
目前,我們經(jīng)常“在數(shù)據(jù)所在的地方建模”,這就像只在燈光所在的地方去尋找車鑰匙,而不是真正期望在哪里找到它們,僅僅擁有“數(shù)據(jù)”是沒有幫助的,我們需要的是正確的數(shù)據(jù),以正確的格式提供,并用于正確的目的,藥物發(fā)現(xiàn)中的人工智能才能給該領(lǐng)域帶來真正的變化。
人們已經(jīng)認(rèn)識到,藥物發(fā)現(xiàn)數(shù)據(jù)需要更好地被組織起來,目前,我們已經(jīng)能夠更好地進(jìn)行數(shù)據(jù)查找、編目和搜索,所有這些都是有用的。然而,要進(jìn)入下一個(gè)層次,我們需要超越現(xiàn)有數(shù)據(jù)的局限性,并根據(jù)這些數(shù)據(jù)所包含的信息來決定我們需要哪些數(shù)據(jù)來回答與體內(nèi)安全性和有效性相關(guān)的問題。
科學(xué)問題或假設(shè),是任何模型的開始,這使我們能夠以一種有針對性的方式生成數(shù)據(jù),我們需要以適當(dāng)?shù)姆绞奖硎具@些數(shù)據(jù),并最終使用適當(dāng)?shù)姆椒ǚ治鰯?shù)據(jù)。
為了能夠在藥物發(fā)現(xiàn)的決策中真正使用化學(xué)和生物數(shù)據(jù),我們需要超越技術(shù)“推動(dòng)”產(chǎn)生的數(shù)據(jù),朝著科學(xué)需求的“拉動(dòng)”方向發(fā)展。因此,我們首先需要更好地確定要測量什么。
小結(jié)
藥物發(fā)現(xiàn)領(lǐng)域的可用數(shù)據(jù)本質(zhì)上與人工智能最近取得巨大進(jìn)展的其他領(lǐng)域(如圖像識別領(lǐng)域)的數(shù)據(jù)有根本不同。在許多情況下,生命科學(xué)數(shù)據(jù)很難標(biāo)記,這是人工智能方法在藥物發(fā)現(xiàn)領(lǐng)域應(yīng)用時(shí)的一個(gè)嚴(yán)重問題。
為了真正推動(dòng)這一領(lǐng)域的發(fā)展,我們需要了解為哪種目的生成哪些數(shù)據(jù),這首先涉及到更好地理解生物學(xué)。只有當(dāng)我們能夠在體內(nèi)測量和捕捉相關(guān)的生物終點(diǎn)時(shí),我們才能在這一領(lǐng)域取得更大的進(jìn)展,并將目前可用的計(jì)算算法有效地應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域,以提高化合物在臨床上的療效和安全性。
參考文獻(xiàn):
1.Artificial intelligence in drug discovery: what is realistic, whatare illusions? Part 2: a discussion of chemical and biological data. DrugDiscov Today. 2021 Jan 27;S1359-6446(21)00042-8.
原文標(biāo)題 : 人工智能利用生物數(shù)據(jù)的難點(diǎn)
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
即日-1.14火熱報(bào)名中>> OFweek2025中國智造CIO在線峰會(huì)
-
7月30-31日報(bào)名參會(huì)>>> 全數(shù)會(huì)2025中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
精彩回顧立即查看>> 【上海線下】設(shè)計(jì),易如反掌—Creo 11發(fā)布巡展
-
精彩回顧立即查看>> 【線下論壇】華邦電子與萊迪思聯(lián)合技術(shù)論壇
-
精彩回顧立即查看>> 【線下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
- 高級軟件工程師 廣東省/深圳市
- 自動(dòng)化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市