俺去啦最新,黄色影片在线免费观看

人工智能利用生物數(shù)據(jù)的難點(diǎn)

2023-10-08 11:26

前言

人工智能（AI）最近在圖像和語音識別等領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響，這一進(jìn)展已經(jīng)轉(zhuǎn)化為實(shí)際應(yīng)用。然而，在藥物發(fā)現(xiàn)領(lǐng)域，這種進(jìn)展仍然很少，其中一個(gè)原因是所使用的數(shù)據(jù)本身。不同領(lǐng)域的數(shù)據(jù)存在顯著的差異，即圖像、語音、化學(xué)和生物領(lǐng)域，尤其在生物領(lǐng)域受限于可用數(shù)據(jù)的數(shù)量，以及與藥物發(fā)現(xiàn)的相關(guān)性，這些都限制了AI在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用。

未來需要我們改進(jìn)對生物系統(tǒng)的理解，以及隨后產(chǎn)生的足夠數(shù)量的實(shí)際相關(guān)數(shù)據(jù)，以真正推進(jìn)AI在藥物發(fā)現(xiàn)領(lǐng)域的發(fā)展，從而能夠發(fā)現(xiàn)新的化合物，以及新的作用模式，從而能夠在實(shí)際的臨床應(yīng)用中表現(xiàn)出理想的療效和安全性。

物理數(shù)據(jù)和生物數(shù)據(jù)的差異

人工智能已經(jīng)改變了許多領(lǐng)域，可能最顯著的是圖像和語音識別領(lǐng)域，除了算法，對于數(shù)據(jù)的要求也非常重要。特別是在“深度學(xué)習(xí)”的背景下，數(shù)據(jù)更是至關(guān)重要的，這涉及到可用數(shù)據(jù)的數(shù)量及其分布。

不同領(lǐng)域的可用數(shù)據(jù)量差別很大，從僅有數(shù)百個(gè)帶有體內(nèi)注釋的數(shù)據(jù)點(diǎn)（例如注釋有可能誘發(fā)藥物性肝損傷的藥物，DILI）到特斯拉運(yùn)營的車隊(duì)每年可用的Zettabytes（1021字節(jié)）。在其他領(lǐng)域，可供使用的化學(xué)和生物數(shù)據(jù)量相對較少。

除了大量可用數(shù)據(jù)外，以計(jì)算機(jī)可修改的形式表示數(shù)據(jù)的能力也至關(guān)重要，為數(shù)據(jù)挖掘使用相關(guān)端點(diǎn)標(biāo)記數(shù)據(jù)的能力也是如此。在這方面圖像識別和化學(xué)，生物領(lǐng)域具有顯著的差異。

在對圖像和語音進(jìn)行分類時(shí)，對對象的模型結(jié)構(gòu)的表示和呈現(xiàn)比使用化學(xué)和生物數(shù)據(jù)時(shí)更為完整，標(biāo)簽的分配也相對不那么模糊。在化學(xué)領(lǐng)域，一個(gè)物體的最佳表征通常是未知的，一種化學(xué)物質(zhì)的不同方面導(dǎo)致不同類型的效應(yīng)，有些可能與官能團(tuán)有關(guān)，有些可能與表面性質(zhì)有關(guān)。而在生物領(lǐng)域，哪種類型的信息提供了與哪個(gè)終點(diǎn)相關(guān)的信息也是很模糊的�；瘜W(xué)和生物領(lǐng)域的共同點(diǎn)是，標(biāo)簽在很大程度上取決于特定實(shí)驗(yàn)的設(shè)置，即使這些相同的東西在“原則上”是可測量的。

人工智能在圍棋等類型的游戲上取得了突破性的進(jìn)展，但這樣的游戲比藥物發(fā)現(xiàn)設(shè)置簡單得多，因?yàn)榇嬖谝唤M有限的狀態(tài)，規(guī)則是明確定義的，并且可以窮盡地計(jì)算（至少在理論上是）。然而在生物學(xué)領(lǐng)域，系統(tǒng)通常不遵循明確定義的規(guī)則（或者至少那些通常屬于未知的規(guī)則，并且只能從可用的有限數(shù)據(jù)中獲取）。相反，系統(tǒng)可以在大量不同的水平上定義，例如轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)水平，也可以從表觀遺傳和功能相互作用水平，以時(shí)間和空間分辨的方式，同時(shí)考慮細(xì)胞內(nèi)和細(xì)胞間信號，從細(xì)胞到生物整體水平。

此外，在生物領(lǐng)域的觀察是高度條件性的（取決于大量的參數(shù)），這通常是未知的。在諸如副作用資源（SIDER）之類的數(shù)據(jù)庫中，人們可以對具有特定副作用的藥物進(jìn)行注釋，并使用這些信息訓(xùn)練計(jì)算模型以進(jìn)行預(yù)測。然而，除了給藥本身外，這種效應(yīng)還取決于：（i）劑量；（ii）受體的遺傳設(shè)置或遺傳多態(tài)性；（iii）影響藥物藥代動(dòng)力學(xué)（PK）特性的因素（如食物攝入量）；（iv）聯(lián)合用藥；（v）疾病狀態(tài)；（vi）性別；（vii）年齡；或者（viii）微生物組；然后副作用可能只發(fā)生在特定的一部分患者身上，而且可能在不同的嚴(yán)重程度、不同的器官中以不同的形式出現(xiàn)。可以明顯看出，不同領(lǐng)域的數(shù)據(jù)及其含義存在很大差異，并非每個(gè)在一個(gè)領(lǐng)域有效的方法都可以直接轉(zhuǎn)移到另一個(gè)領(lǐng)域。化學(xué)和生物數(shù)據(jù)的使用必須非常謹(jǐn)慎，并始終在其背景下加以解釋。

難點(diǎn)1：如何將生物活性和不良反應(yīng)聯(lián)系起來

我們現(xiàn)在根據(jù)間接的藥理學(xué)分析數(shù)據(jù)，并將蛋白質(zhì)基團(tuán)的生物活性與生理功能聯(lián)系起來，試圖說明化學(xué)和生物領(lǐng)域結(jié)論的復(fù)雜性。盡管人們可以假設(shè)，針對蛋白質(zhì)靶點(diǎn)的活性足以理解并預(yù)測其在生物系統(tǒng)中的作用（這確實(shí)有利于藥物發(fā)現(xiàn)中的人工智能方法），但不幸的是，實(shí)際情況并非如此。

例如，基于FDA不良事件報(bào)告系統(tǒng)（FAERS）在考慮靶細(xì)胞生物活性與未結(jié)合血漿濃度的比值時(shí)，即如果一種藥物的血漿濃度高于作用于某一特定靶點(diǎn)所需的閾值，那么假定人們就會(huì)看到一種特定類型的副作用（或者更普遍地說，生物效應(yīng)），分析結(jié)果如下圖所示。

根據(jù)體外生物活性與血漿游離濃度的比值進(jìn)行分析，針對靶點(diǎn)具有高陽性預(yù)測值（PPV）的不良事件往往具有較低的命中率，這意味著只有一小部分與不良事件相關(guān)的藥物與靶點(diǎn)的生物活性相關(guān)。另外，高命中率與低PPV相關(guān)，表明該靶點(diǎn)活性與不良事件對應(yīng)的高假陽性率。因此，總的來說，靶向活性與給藥后觀察到的不良事件之間不存在明確的一對一關(guān)系。

此外，這種分析過于簡單，因?yàn)樵谶@種分析中沒有考慮到許多因素（如化合物代謝、完整的PK、脫靶效應(yīng)等），化合物的單一（甚至沒有）描述將無法解釋預(yù)測藥物效應(yīng)的全部生物學(xué)復(fù)雜性，然而，這是許多計(jì)算藥物發(fā)現(xiàn)方法的基本假定。

比如氯胺酮，氯胺酮既是一種麻醉劑，也是一種街頭毒品，在2000年發(fā)現(xiàn)，當(dāng)明顯低于用作麻醉劑的劑量時(shí)，其表現(xiàn)出抗抑郁的效果，此外，其支氣管擴(kuò)張?zhí)匦砸彩潜娝苤�。盡管氯胺酮長期以來被認(rèn)為是通過阻斷NMDA受體發(fā)揮作用，但其他NMDA阻斷劑，如美金剛和蘭尼西明，在臨床試驗(yàn)中并沒有成功，這暗示了它們各自作用方式的不同，這一點(diǎn)還有待充分了解。除了NMDA受體外，研究發(fā)現(xiàn)阿片受體系統(tǒng)也與氯胺酮的作用有關(guān)。此外，最近發(fā)現(xiàn)氯胺酮的代謝物在抑郁癥動(dòng)物模型中具有活性，人類對氯胺酮的研究仍然有許多未知。這個(gè)案例說明了用明確的作用模式和適應(yīng)癥來注釋藥物的困難，因?yàn)檫@些通常都不知道細(xì)節(jié)，并且取決于劑量、代謝以及其他因素。這使得人工智能在藥物發(fā)現(xiàn)中對這些注釋很差的數(shù)據(jù)的應(yīng)用變得極為艱難。

難點(diǎn)2：藥物發(fā)現(xiàn)中的數(shù)據(jù)和問題設(shè)定

為了在藥物發(fā)現(xiàn)領(lǐng)域使用數(shù)據(jù)分析方法，我們通�？梢詤^(qū)分兩種類型的模型：（i）基于大規(guī)模和代替指標(biāo)的模型，這些模型通常旨在從大量物理可用或虛擬分子（例如，在虛擬篩選中）中選擇化合物，在性質(zhì)上更傾向于定性的模型，包括溶解度、脂溶性或蛋白質(zhì)靶點(diǎn)生物活性的模型通常屬于這一類；以及（ii）基于通常規(guī)模較小的可用數(shù)據(jù)的模型（但通常是與體內(nèi)終點(diǎn)更相關(guān)的數(shù)據(jù)），其中具有更定量的性質(zhì)，旨在預(yù)測安全性或療效相關(guān)終點(diǎn)，更復(fù)雜的模型，如動(dòng)物模型（人體藥效或安全性數(shù)據(jù)）屬于這一類。

在藥物發(fā)現(xiàn)中，通過相對簡單的分析類型可以生成大量的數(shù)據(jù)點(diǎn)，這有利于培訓(xùn)所需的數(shù)據(jù)量。然而，在代理指標(biāo)對相關(guān)體內(nèi)終點(diǎn)的預(yù)測性相對較低的情況下，單純的數(shù)據(jù)量往往不足以生成實(shí)際有用的模型。而相比之下，復(fù)雜生物學(xué)的定量讀數(shù)在人體內(nèi)相關(guān)性方面可能更有利，但這些數(shù)據(jù)更難生成和建模。

總而言之，我們目前還沒有合適類型的數(shù)據(jù)來生成模型，從而真正利用人工智能進(jìn)行藥物發(fā)現(xiàn)。因此，對這些代理終點(diǎn)進(jìn)行建模的能力的增量變化也不會(huì)改變游戲規(guī)則，因?yàn)樗鼈儾粫?huì)轉(zhuǎn)化為與藥物安全性和療效相關(guān)的任何體內(nèi)終點(diǎn)。在許多情況下，我們對生物學(xué)的理解還不足以指導(dǎo)我們需要測量什么，而替代終點(diǎn)的選擇（與理化性質(zhì)、PK、療效或安全性相關(guān)）總是與它們?nèi)绾无D(zhuǎn)化為臨床的重大不確定性相關(guān)。鑒于可用基礎(chǔ)數(shù)據(jù)的這一特性，無論使用何種算法也無法改善當(dāng)前的情況。

難點(diǎn)3：藥物發(fā)現(xiàn)中的數(shù)據(jù)注釋與標(biāo)識

由于各種原因，生物注釋通常遠(yuǎn)遠(yuǎn)不適合用于數(shù)據(jù)挖掘，例如藥物的“作用模式”概念，其中通常使用解剖治療分類（ATC）代碼來提供這種類型的標(biāo)簽。然而，ATC代碼在歷史上一直在增長，ATC的最高級別類別是器官級別，這與任何有意義的生物學(xué)行為模式都沒有聯(lián)系。

那么還有哪些選擇？例如，在特定靶標(biāo)上的活性是一種常見的選擇，可以使用Entrez基因ID作為目標(biāo)標(biāo)識符，然而，情況并不是那么簡單。如果一個(gè)唯一可識別的基因不是靶標(biāo)，而只是一個(gè)特定的剪接變體，或者一個(gè)的特定激活狀態(tài)（例如激酶的磷酸化形式），或者一個(gè)特定的變構(gòu)結(jié)合位點(diǎn)，那么應(yīng)該使用哪個(gè)標(biāo)識符？此外，該靶點(diǎn)也可能被抑制（而其濃度保持不變），或其表達(dá)可能被改變（例如，跨細(xì)胞類型或狀態(tài)），或可能通過PROTACs標(biāo)記降解，等等。

因此，有許多不同的方式與藥物靶點(diǎn)相互作用，其中只有少數(shù)是功能等效的。此外，同一靶點(diǎn)上不同類型的相互作用可能導(dǎo)致不同的效果；在最簡單的情況下，這可能是蛋白質(zhì)上的激動(dòng)劑和拮抗劑之間的差異；但受體藥理學(xué)當(dāng)然比這更微妙，而且偏倚的信號傳遞或考慮配體-受體相互作用的藥效學(xué)，它們的功能性后果，導(dǎo)致了如何用行為模式“標(biāo)記”特定化合物以實(shí)現(xiàn)數(shù)據(jù)挖掘的進(jìn)一步復(fù)雜化。因此，即使一個(gè)人接受這樣一個(gè)前提，即針對特定靶點(diǎn)的活性可以被用來注釋化合物的作用模式（這本身就是一個(gè)很大的“如果”），那么用于這個(gè)目的的標(biāo)簽決不是無足輕重的。

未來AI在藥物發(fā)現(xiàn)中的發(fā)展方向

目前，我們經(jīng)常“在數(shù)據(jù)所在的地方建模”，這就像只在燈光所在的地方去尋找車鑰匙，而不是真正期望在哪里找到它們，僅僅擁有“數(shù)據(jù)”是沒有幫助的，我們需要的是正確的數(shù)據(jù)，以正確的格式提供，并用于正確的目的，藥物發(fā)現(xiàn)中的人工智能才能給該領(lǐng)域帶來真正的變化。

人們已經(jīng)認(rèn)識到，藥物發(fā)現(xiàn)數(shù)據(jù)需要更好地被組織起來，目前，我們已經(jīng)能夠更好地進(jìn)行數(shù)據(jù)查找、編目和搜索，所有這些都是有用的。然而，要進(jìn)入下一個(gè)層次，我們需要超越現(xiàn)有數(shù)據(jù)的局限性，并根據(jù)這些數(shù)據(jù)所包含的信息來決定我們需要哪些數(shù)據(jù)來回答與體內(nèi)安全性和有效性相關(guān)的問題。

科學(xué)問題或假設(shè)，是任何模型的開始，這使我們能夠以一種有針對性的方式生成數(shù)據(jù)，我們需要以適當(dāng)?shù)姆绞奖硎具@些數(shù)據(jù)，并最終使用適當(dāng)?shù)姆椒ǚ治鰯?shù)據(jù)。

為了能夠在藥物發(fā)現(xiàn)的決策中真正使用化學(xué)和生物數(shù)據(jù)，我們需要超越技術(shù)“推動(dòng)”產(chǎn)生的數(shù)據(jù)，朝著科學(xué)需求的“拉動(dòng)”方向發(fā)展。因此，我們首先需要更好地確定要測量什么。

小結(jié)

藥物發(fā)現(xiàn)領(lǐng)域的可用數(shù)據(jù)本質(zhì)上與人工智能最近取得巨大進(jìn)展的其他領(lǐng)域（如圖像識別領(lǐng)域）的數(shù)據(jù)有根本不同。在許多情況下，生命科學(xué)數(shù)據(jù)很難標(biāo)記，這是人工智能方法在藥物發(fā)現(xiàn)領(lǐng)域應(yīng)用時(shí)的一個(gè)嚴(yán)重問題。

為了真正推動(dòng)這一領(lǐng)域的發(fā)展，我們需要了解為哪種目的生成哪些數(shù)據(jù)，這首先涉及到更好地理解生物學(xué)。只有當(dāng)我們能夠在體內(nèi)測量和捕捉相關(guān)的生物終點(diǎn)時(shí)，我們才能在這一領(lǐng)域取得更大的進(jìn)展，并將目前可用的計(jì)算算法有效地應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域，以提高化合物在臨床上的療效和安全性。

參考文獻(xiàn)：

1.Artificial intelligence in drug discovery: what is realistic, whatare illusions? Part 2: a discussion of chemical and biological data. DrugDiscov Today. 2021 Jan 27;S1359-6446(21)00042-8.

原文標(biāo)題 : 人工智能利用生物數(shù)據(jù)的難點(diǎn)