国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

【機器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!

【機器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
隨著各個科學(xué)領(lǐng)域數(shù)據(jù)的可用性不斷增加,生成模型在加速科學(xué)發(fā)現(xiàn)方面具有巨大的潛力。生成模型利用從數(shù)據(jù)集中學(xué)習(xí)到的有效表示來加速新假設(shè)的制定,這些假設(shè)有可能對材料的發(fā)現(xiàn)產(chǎn)生廣泛的影響。在這篇Brief Communication中,IBM歐洲研究院Matteo Manica等人介紹了他們最近提出的用于科學(xué)發(fā)現(xiàn)的生成式工具包(GT4SD)。這個可擴展的開源庫使科學(xué)家、開發(fā)人員和研究人員能夠訓(xùn)練和使用最先進的生成模型,以加速材料設(shè)計,推動科學(xué)發(fā)現(xiàn)。
研究背景
科學(xué)方法在很大程度上推動了上個世紀(jì)技術(shù)的迅速進步。然而,在一些重要領(lǐng)域,如材料或藥物的發(fā)現(xiàn),生產(chǎn)率一直在急劇下降。如今,發(fā)現(xiàn)新材料可能需要近十年的時間,成本高達1000萬至1億美元。天然產(chǎn)物及其衍生物的儲存庫已經(jīng)在很大程度上被消耗完,自下而上的假設(shè)已經(jīng)表明,在巨大的搜索空間中識別和選擇新的和有用的候選物是極具挑戰(zhàn)性的,例如,藥物類分子的化學(xué)空間估計可包含>1033個結(jié)構(gòu)。為了克服這個問題,近年來,基于機器學(xué)習(xí)的生成模型,如變分自編碼器(VAE),生成對抗網(wǎng)絡(luò)(GAN)已經(jīng)成為一種實用的方法,可以利用分子結(jié)構(gòu)的不同表示(例如基于文本的SMILES和SELFIES,或基于圖形的表示)來設(shè)計和發(fā)現(xiàn)具有所需屬性的分子。與枚舉搜索或網(wǎng)格搜索相比,生成模型可以更有效地探索從標(biāo)準(zhǔn)定義的數(shù)據(jù)中學(xué)習(xí)到的巨大搜索空間,已經(jīng)在糖和染料分子的設(shè)計,特定靶標(biāo)的配體,抗癌靶向分子,抗菌肽和半導(dǎo)體材料中得到了應(yīng)用。
與此同時,越來越多的研究者正在努力開發(fā)軟件包來評估機器學(xué)習(xí)模型及其在材料科學(xué)中的應(yīng)用。在性能預(yù)測方面,發(fā)布了用于材料性能預(yù)測的模型、數(shù)據(jù)挖掘工具包和基準(zhǔn)測試軟件包,如CGCNN、pymatgen、Matminer、Matbench/AutoMatminer等。在生成模型方面,GuacaMol和Moses等通用框架為特定領(lǐng)域的生成模型軟件鋪平了道路,這些軟件在藥物發(fā)現(xiàn)領(lǐng)域也越來越受歡迎。
最近,研究者也提出了很多新的方法。生成流網(wǎng)絡(luò)(GFN)是一種利用強化學(xué)習(xí)的思想來提高樣本多樣性的生成模型,它為圖的結(jié)構(gòu)化數(shù)據(jù)提供了一種非迭代的采樣機制。GFN特別適合于分子生成領(lǐng)域中樣本多樣性難以保證的問題。擴散模型(DM)是學(xué)習(xí)復(fù)雜的高維分布的生成模型,在多個維度上對數(shù)據(jù)去噪。DM在無條件和有條件的視覺任務(wù)中解決樣本質(zhì)量和多樣性方面取得了令人印象深刻的結(jié)果。條件生成模型已經(jīng)在分子構(gòu)象表示以及蛋白質(zhì)生成與對接等領(lǐng)域得到應(yīng)用。
在這種情況下,由于軟件庫和工具包可以降低使用生成模型的難度,人們對軟件庫和工具包的需求也日益增長??紤]到不斷增長的模型規(guī)模以及訓(xùn)練模型對大量計算資源的巨大需求,這種低成本、簡易的軟件包開發(fā)需求正變得更加迫切。而且,這種趨勢在資金充足的機構(gòu)中的一小群享有特權(quán)的研究人員和科學(xué)界的其他成員之間造成了不平衡,從而違背了開放、合作和公平的科學(xué)原則。
圖文導(dǎo)讀
為此,作者開發(fā)了用于科學(xué)發(fā)現(xiàn)的生成式工具包(GT4SD)。這個Python庫旨在通過開發(fā)一個框架來簡化生成模型的訓(xùn)練、執(zhí)行和開發(fā),從而加速科學(xué)發(fā)現(xiàn)。如圖1所示,GT4SD為所有生成模型提供了一個統(tǒng)一的應(yīng)用程序注冊表,并為每一個屬性提供了一個單獨的注冊表。這不需要用戶熟悉開發(fā)代碼,從而大大降低了使用門檻。此外,模型之間的高度標(biāo)準(zhǔn)化簡化了對新模型的集成,促進了容器化或分布式計算系統(tǒng)的使用。GT4SD為訪問最先進的生成模型提供了最大的框架,它可以用來執(zhí)行、訓(xùn)練、微調(diào)和部署生成模型,所有這些都可以直接通過Python或通過高度靈活的命令行界面(CLI)來完成。所有預(yù)先訓(xùn)練的模型都可以通過托管在Hugging Face Spaces上的web應(yīng)用程序,直接在瀏覽器執(zhí)行。對于高級用戶,GT4SD模型中心對在新數(shù)據(jù)集上訓(xùn)練現(xiàn)有算法的發(fā)布過程進行了簡化,以便在工作流程中進行即時和持續(xù)的集成。
GT4SD提供了一組生成假設(shè)(推理管道)和微調(diào)特定領(lǐng)域的生成模型(訓(xùn)練管道)的功能,與現(xiàn)有的流行庫兼容和互操作,包括PyTorch, PyTorch Lightning,Hugging Face Transformers,Diffusers,GuacaMol,Moses,TorchDrug,GFlowNets和MoLeR,也包括廣泛的預(yù)訓(xùn)練模型和材料設(shè)計的應(yīng)用程序。GT4SD提供了簡單的接口,使得生成模型只需要使用幾行代碼就可以輕易部署。該工具為有興趣在科學(xué)研究中應(yīng)用最先進模型的研究人員和學(xué)生提供了一個環(huán)境,使他們能夠使用各種各樣的預(yù)訓(xùn)練模型進行實驗,涵蓋廣泛的材料科學(xué)和藥物發(fā)現(xiàn)應(yīng)用。此外,GT4SD提供了一個標(biāo)準(zhǔn)化的CLI,用于推理和訓(xùn)練的APIs不會影響對算法細粒度參數(shù)的確定和>15種基于預(yù)訓(xùn)練模型的web應(yīng)用程序的能力。
【機器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
圖1. GT4SD結(jié)構(gòu),實現(xiàn)了生成模型的推理和訓(xùn)練管道,GT4SD還提供了用于算法版本控制和共享的實用程序,以便在社區(qū)中更廣泛地使用。
可以說,加速科學(xué)發(fā)現(xiàn)的最大潛力在于從頭分子設(shè)計領(lǐng)域,特別是在材料和藥物發(fā)現(xiàn)方面。隨著幾項(預(yù))臨床試驗的進行,第一種人工智能生成的藥物獲得FDA的批準(zhǔn)并進入市場只是時間問題。在一項開創(chuàng)性的研究中,深度強化學(xué)習(xí)模型(GENTRL)被用于發(fā)現(xiàn)有效的DDR1抑制劑,這是一種與纖維化、癌癥和其他疾病有關(guān)的重要蛋白激酶靶點。總共合成了6個分子,其中4個分子在生化試驗中被發(fā)現(xiàn)有活性,1個在小鼠體內(nèi)表現(xiàn)出良好的藥代動力學(xué)(gentrl-ddr1)。作為應(yīng)用于分子發(fā)現(xiàn)的典型案例,作者依據(jù)gentrl-ddr1生成一個相似的分子,提升其估計的水溶性(ESOL)。低的水溶性影響了>40%的新化學(xué)實體,因此對藥物遞送構(gòu)成了主要障礙,提高溶解度需要探索gentrl-ddr1周圍的局部化學(xué)空間,以找到優(yōu)化的先導(dǎo)化合物。
【機器學(xué)習(xí)】npj. Comput. Mater.:加速材料設(shè)計的生成式平臺——GT4SD,推動科學(xué)發(fā)現(xiàn)!
圖2. 使用GT4SD進行分子發(fā)現(xiàn)的案例研究,從使用生成模型設(shè)計的化合物開始(gentrl-ddr1),作者展示了如何使用GT4SD快速設(shè)計具有所需屬性的分子,使用庫中可用的一系列算法(兩種設(shè)置:無條件和條件)。條件模型可以受到化學(xué)支架的約束,或者以期望的屬性值為條件。
圖2中顯示了如何使用GT4SD處理此任務(wù)的流程。在第一步中,可以通過GT4SD的界面訪問一組豐富的預(yù)訓(xùn)練分子生成模型。有兩個主要的模型類可用。第一類由圖生成模型表示,如MoLeR或TorchDrug庫中的模型,特別是圖卷積策略網(wǎng)絡(luò)和基于流的自回歸模型(GraphAF)。第二個模型類是化學(xué)語言模型(CLM),它將分子視為文本(SMILES或SELFIES序列)。GT4SD中的大多數(shù)化學(xué)語言模型都是通過MOSES或GuacaMol庫訪問的;特別是VAE,對抗自編碼器(AAE)或目標(biāo)增強GAN模型(ORGAN)。第一步,作者從每個模型所學(xué)習(xí)到的化學(xué)空間中隨機抽取分子。對生成的分子與gentrl-ddr1的Tanimoto相似性進行評估表明,這種方法雖然產(chǎn)生了許多具有滿意ESOL的分子,但并沒有充分反映與種子分子的相似性約束(圖2,左下)。這是可以預(yù)料到的,因為所使用的生成模型是無條件的。
作為一種更精細的方法,GT4SD包括基于條件的分子生成模型,可以用自然文本查詢(Text+Chem T5)、連續(xù)屬性約束或分子子結(jié)構(gòu)(scaffolds)(如MoLeR、REINVENT),甚至是屬性約束和分子子結(jié)構(gòu)的組合(Regression Transformer)來執(zhí)行。從這些模型中獲得的分子,特別是MoLeR和RT,在很大程度上遵守了相似性約束,并產(chǎn)生了許多與gentrl-ddr1相似度> 0.5的分子。MoLeR和RT將ESOL提高了1M/L以上(圖2右)。在一個現(xiàn)實的應(yīng)用場景中,藥物化學(xué)家可以手動審查用所描述的配方生成的分子,并有選擇地考慮合成和篩選。
總結(jié)與展望
作者所開發(fā)的GT4SD是邁向加速材料發(fā)現(xiàn)的生成建模環(huán)境的第一步。未來,作者下一步將擴展GT4SD的應(yīng)用領(lǐng)域(例如無機材料、可持續(xù)性、地理信息學(xué)等)。未來的發(fā)展將集中在兩個主要組成部分:擴展模型評估和樣本屬性預(yù)測;開發(fā)一個共享模型的生態(tài)系統(tǒng),該模型建立在通過現(xiàn)有CLI命令公開的功能之上,用于模型生命周期管理。作者將擴展目前來自GuacaMol和Moses的集成指標(biāo),并探索偏差度量,以便根據(jù)生成的示例及其屬性更好地分析性能。在共享生態(tài)系統(tǒng)方面,作者相信GT4SD將進一步受益于直觀的應(yīng)用程序中心,它可以促進預(yù)訓(xùn)練生成模型的分發(fā),并使用戶能夠輕松地根據(jù)特定應(yīng)用程序的自定義數(shù)據(jù)微調(diào)模型。
文獻信息
Matteo Manica, Jannis Born, Joris Cadow, Dimitrios Christofidellis, Ashish Dave, Dean Clarke, Yves Gaetan Nana Teukam, Giorgio Giannone, Samuel C. Hoffman, Matthew Buchan, Vijil Chenthamarakshan, Timothy Donovan, Hsiang Han Hsu, Federico Zipoli, Oliver Schilter, Akihiro Kishimoto, Lisa Hamada, Inkit Padhi, Karl Wehden, Lauren McHugh, Alexy Khrabrov, Payel Das, Seiji Takeda and John R. Smith. Accelerating material design with the generative toolkit for scientific discovery. npj Computational Materials 9, 69 (2023)
https://doi.org/10.1038/s41524-023-01028-1

原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/25/adeba628f7/

(0)

相關(guān)推薦

历史| 郁南县| 青海省| 汤阴县| 辛集市| 霍州市| 信阳市| 梧州市| 岱山县| 正安县| 晋宁县| 绥化市| 鲁山县| 石首市| 竹溪县| 苏州市| 益阳市| 武城县| 克东县| 巴楚县| 若羌县| 望城县| 兴城市| 潼关县| 禹州市| 思茅市| 武平县| 罗甸县| 云龙县| 垣曲县| 兴化市| 松溪县| 海林市| 五大连池市| 北京市| 巴塘县| 临武县| 宁晋县| 平武县| 建昌县| 那曲县|