国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!

他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
成果簡介
加州大學(xué)伯克利分校Omar M. Yaghi院士團(tuán)隊(duì)通過使用提示工程(Prompt Engineering)來指導(dǎo)ChatGPT從不同格式和風(fēng)格的科學(xué)文獻(xiàn)中,自動挖掘出金屬有機(jī)框架(MOF)合成條件的文本信息。這有效地減少了由ChatGPT產(chǎn)生的信息誤差傾向,同時,這也克服了以往在科學(xué)領(lǐng)域使用大型語言模型(LLMs)所面臨的挑戰(zhàn)性問題。
該方法包括開發(fā)一個工作流程,實(shí)現(xiàn)三個不同的文本挖掘過程,由ChatGPT本身編程。它們都支持解析、搜索、過濾、分類、匯總和數(shù)據(jù)統(tǒng)一,并在人工、速度和準(zhǔn)確性之間進(jìn)行不同的權(quán)衡。
作者在該系統(tǒng)提取26257個不同的合成參數(shù),涉及來自同行評審研究文章的大約800個MOFs。這個過程結(jié)合了本文所提出的的化學(xué)提示(Chem-Prompt)工程策略來指導(dǎo)ChatGPT進(jìn)行文本挖掘,從而獲得了良好的精度、召回率以及90-99%的F1分?jǐn)?shù)。利用文本挖掘構(gòu)建的數(shù)據(jù)集,作者構(gòu)建了預(yù)測MOF實(shí)驗(yàn)結(jié)晶結(jié)果準(zhǔn)確率超過87%的機(jī)器學(xué)習(xí)模型,初步識別了影響MOF結(jié)晶的重要因素。
此外,作者還開發(fā)了一個可靠的基于數(shù)據(jù)的MOF聊天機(jī)器人來回答有關(guān)化學(xué)反應(yīng)和合成過程的問題??紤]到使用ChatGPT的過程以統(tǒng)一的格式可靠地挖掘和制表各種MOF合成信息,同時只使用敘述語言,不需要編碼專業(yè)知識,可以預(yù)計(jì)該ChatGPT化學(xué)助手將在各種其他化學(xué)子學(xué)科中扮演著重要角色。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
相關(guān)工作以《ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis》為題在《Journal of the American Chemical Society》上發(fā)表論文。同時,這也是Omar M. Yaghi院士在《Journal of the American Chemical Society》上發(fā)表的第88篇論文。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
圖文導(dǎo)讀
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
圖1. ChatGPT化學(xué)助手工作流程的示意圖
在與化學(xué)相關(guān)的任務(wù)領(lǐng)域,ChatGPT的性能可以通過使用提示工程(PE)得到顯著提高,這是一種精心設(shè)計(jì)提示的方法,可以引導(dǎo)ChatGPT生成精確和相關(guān)的信息。作者提出了以化學(xué)為重點(diǎn)的應(yīng)用中提示工程的三個基本原則,稱為化學(xué)提示工程。
首先,需要制定提示,以避免從ChatGPT中引出捏造或誤導(dǎo)性的內(nèi)容。如下表所示。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
例如,當(dāng)被要求在沒有任何額外提示或上下文的情況下提供MOF的合成條件時,ChatGPT可能會識別出MOF-99999不存在,但會為現(xiàn)有的名稱為MOF-41、MOF-419和MOF-519的化合物生成合成條件。因此,在問題之后有額外的提示,可以最大限度地減少ChatGPT產(chǎn)生誤差,并迫使ChatGPT根據(jù)其知識回答問題,如下表所示。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
在為ChatGPT設(shè)計(jì)提示以處理與化學(xué)信息相關(guān)的文本和問題時,這應(yīng)該是首先要遵循的原則。
其次,需要實(shí)施詳細(xì)指示,在提示中提供明確的指示,以幫助ChatGPT理解上下文和期望的響應(yīng)格式。通過將詳細(xì)的指導(dǎo)和上下文合并到提示中,我們可以促進(jìn)ChatGPT更集中和準(zhǔn)確的響應(yīng)。在化學(xué)相關(guān)的任務(wù)中,這種方法縮小了潛在的答案空間,減少了不相關(guān)或模棱兩可的回答的可能性。
最后是請求結(jié)構(gòu)化輸出,其中包括合并有組織且定義良好的響應(yīng)模板或指令,以促進(jìn)數(shù)據(jù)提取。結(jié)構(gòu)化的輸出能夠有效地提取和解釋關(guān)鍵信息,這反過來又可以大大促進(jìn)該領(lǐng)域的研究和知識的進(jìn)步。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
圖2. ChemPrompt工程的三個基本原則
通過結(jié)合上述這些原則,生成的提示符可以確保ChatGPT產(chǎn)生準(zhǔn)確可靠的結(jié)果,最終增強(qiáng)其在處理復(fù)雜化學(xué)相關(guān)任務(wù)中的實(shí)用性(圖2)。進(jìn)一步采用了交互式提示符改進(jìn)的思想。在這個思想中,首先要求ChatGPT編寫一個提示符,通過給它提供初步的描述和信息來指導(dǎo)它自己。通過對話,為提示添加更具體的細(xì)節(jié)和注意事項(xiàng),用一些文本進(jìn)行測試,一旦獲得輸出,就可以向ChatGPT提供反饋,并要求它提高提示的質(zhì)量。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
圖3. 18248個文本片段嵌入的二維可視化
為了評估該方法的有效性,對嵌入數(shù)據(jù)進(jìn)行了可視化探索(圖3)。通過降低向量的維數(shù),觀察到不同的簇對應(yīng)于不同的話題。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
圖4. 由ChatGPT直接管理或代管理的各種數(shù)據(jù)統(tǒng)一任務(wù)的示意圖
ChatGPT還有助于文本挖掘后的實(shí)體解析(圖4)。這一步涉及到標(biāo)準(zhǔn)化數(shù)據(jù)格式,包括單位、符號和復(fù)合表示。對于每個任務(wù),為ChatGPT設(shè)計(jì)了一個特定的提示符來直接處理數(shù)據(jù),或者為ChatGPT生成一個專門的Python代碼。
在更簡單的情況下,ChatGPT可以直接處理時間和反應(yīng)溫度等轉(zhuǎn)換。對于復(fù)雜的計(jì)算,利用ChatGPT生成Python代碼。例如,為了計(jì)算每種金屬源的摩爾質(zhì)量,ChatGPT可以根據(jù)給定的化合物公式生成相應(yīng)的Python代碼。為了協(xié)調(diào)復(fù)合對或混合物的表示法,ChatGPT可以將不同的表示法標(biāo)準(zhǔn)化為統(tǒng)一的格式,從而便于后續(xù)的數(shù)據(jù)處理。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
圖5. 基于ChatGPT的文本挖掘過程的多方面性能分析
通過首先評估每個進(jìn)程的執(zhí)行時間消耗來開始性能分析(圖5a)。如前所述,進(jìn)程1中的ChatGPT助手專門接受預(yù)先選擇的實(shí)驗(yàn)部分進(jìn)行總結(jié)。因此,流程1需要人工干預(yù),以識別和提取論文中的合成部分。在本研究中,228篇論文的完整選擇過程持續(xù)了12小時,平均每篇論文約2.5分鐘。這段時間必須被認(rèn)為是進(jìn)程1執(zhí)行的必要時間。
對于總結(jié)任務(wù),ChatGPT助手展示出了驚人的能力,平均每篇論文花費(fèi)13秒。考慮到數(shù)據(jù)集中的某些論文包含超過20個MOF化合物,如果沒有人工智能,以傳統(tǒng)的方式進(jìn)行人工總結(jié)可能會消耗更長的時間,這一點(diǎn)值得注意。通過加速總結(jié)過程,有效減輕了重復(fù)工作的負(fù)擔(dān),為研究人員騰出了寶貴的時間。
流程2以完全自動化的方式操作,將分類和結(jié)果傳遞流程集成到下一個助手進(jìn)行匯總。毫無疑問,由于ChatGPT優(yōu)越的文本處理能力,它在速度方面優(yōu)于流程1的手動識別和摘要組合。最后,流程3,正如預(yù)期的那樣,是最快的,因?yàn)樗Y(jié)合了由嵌入驅(qū)動的部分過濾,減少了分類任務(wù),隨后提高了速度。
所有論文中11個合成參數(shù)中TP標(biāo)簽的分布如圖5b所示。需要注意的是,并非所有的MOF合成條件都需要報(bào)告全部11個參數(shù)。例如,一些合成不涉及調(diào)節(jié)劑,在這種情況下,要求ChatGPT為相應(yīng)的列及其數(shù)量分配N/A。隨后,計(jì)算了所有三個過程中每個參數(shù)的精度、召回率和F1分?jǐn)?shù),如圖5c和d所示。
所有的方法在識別化合物名稱、金屬源名稱、連接劑名稱、調(diào)節(jié)劑名稱和溶劑名稱方面都表現(xiàn)出良好的效果。然而,它們在準(zhǔn)確確定所涉化學(xué)品的數(shù)量或體積方面遇到了困難。另一方面,反應(yīng)溫度和反應(yīng)時間等通常具有固定模式的參數(shù)(例如,分別以℃和小時為單位)被所有過程準(zhǔn)確識別,從而獲得較高的召回率、精度和F1分?jǐn)?shù)。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
圖6. 分類模型在預(yù)測合成MOF結(jié)晶態(tài)中的性能
考慮到通過基于ChatGPT的文本挖掘程序獲得的大量合成條件,利用這些數(shù)據(jù)來調(diào)查、理解和預(yù)測MOF材料的結(jié)晶條件。在對數(shù)據(jù)進(jìn)行統(tǒng)一整理,納入11個綜合參數(shù)變量和1個綜合結(jié)果目標(biāo)變量后,為每個綜合參數(shù)設(shè)計(jì)了各自的描述符,能夠穩(wěn)定表示綜合條件的多樣性和復(fù)雜性,并便于將這些變量轉(zhuǎn)化為適合機(jī)器學(xué)習(xí)算法的特征。
根據(jù)提取的合成參數(shù),對金屬節(jié)點(diǎn)、連接劑、調(diào)節(jié)劑、溶劑、各自的摩爾比、反應(yīng)條件等組成了6組化學(xué)描述符。為了提取最相關(guān)的特征并簡化模型,對80%的總數(shù)據(jù)進(jìn)行遞歸特征消除(REF),并進(jìn)行5倍交叉驗(yàn)證。其余部分在學(xué)習(xí)過程中被保留為不可見的集合,用于獨(dú)立評估。
在所涉及的描述符中,前10個最具影響力的描述符是預(yù)測MOF結(jié)晶結(jié)果的關(guān)鍵。這些描述符與化學(xué)直覺和我們對MOF晶體生長的理解大致一致。例如,與MOF合成的化學(xué)計(jì)量有關(guān)的描述符,即調(diào)節(jié)劑與金屬的比例、溶劑與金屬的比例和連接劑與金屬的比例,在排名中占據(jù)優(yōu)先地位。這些描述符反映了精確的化學(xué)計(jì)量控制在MOF晶體形成中的重要作用,并直接影響結(jié)晶過程,在決定MOF晶體的質(zhì)量和形貌方面起著關(guān)鍵作用。
緊接其后的是描述符“時間”,它突出了反應(yīng)持續(xù)時間在結(jié)晶過程中的重要作用。此外,“金屬價(jià)”描述符強(qiáng)調(diào)了金屬離子的性質(zhì)和反應(yīng)性在MOF合成中的關(guān)鍵作用。價(jià)態(tài)直接影響MOF的二級構(gòu)建單元(SBUs)和最終結(jié)晶狀態(tài)。
同時,與分子和連接體相關(guān)的描述符會影響合成動力學(xué),影響晶體生長的有序性??傊?,這一結(jié)果提供了對影響MOF結(jié)晶的關(guān)鍵因素的更好理解,并將有助于設(shè)計(jì)和優(yōu)化合成條件,以有針對性地制備單晶或多晶MOF。
他用ChatGPT預(yù)測MOF合成,發(fā)表第88篇JACS!
圖7. MOF聊天機(jī)器人的集成工作流程
文獻(xiàn)信息
ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis,Journal of the American Chemical Society,2023.
https://pubs.acs.org/doi/10.1021/jacs.3c05819

原創(chuàng)文章,作者:Gloria,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/01/7f51bf762a/

(0)

相關(guān)推薦

高碑店市| 报价| 开化县| 灵台县| 仪征市| 乌恰县| 上饶市| 文成县| 双峰县| 临沧市| 九龙城区| 广饶县| 木里| 岫岩| 汶川县| 阿克苏市| 卫辉市| 巧家县| 会泽县| 白银市| 拜泉县| 柘城县| 偏关县| 泽普县| 宜都市| 正阳县| 东山县| 南京市| 华宁县| 宁波市| 江山市| 贡嘎县| 禄劝| 太仓市| 德州市| 上高县| 宜阳县| 新泰市| 垫江县| 大关县| 西平县|