李遠(yuǎn)播/劉存ES&T: 機(jī)器學(xué)習(xí)模型預(yù)測土壤中植物根系有機(jī)污染物的積累 2023年10月15日 下午8:08 ? 未全平臺發(fā)布, 頂刊 ? 閱讀 24 根系富集因子 (RCF) 是描述生命周期影響評估 (LCIA) 和植物修復(fù)潛力評估中土壤中植物有機(jī)污染物積累的重要表征參數(shù)。然而,由于化學(xué)-土壤-植物根系之間復(fù)雜的相互作用,建立穩(wěn)健的預(yù)測模型仍然具有挑戰(zhàn)性。 在此,中國農(nóng)科院植物保護(hù)研究所李遠(yuǎn)播研究員及中科院南京土壤所劉存副研究員等人開發(fā)了端到端的機(jī)器學(xué)習(xí)模型,通過在具有341 數(shù)據(jù)點(diǎn)、涵蓋72 種化學(xué)品的統(tǒng)一RCF數(shù)據(jù)集上進(jìn)行訓(xùn)練,將復(fù)雜的分子結(jié)構(gòu)關(guān)系轉(zhuǎn)移到RCF。首先,從文獻(xiàn)中開發(fā)了一個(gè)數(shù)據(jù)庫,其中包括RCF值、化學(xué)特性和描述符、土壤有機(jī)質(zhì)(fOM)和植物脂質(zhì)含量(f脂質(zhì))。 然后使用這個(gè)數(shù)據(jù)庫開發(fā)了三個(gè)模型來預(yù)測logRCF,包括線性回歸模型,梯度提升回歸樹(GBRT)模型以及基于分子結(jié)構(gòu)的 GBRT-擴(kuò)展連通性指紋模型(ECFP),并在預(yù)測精度方面比較了模型性能。最后,使用特征重要性分析來進(jìn)一步分析 GBRT-ECFP 模型結(jié)果,以確定影響植物根系積累的關(guān)鍵子結(jié)構(gòu)。 圖1. RCF數(shù)據(jù)集的統(tǒng)計(jì)分析 最終,作者通過預(yù)測RCF值證明了所提出的GBRT-ECFP模型的有效性,并通過5倍交叉驗(yàn)證評估了預(yù)測性能,其中R2值為0.77,平均絕對誤差(MAE)為0.22。 此外,作者還揭示了化學(xué)、土壤和植物特性之間的非線性關(guān)系。子結(jié)構(gòu)重要性分析揭示了分子子結(jié)構(gòu)與RCF之間的關(guān)系,進(jìn)一步的深入分析確定了與 RCF相關(guān)的關(guān)鍵化學(xué)拓?fù)渥咏Y(jié)構(gòu)(例如,-O、-Cl、芳環(huán)和大共軛π系統(tǒng))。由于其簡單性和通用性,GBRT-ECFP模型為LCIA和其他環(huán)境評估提供了一個(gè)有價(jià)值的工具,以更好地表征化學(xué)對人類健康和生態(tài)系統(tǒng)的風(fēng)險(xiǎn)。 圖2. 三種ML模型的預(yù)測精度對比 Direct Prediction of Bioaccumulation of Organic Contaminants in Plant Roots from Soils with Machine Learning Models Based on Molecular Structures, Environmental Science & Technology 2021. DOI: 10.1021/acs.est.1c02376 原創(chuàng)文章,作者:v-suan,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/15/1775482347/ 電池 贊 (0) 0 生成海報(bào) 相關(guān)推薦 「領(lǐng)軍人物」+「國家優(yōu)青」,聯(lián)合發(fā)JACS! 2024年5月26日 牛津大學(xué)Nat. Commun.: 通過操作拉曼顯微光譜表征鋰離子電解質(zhì) 2023年10月29日 【計(jì)算+實(shí)驗(yàn)】頂刊集錦:3篇Angew 、3篇ACS Catalysis、2篇Small等最新成果精選! 2023年10月13日 博士一作!北大郭少軍&駱明川,最新AM! 2024年12月27日 燕山大學(xué),2024年第二篇Nature! 2024年5月15日 AEM:硼咪唑酯骨架納米片結(jié)合銅-銀串聯(lián)催化劑促進(jìn)CO2電還原為乙烯 2023年10月7日