• / 19
  • 下載費用:30 金幣  

基于金屬定量構效關系的淡水慢性基準預測方法.pdf

摘要
申請專利號:

CN201510333074.1

申請日:

2015.06.16

公開號:

CN104915563A

公開日:

2015.09.16

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 19/00申請日:20150616|||公開
IPC分類號: G06F19/00(2011.01)I 主分類號: G06F19/00
申請人: 中國環境科學研究院
發明人: 穆云松; 吳豐昌; 廖海清; 趙曉麗; 白英臣; 馮承蓮; 陳程; 郄玉
地址: 100012北京市朝陽區安外北苑大羊坊8號
優先權:
專利代理機構: 北京方圓嘉禾知識產權代理有限公司11385 代理人: 董芙蓉
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510333074.1

授權公告號:

||||||

法律狀態公告日:

2018.06.08|||2015.10.14|||2015.09.16

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明涉及水質污染評價領域,具體為基于金屬定量構效關系的淡水慢性基準預測方法,根據重金屬離子的結構特征與水生生物慢性毒性效應的定量關系預測未知金屬的毒性終點,結合不同物種的敏感度分布分析推導保護不同比例的水生生物的危險濃度;是綜合重金屬理化結構參數和不同水生生物的致毒機理建立QSAR金屬毒性預測模型,并將其應用于預測未知基準連續濃度的一種方法。本發明基于生態學原理,系統篩選六門八科水生物種作為最小生物預測集,分別構建單參數的毒性預測模型,提高模型精度和預測能力。

權利要求書

權利要求書
1.  基于金屬定量構效關系的淡水慢性基準預測方法,其特征在于,根據重金屬離子的結構特征與水生生物慢性毒性效應的定量關系預測未知金屬的毒性終點,結合不同物種的敏感度分布分析推導保護不同比例的水生生物的危險濃度;
該具體過程包括以下步驟:
步驟a,建模毒性數據采集,篩選,運算和匯總;
步驟b,六門八科水生模式生物篩選;
步驟c,構建金屬離子結構描述符數據集,通過各金屬對應的結構參數為自變量進行線性相關性分析,通過相關系數排序,獲得最佳結構描述符;
以單物種的毒性終點為因變量,各金屬對應的結構參數為自變量進行線性相關性分析,根據下述公式(1)計算相關系數r;
r=Σi=1n(xi-x‾)(yi-y‾)Σi=1n(xi-x‾)2(yi-y‾)2---(1)]]>
式中,分別表示各結構參數和毒性值的平均值,xi和yi分別表示第i種金屬對應的結構參數和毒性值;相關系數r>0.8為顯著相關參數;
步驟d,構建毒性預測模型及穩健性檢驗;建立一元線性回歸方程,對參數進行估計,采用F統計量對應的P值進行檢驗;
步驟e,QSAR模型的內部驗證;
步驟f,模型適用范圍計算;經過校驗的模型,以杠桿值h為橫坐標,以各數據點的標準殘差為縱坐標,繪制Williams圖;
步驟g,采用獲得的毒性預測值和物種敏感度分析對未知金屬的毒性和基準連續濃度值進行快速篩選與預測。

2.  根據權利要求1所述的基于金屬定量構效關系的淡水慢性基準預測方法,其特征在于,所述的步驟c中,構建金屬離子結構描述符數據集,包括軟指數σp、最大配合物穩定常數log-βn、鮑林(Pauling)電負性Xm、共價指數Xm2r、原子電離勢AN/ΔIP、第一水解常數|logKOH|、電化學勢ΔE0、原子大小AR/AW、極化力參數Z/r、Z/r2、Z2/r、似極化力參數Z/AR、Z/AR2。

3.  根據權利要求1所述的基于金屬定量構效關系的淡水慢性基準預測方法, 其特征在于,所述的步驟d的具體過程包括:
步驟d1,一元回歸方程的構建與參數估計;
以步驟d中確定的最佳結構參數為自變量X,金屬活性值為因變量Y,利用一元線性回歸分析方法構建各模式生物的QICAR方程Y=XB+E,具體為公式(2):
Y=y1y2...yn,X=1x111x21......1xn1,B=β0β1β2,E=ϵ1ϵ2...ϵn---(2)]]>
n為觀測值個數;
采用最小二乘法對方程中參數進行估計,X′為X的轉置矩陣:

步驟d2,擬合優度檢驗和回歸方程的顯著性檢驗,采用F檢驗;
模型的擬合優度檢驗指標為:相關系數的平R2和自由度校正的相關系數標準偏差RMSE;
F檢驗的指標為單因子方差分析計算得到的F值和相關概率p;采用F統計量對應的P值進行檢驗;
步驟d3,判別標準:根據毒性數據獲取途徑,體外實驗R2≥0.81,體內試驗R2≥0.64;顯著水平為α,當p<α時,回歸方程顯著。

4.  根據權利要求3所述的基于金屬定量構效關系的淡水慢性基準預測方法,其特征在于,上述步驟d3按照下述公式計算,
R2=1-Σi=1n(yi-y^)2Σi=1n(yi-y‾)2---(4)]]>
R2‾=1-(1-R2)n-1n-3]]>
RMSE=Σi=1n(yi-y^)2n-3---(5)]]>
F=[SS(total)-SS(residual)]/2SS(residual)/(n-3)=[Σi=1n(yi-y‾)2-Σi=1n(yi-y^)2](n-3)2×Σi=1n(yi-y^)2---(6)]]>
式中,R2表示相關系數的平方,R2表示自由度校正的相關系數,RMSE表示標準偏差。

5.  根據權利要求1所述的基于金屬定量構效關系的淡水慢性基準預測方法,其特征在于,所述步驟e的具體過程為:
步驟e1,在給定的建模樣本中,抽取一個樣本作為預測集,其余樣本作為訓練集建模,并計算該樣本的預測誤差;
步驟e2,記錄每個方程中預測誤差的平方加和,直到所有的樣本都被預報了一次而且僅被預報一次;
步驟e3,計算交叉驗證相關系數Q2cv和交叉驗證均方根誤差,判別依據:Q2cv>0.6,R2-Q2cv≤0.3。

6.  根據權利要求5所述的基于金屬定量構效關系的淡水慢性基準預測方法,其特征在于,上述步驟e3采用的計算公式為:
QCV2=1-Σi=1n(yiobs-yipredcv)2Σi=1n(yiobs-y‾obs)2---(7)]]>
RMSECV=Σi=1n(yiobs-yipredcv)2n---(8)]]>
式中,表示第i個化合物毒性的實測值,代表第i個化合物毒性的預測值,代表訓練集毒性的平均值,n表示訓練集中化合物數。

7.  根據權利要求1所述的基于金屬定量構效關系的淡水慢性基準預測方法,其特征在于,所述的步驟f中,杠桿值hi的計算公式為:
hi=xiT(XTX)-1xi   (9)
式中,xi代表第i個金屬的結構參數組成的列向量;對于單參數模型,xi=xi1xi2,]]>X=x11x21...xn1;]]>XT表示矩陣X的轉置矩陣,(XTX)-1表示對XTX矩陣的逆矩陣。

8.  根據權利要求7所述的基于金屬定量構效關系的淡水慢性基準預測方法,其特征在于,所述的步驟f中,臨界值h*的計算公式為:
h*=3(p+1)n---(10)]]>
式中,p代表模型中變量數,單參數模型中p=1,n代表模型訓練集化合物的數量,根據步驟a-e校驗過后各QSAR方程中訓練集金屬個數決定;
在Williams圖中h<h*的坐標空間為模型的適用范圍。

9.  根據權利要求1所述的基于金屬定量構效關系的淡水慢性基準預測方法,其特征在于,所述的步驟g的具體過程為:
步驟g1,按照上述步驟a-f所述的方法,依次獲得優選六門八科水生生物的單參數QSAR預測方程;
步驟g2,對于步驟b中篩選出的八個物種,重復步驟c-f的過程,獲得八個典型模式生物的QSAR方程;搜集并整理待預測金屬以上八個方程中出現的所有結構描述符的值,依次代入每個方程計算待預測金屬對各物種的慢性毒性終點;
步驟g3,每種金屬對應的各物種金屬毒性數據由低到高排序后,以累積百分率為縱坐標構建物種敏感度分布圖;
步驟g4,采用非線性Sigmoidal-Logistic擬合方程對曲線進行擬合,根據擬合方程計算累積百分率為0.05,0.1和0.2時對應的危險濃度HC5,HC10和HC20。

說明書

說明書基于金屬定量構效關系的淡水慢性基準預測方法
技術領域
本發明涉及水質污染評價領域,具體為基于金屬定量構效關系的淡水慢性基準預測方法。
背景技術
重金屬污染日益嚴重。過量的重金屬進入自然環境,給生態環境和水生生物造成有害影響。基準連續濃度是污染物風險評估中廣泛采用的水環境質量基準指標,有效表征污染物的慢性毒性效應和生態風險。目前,美國環保局頒布了10種金屬的基準連續濃度,包括銅,鋅,汞,鎳,鎘,鉻,鉛,鋁,鐵,砷。其他金屬由于毒性數據的匱乏尚未頒布,制約了科學評價水質,應急環境時間處置,污染控制和風險管理等方面的工作開展。DeForest等基于生物配位體模型開發出鋅的急慢性毒性預測模型,并嘗試應用于美國的基準制定中。但是總體而言,對于金屬的慢性毒性效應和相關水生態基準的研究尚處于起步階段。通過標準化的生物毒性測試手段,是目前獲得基準值的最主要途徑。但是,由于重金屬的種類繁多,結構和形態復雜,用于基準推導的大量毒性測試需要耗費人力,物力和財力,因此阻礙了重金屬水質基準研究的發展。相比于短期暴露,由于標準測試方法和模式生物等相關研究的滯后,慢性毒性終點信息更難獲得。特別是針對特定物種,由于自身尺寸和缺少馴養的標準化流程,不可能進行重復可控的實驗室測試。
定量結構活性相關(QSAR)方法采用統計分析手段尋找目標污染物的結構與生物活性間的內在聯系,作為毒理機制研究的有效手段已被廣泛應用于各類毒性效應的預測評價中。QSAR方法不受實驗條件和測試儀器的限制,采用各種計算化學和數據挖掘技術來研究和預測污染物的生物活性,因而在面對批量污染物和傳統毒理學測試難以開展的情況時,QSAR在毒性預測與風險評價方面展現出獨特魅力。發明人圍繞重金屬的急性毒性和水質基準預測開展了相關創新性研究工作,提出了一種基于金屬定量構效關系的淡水急性基準預測方法,根據重金屬離子的結構特征與水生生物急性毒性效應的定量關系預測未知金屬的毒性終點,結合不同物種的敏感度分布分析推導保護不同比例的水生生物的危險濃度。以上方法都是基于水生物種的急性毒性預測模型,缺乏對慢性毒性預測和分析,模型 的預測能力和應用范圍非常有限。與急性預測模型相比,在建模方法上存在差異,表現在數據收集和篩選方法,敏感生物種類,模型參數選擇,模型結構,模型評價方法等不同環節。目前,關于重金屬慢性毒性預測模型的研究尚少,并且未檢索到與之相關的專利公布。
發明內容
本發明的目的在于提供一種基于金屬定量構效關系的淡水慢性基準預測方法,用以克服上述技術缺陷。
為實現上述目的,本發明提供的基于金屬定量構效關系的淡水慢性基準預測方法,根據重金屬離子的結構特征與水生生物慢性毒性效應的定量關系預測未知金屬的毒性終點,結合不同物種的敏感度分布分析推導保護不同比例的水生生物的危險濃度;
該具體過程包括以下步驟:
步驟a,建模毒性數據采集,篩選,運算和匯總;
步驟b,六門八科水生模式生物篩選;
步驟c,構建金屬離子結構描述符數據集,通過各金屬對應的結構參數為自變量進行線性相關性分析,通過相關系數排序,獲得最佳結構描述符;
其中,構建金屬離子結構描述符數據集,包括軟指數σp、最大配合物穩定常數log-βn、鮑林(Pauling)電負性Xm、共價指數Xm2r、原子電離勢AN/ΔIP、第一水解常數|logKOH|、電化學勢ΔE0、原子大小AR/AW、極化力參數Z/r、Z/r2、Z2/r、似極化力參數Z/AR、Z/AR2。
以單物種的毒性終點為因變量,各金屬對應的結構參數為自變量進行線性相關性分析,根據下述公式(1)計算相關系數r;
r=Σi=1n(xi-x‾)(yi-y‾)Σi=1n(xi-x‾)2(yi-y‾)2---(1)]]>
式中,分別表示各結構參數和毒性值的平均值,xi和yi分別表示第i種金屬對應的結構參數和毒性值;相關系數r>0.8為顯著相關參數;
步驟d,構建毒性預測模型及穩健性檢驗;建立一元線性回歸方程,對參數進行估計,采用F統計量對應的P值進行檢驗;
具體過程包括:
步驟d1,一元回歸方程的構建與參數估計;
以步驟d中確定的最佳結構參數為自變量X,金屬活性值為因變量Y,利用一元線性回歸分析方法構建各模式生物的QICAR方程Y=XB+E,具體為公式(2):
Y=y1y2...yn,X=1x111x21......1xn1,B=β0β1β2,E=ϵ1ϵ2...ϵn---(2)]]>
n為觀測值個數;
采用最小二乘法對方程中參數進行估計,X′為X的轉置矩陣:

步驟d2,擬合優度檢驗和回歸方程的顯著性檢驗,采用F檢驗;
模型的擬合優度檢驗指標為:相關系數的平R2和自由度校正的相關系數標準偏差RMSE;
F檢驗的指標為單因子方差分析計算得到的F值和相關概率p;采用F統計量對應的P值進行檢驗;
步驟d3,判別標準:根據毒性數據獲取途徑,體外實驗R2≥0.81,體內試驗R2≥0.64;顯著水平為α,當p<α時,回歸方程顯著。
步驟d3按照下述公式計算,
R2=1-Σi=1n(yi-y^)2Σi=1n(yi-y‾)2---(4)]]>
R2‾=1-(1-R2)n-1n-3]]>
RMSE=Σi=1n(yi-y^)2n-3---(5)]]>
F=[SS(total)-SS(residual)]/2SS(residual)/(n-3)=[Σi=1n(yi-y‾)2-Σi=1n(yi-y^)2](n-3)2×Σi=1n(yi-y^)2---(6)]]>
式中,R2表示相關系數的平方,R2表示自由度校正的相關系數,RMSE表示標準偏差。
步驟e,QSAR模型的內部驗證;
具體過程為:
步驟e1,在給定的建模樣本中,抽取一個樣本作為預測集,其余樣本作為訓練集建模,并計算該樣本的預測誤差;
步驟e2,記錄每個方程中預測誤差的平方加和,直到所有的樣本都被預報了一次而且僅被預報一次;
步驟e3,計算交叉驗證相關系數Q2cv和交叉驗證均方根誤差,判別依據:Q2cv>0.6,R2-Q2cv≤0.3。
步驟e3采用的計算公式為:
QCV2=1-Σi=1n(yiobs-yipredcv)2Σi=1n(yiobs-y‾obs)2---(7)]]>
RMSECV=Σi=1n(yiobs-yipredcv)2n---(8)]]>
式中,yiobs表示第i個化合物毒性的實測值,代表第i個化合物毒性的預測值,代表訓練集毒性的平均值,n表示訓練集中化合物數。
步驟f,模型適用范圍計算;經過校驗的模型,以杠桿值h為橫坐標,以各數據點的標準殘差為縱坐標,繪制Williams圖;
杠桿值hi的計算公式為:
hi=xiT(XTX)-1xi    (9)
式中,xi代表第i個金屬的結構參數組成的列向量;對于單參數模型,xi=xi1xi2,]]>X=x11x21...xn1;]]>XT表示矩陣X的轉置矩陣,(XTX)-1表示對XTX矩陣的逆矩陣。
臨界值h*的計算公式為:
h*=3(p+1)n---(10)]]>
式中,p代表模型中變量數,單參數模型中p=1,n代表模型訓練集化合物的數量,根據步驟a-e校驗過后各QSAR方程中訓練集金屬個數決定;
在Williams圖中h<h*的坐標空間為模型的適用范圍。
步驟g,采用獲得的毒性預測值和物種敏感度分析對未知金屬的毒性和基準連續濃度值進行快速篩選與預測。
具體過程為:
步驟g1,按照上述步驟a-f所述的方法,依次獲得優選六門八科水生生物的單參數QSAR預測方程;
步驟g2,對于步驟b中篩選出的八個物種,重復步驟c-f的過程,獲得八個典型模式生物的QSAR方程;搜集并整理待預測金屬以上八個方程中出現的所有結構描述符的值,依次代入每個方程計算待預測金屬對各物種的慢性毒性終點;
步驟g3,每種金屬對應的各物種金屬毒性數據由低到高排序后,以累積百分率為縱坐標構建物種敏感度分布圖;
步驟g4,采用非線性Sigmoidal-Logistic擬合方程對曲線進行擬合,根據擬合方程計算累積百分率為0.05,0.1和0.2時對應的危險濃度HC5,HC10和HC20。
本發明提供的基于金屬定量構效關系的淡水慢性基準預測方法,基于生態學原理,系統篩選六門八科水生物種作為最小生物預測集,分別構建單參數的慢性毒性預測模型,提高模型精度和預測能力。通過QSAR模型方法預測多種金屬的毒性值,快速、簡單,依賴較少的試驗測試數據完成多種毒性數據缺乏的金屬的基準預測。彌補現有技術只對急性毒性終點基于多參數QSAR模型進行預測、預測結果不夠準確的問題。
附圖說明
圖1為本發明的流程示意圖;
圖2為實施例的Williams圖;
圖3為實施例的汞的慢性毒性預測值的物種敏感度分布曲線。
具體實施方式
以下結合附圖,對本發明上述的和另外的技術特征和優點作更詳細的說明。
本發明的原理是根據重金屬離子的結構特征與水生生物慢性毒性效應的定量關系預測未知金屬的毒性終點,結合不同物種的敏感度分布分析推導保護5%、10%和20%水生生物的危險濃度。是綜合重金屬理化結構參數和不同水生生物的致毒機理建立QSAR金屬毒性預測模型,并將其應用于預測未知基準參考值的一種方法。
如圖1所示,其為本發明基于金屬定量構效關系的淡水慢性基準預測方法的流程示意圖,該具體過程為:
步驟a,建模毒性數據采集,篩選,運算和匯總;
步驟a1,數據采集過程:
步驟a2,數據篩選過程;數據篩選滿足的條件為:
1)每個物種包含至少6種金屬的毒性數據;
2)毒性終點數據類型包括致死率,生長率和繁殖率,表現為最大無效應劑量(NOAEL),最低有效應劑量(LOAEL)或毒物最大可接受濃度(MATC);
3)毒性測試必須在一定范圍的環境條件下以標準的操作流程進行;
4)生物測試暴露時間7~14天。
步驟a3,數據運算過程;在本發明實施例中的運算方法為:
以金屬自由離子濃度為數據的衡量指標,如單位為質量濃度除以分子量統一轉化為摩爾濃度,即mol/L。LOAEL和MATC統一轉換成NOAEL,換算公式為NOAEL=2*LOAEL;NOAEL=1.414*MATC。
步驟a4,數據匯總過程:
最終得到的數據集包括金屬化合物分子式,毒性效應類型,終點指標,受試生物類型。最終的物種毒性終點為多個實驗條件下NOAEL的幾何平均值。
詳細的毒性數據獲取過程如下:
建模的慢性毒性數據優先采集自美國環保局ECOTOX毒性數據庫(http://cfpub.epa.gov/ecotox/)。如果毒性數據不足,以近30年SCI科學引文索引查詢的有效數據(ISI Web of Knowledge)作為補充。通過數據庫和文獻檢索引擎,輸入金屬名稱、待測物種名稱和慢性毒性等關鍵詞,導出滿足條件的毒性 數據集。在滿足步驟a2條件的前提下,篩選出合格的毒性數據。以金屬自由離子濃度為數據的衡量指標,如果原始數據以離子化合物質量為毒性終點指標。需除以分子量統一轉化為微摩爾濃度,即μmol/L。LOAEL和MATC統一轉換成NOAEL,換算公式為NOAEL=2*LOAEL;NOAEL=1.414*MATC。最終的物種毒性終點為多個實驗條件下NOAEL的幾何平均值。在數據匯編過程中,記錄金屬原子或分子式,原子或分子量,毒性效應類型,終點指標,受試生物類型等信息,整理成Excel表格作為建模依據。
對大型蚤的慢性毒性數據進行匯總,如表1所示
表1.慢性毒性數據篩選,運算和匯總范例

步驟b,六門八科水生模式生物篩選;
慢性模式生物以美國環保局推薦的推導水質基準的三門八科生物為基礎,篩選出淡水中對重金屬敏感的六門八科模式生物,包括浮游甲殼類節肢動物2種,脊索動物2種,軟體動物,輪蟲,綠藻和浮萍各1種。對于每一類模式生物,對應的毒性數據需嚴格按照數據采集和篩選的要求,依次匯總各物種慢性毒性數據。如果滿足要求的物種數超過最少物種數要求,選擇受試金屬種類豐富的進行建模。例如,通過數據收集,浮游甲殼類生物中滿足條件的物種類型有5種,按照受試金屬元素的數量進行排序,選取前兩種作為模式生物。在進行模式生物篩選后,確定八種生物的科學命名,所屬門和科。
優選六門八科水生生物信息,如表2所示
表2優選重金屬慢性效應評價的模式生物
物種搖蚊節足動物門搖蚊科大型蚤節足動物門溞科鯉魚脊索動物門鯉科斑馬魚脊索動物門鯉科小球藻綠藻門門小球藻科輪蟲輪形動物門臂尾輪蟲科貽貝軟體動物門貽貝科浮萍被子植物門天南星科
步驟c,構建金屬離子結構描述符數據集;
構建金屬離子結構描述符集合,包括軟指數σp、最大配合物穩定常數log-βn、鮑林(Pauling)電負性Xm、共價指數Xm2r、原子電離勢AN/ΔIP、第一水解常數|logKOH|、電化學勢ΔE0、原子大小AR/AW、極化力參數Z/r、Z/r2、Z2/r、似極化力參數Z/AR、Z/AR2。
步驟c1,以單物種的毒性終點為因變量,各金屬對應的結構參數為自變量進行線性相關性分析,根據下述公式(1)計算皮爾遜相關系數r;
r=Σi=1n(xi-x‾)(yi-y‾)Σi=1n(xi-x‾)2(yi-y‾)2---(1)]]>
式中,xi和yi分別表示第i種金屬對應的結構參數和實測毒性值,分別表示各結構參數和實測毒性值的平均值。相關系數r>0.8為顯著相關參數。采用皮爾遜相關可以簡便,客觀的度量兩個因子之間的關聯程度。
步驟c2,在顯著相關的前提下,通過相關系數排序,獲得最優的結構描述符。該步驟中通過相關系數r,篩選出與毒性顯著相關的結構參數,避免了偽相關參數引入模型。
步驟d,構建毒性預測模型及穩健性檢驗;
步驟d1,一元回歸方程的構建與參數估計;
以上述步驟d中確定的兩最佳結構參數為自變量X,金屬活性值為因變量Y,利用一元線性回歸分析方法構建各模式生物的QICAR方程Y=XB+E,請參閱下 述公式(2),其中:
Y=y1y2...yn,X=1x111x21......1xn1,B=β0β1β2,E=ϵ1ϵ2...ϵn---(2)]]>
n為觀測值個數;B代表未知參數,是方程中需要通過最小二乘法進行估計的;E代表隨機誤差項,反映了除x1,x2對y的線性關系之外的隨機因素對y的影響。與一元線性回歸相比,方程(2)采用一元線性回歸建立了兩種不同結構參數與金屬毒性值的關系,完整、準確地表達預測對象與相關因素的關系。
采用最小二乘法對方程中參數進行估計,X′為X的轉置矩陣:

最小二乘回歸是從誤差擬合角度對回歸模型進行參數估計,是一種標準的一元建模工具,尤其適用于預測分析。
步驟d2,擬合優度檢驗和回歸方程的顯著性檢驗(F檢驗);
模型的擬合優度檢驗指標為:相關系數的平方(R2)和自由度校正的相關系數標準偏差(RMSE)。F檢驗的指標為單因子方差分析(ANOVA)計算得到的F值和相關概率p(Significance F)。通常采用F統計量對應的P值進行檢驗。
步驟d3,判別標準:根據毒性數據獲取途徑,體外實驗R2≥0.81,體內試驗R2≥0.64。顯著水平為α,當p<α時,回歸方程顯著。
R2=1-Σi=1n(yi-y^)2Σi=1n(yi-y‾)2---(4)]]>
R2‾=1-(1-R2)n-1n-3]]>
RMSE=Σi=1n(yi-y^)2n-3---(5)]]>
F=[SS(total)-SS(residual)]/2SS(residual)/(n-3)=[Σi=1n(yi-y‾)2-Σi=1n(yi-y^)2](n-3)2×Σi=1n(yi-y^)2---(6)]]>
式中,yi表示第i種金屬實測的毒性值,y表示第i種金屬預測的毒性值,表示各毒性值的平均值,n為訓練集中金屬的個數。
方程(4)、(5)的相關系數和標準偏差可以度量回歸直線的擬合優度;方程(6)是檢驗因變量與自變量的線性關系是否顯著的通用方法。
預測金屬汞對八科模式生物的毒性值,結合SSDs曲線預測基準參考閾值。
按照步驟a-d所述的方法,分別構建八科模式生物的毒性預測方程,如表3所示。計算汞的最優結構參數σp=0.065。依次代入方程獲得各物種的毒性預測值。
表3八科模式生物的QSAR毒性預測方程

步驟e,QSAR模型的內部驗證;
每個物種的QSAR模型還應采用抽一法進行驗證,方法的核心思想是隨機從訓練集中抽出一個數據,用其他的毒性數據和步驟c獲得的最佳結構描述符建立一元回歸模型,根據抽出數據的預測值與實驗值的比較,來校驗所建立的網絡模型。為了減少交叉驗證結果的可變性,對一個樣本數據集進行多次不同的劃分,得到不同的互補子集,進行多次交叉驗證。本步驟中,取多次驗證的平均值作為 驗證結果。
此內部驗證方法的優勢在于用幾乎所有的樣本來訓練模型,最接近樣本,這樣評估所得的結果比較可靠;實驗沒有隨機因素,整個過程是可重復的。
具體步驟如下:
步驟e1,在給定的建模樣本中,抽取一個樣本作為預測集,其余樣本作為訓練集建模,并計算該樣本的預測誤差;
步驟e2,記錄每個方程中預測誤差的平方加和,直到所有的樣本都被預報了一次而且僅被預報一次;
步驟e3,計算交叉驗證相關系數Q2cv和交叉驗證均方根誤差RMSECV,計算公式如下所述;判別依據:Q2cv>0.6,R2-Q2cv≤0.3;
QCV2=1-Σi=1n(yiobs-yipredcv)2Σi=1n(yiobs-y‾obs)2---(7)]]>
RMSECV=Σi=1n(yiobs-yipredcv)2n---(8)]]>
式中,yiobs表示第i個化合物毒性的實測值,代表第i個化合物毒性的預測值,代表訓練集毒性的平均值,n表示訓練集中化合物數。
方程(7)、(8)是抽一法內部驗證的指示參數,可有效降低模型對訓練集數據的過擬合,測定訓練集中有無特定金屬對模型穩健性的影響。
對模型進行內部驗證。以大型蚤的慢性毒性預測方程log-NOEC=(37.073±3.983)σp+(-4.312±0.408)為例,對模型進行抽一法內部驗證,相關擬合參數見表4。根據步驟e中的公式(7)和(8),計算Q2cv=0.880,RMSECV=0.3482,R2-Q2cv=0.055。滿足模型穩健性判別依據Q2cv>0.6,R2-Q2cv≤0.3,該模型通過內部驗證。
表4模型內部驗證抽一法相關參數
金屬σp觀測值截距斜率預測值0.104-0.203-4.322536.7462-0.5010.1310.229-4.627640.97840.741
0.065-1.847-4.407437.8879-1.9450.1260.333-4.331337.31710.3710.081-1.511-4.160435.9176-1.2510.1150.283-4.216535.5108-0.1330.074-1.668-4.206236.2077-1.527
步驟f,模型適用范圍計算;
經過校驗的模型,采用杠桿值法計算模型的適用范圍,以Williams圖直觀表示。此方法可保證模型在預測過程中具有最佳的可靠性。
杠桿值hi的計算公式為:
hi=xiT(XTX)-1xi    (9)
式中,xi代表第i個金屬的結構參數組成的列向量;對于單參數模型,xi=xi1xi2,]]>X=x11x21...xn1;]]>XT表示矩陣X的轉置矩陣,(XTX)-1表示對XTX矩陣的逆矩陣。
臨界值h*的計算公式為:
h*=3(p+1)n---(10)]]>
式中,p代表模型中變量數,單參數模型中p=1,n代表模型訓練集化合物的數量,根據步驟a-e校驗過后各QSAR方程中訓練集金屬個數決定。
以杠桿值h為橫坐標,以各數據點的標準殘差為縱坐標,繪制Williams圖。在圖中h<h*的坐標空間為模型的適用范圍。
以斑馬魚的慢性毒性預測方程log-NOEC=(41.156±4.432)σp+(-4.468±0.476)為例,訓練集各金屬的結構參數和毒性終點為如表5所示。臨界值h*=3*(1+1)/7=0.86。
表5斑馬魚的慢性毒性預測方程適用范圍的計算
種類σph(σp)觀測值預測值殘差0.1040.1430.037-0.188-0.225六價鉻0.1570.5992.1251.800-0.325
0.0650.372-1.989-1.7930.1960.1260.2250.0830.7180.6350.0810.220-1.067-1.134-0.0670.1150.1650.5850.265-0.320.0740.276-1.334-1.422-0.088
以各金屬最優結構參數的杠桿值為橫坐標,預測殘差為縱坐標繪制Williams圖,如圖2所示。圖中三條虛線內部的空間為模型的適用范圍,計算結果顯示訓練集的7種金屬在模型的預測范圍之內。
步驟g,采用獲得的毒性預測值和物種敏感度分析對未知金屬的毒性和基準預測值進行快速篩選與預測。
步驟g1,按照步驟a-f所述的方法,依次獲得優選六門八科水生生物的單參數QSAR預測方程。
步驟g2,對于步驟b中篩選出的八個物種,重復步驟c-f的過程,獲得八個典型模式生物的QSAR方程。搜集并整理待預測金屬以上八個方程中出現的所有結構描述符的值,依次代入每個方程計算待預測金屬對各物種的慢性毒性終點;
步驟g3,每種金屬對應的各物種金屬毒性數據由低到高,即最敏感物種到最不敏感物種排序后,以累積百分率為縱坐標(P=(R-0.5)/N,R物種序號,N物種數)構建物種敏感度分布圖。
步驟g4,采用非線性Sigmoidal-logistic擬合方程對曲線進行擬合(公式),根據擬合方程計算累積百分率為0.05,0.1和0.2時對應的危險濃度HC5,HC10和HC20。
曲線擬合優度的判別指標包括F和P。計算方法見方程(4)-(6)。
y=a1+e-k(x-xc)---(11)]]>
式中,a代表擬合曲線的振幅,xc代表中心值,k代表曲線斜率。大量研究證實,非線性Sigmoidal-Logistic擬合模型對物種敏感度曲線的擬合效果最佳。故本發明采用此方法作為推導金屬基準連續濃度值的方法。
具體的,獲得金屬汞的QSAR-SSDs曲線擬合方程:
y=(2.338±1.974)1+e-(2.075±0.588)[x-(-0.834±0.709)]]]>
評價擬合優度的各參數分別為:Adj.r2=0.980,RSS=0.009,F=446.960,P=2.07×10-6。根據SSDs曲線,如圖3。當y等于0.05,0.10和0.20時,對應的logHC5,logHC10和logHC20的值為-2.678,-2.326,-1.965。美國環保局1985年發布的水質基準指南中,基于實驗室測定推導出汞的危害濃度為-2.417,預測誤差為0.261。

關 鍵 詞:
基于 金屬 定量 關系 淡水 慢性 基準 預測 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:基于金屬定量構效關系的淡水慢性基準預測方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6373484.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图