• / 9
  • 下載費用:30 金幣  

基于采樣學習的蛋白質配體綁定位點預測方法.pdf

摘要
申請專利號:

CN201510368016.2

申請日:

2015.06.29

公開號:

CN104992079A

公開日:

2015.10.21

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||著錄事項變更IPC(主分類):G06F 19/18變更事項:發明人變更前:胡俊 何雪 李陽 於東軍 沈紅斌 楊靜宇變更后:於東軍 胡俊 王可 何雪 李陽 楊靜宇|||實質審查的生效IPC(主分類):G06F 19/18申請日:20150629|||公開
IPC分類號: G06F19/18(2011.01)I; G06F19/24(2011.01)I 主分類號: G06F19/18
申請人: 南京理工大學
發明人: 胡俊; 何雪; 李陽; 於東軍; 沈紅斌; 楊靜宇
地址: 210000江蘇省南京市孝陵衛200號
優先權:
專利代理機構: 南京理工大學專利中心32203 代理人: 朱顯國; 王培松
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510368016.2

授權公告號:

|||||||||

法律狀態公告日:

2018.07.06|||2018.06.08|||2015.11.18|||2015.10.21

法律狀態類型:

授權|||著錄事項變更|||實質審查的生效|||公開

摘要

本發明提供了一種基于采樣學習的蛋白質-配體綁定位點預測方法。首先利用PSI-BLAST與PSIPRED程序獲取蛋白質的進化信息和二級結構信息,并使用滑動窗口技術抽取每個氨基酸殘基(樣本)的特征;其次,利用隨機下采樣技術,對非綁定位點的樣本進行隨機下采樣,將得到的非綁定位點樣本子集與綁定位點樣本集訓練一個SVM,用于預測所有待預測樣本;再次,根據每一個待預測樣本的特征信息,利用KNN動態采樣學習技術,分別對綁定位點樣本與非綁定位點樣本進行采樣學習,將采樣后的綁定位點樣本子集與非綁定位點樣本子集合并訓練一個特定的SVM,用于預測該待預測樣本;最后,使用基于閾值的集成技術對訓練好的兩個SVM進行集成。該方法的優點在于:一是使用隨機下采樣與KNN動態采樣學習技術,可以有效的降低訓練集的規模,加快了模型的訓練速度;二是使用KNN動態采樣學習技術,能針對不同的待預測樣本訓練不同的SVM模型,有效的融入了待預測樣本之間的差異性;三是使用SVM集成技術,有效的降低了采樣學習導致的信息丟失,提高模型預測精度。

權利要求書

權利要求書
1.  一種基于采樣學習的蛋白質-配體綁定位點預測方法,其特征在于,包括以下步驟:
步驟1:特征提取,使用PSI-BLAST與PSIPRED程序提取待預測蛋白質的進化信息和二級結構信息,并在此基礎上,使用滑動窗口技術,將蛋白質序列中的氨基酸殘基轉換為特征向量形式表示,再將兩種信息的特征向量串行組合得到最終用于預測的特征向量;
步驟2:使用隨機下采樣技術,對非綁定位點的樣本進行隨機下采樣;將得到的非綁定位點樣本子集與綁定位點樣本集構成一個訓練集,在構建的訓練集上訓練一個SVM;
步驟3:對于每個待預測樣本,首先使用步驟1的方式進行特征抽取,然后使用KNN動態采樣學習技術分別對綁定位點樣本與非綁定位點樣本進行采樣,最后,將采樣后的綁定位點樣本子集與非綁定位點樣本子集合并后訓練一個專門用來預測該待預測樣本的SVM;以及
步驟4:使用基于閾值的集成技術對步驟2與步驟3中得到的兩個SVM進行集成。

2.  根據權利要求1所述的基于采樣學習的蛋白質-配體綁定位點預測方法,其特征在于:在上述的步驟1中,對于一個由n個氨基酸組成的蛋白質序列,通過使用PSI-BLAST程序提取得到該蛋白質的位置特異性得分矩陣PSSM,該矩陣的大小為n×20;再對所述位置特異性得分矩陣PSSM進行逐行標準化,然后使用長度為winsize的滑動窗口得到每個氨基酸殘基的進化特征矩陣,將進化特征矩陣拉成長度為20×winsize的特征向量。

3.  根據權利要求2所述的基于采樣學習的蛋白質-配體綁定位點預測方法,其特征在于:在上述的步驟1中,將一個由n個氨基酸組成的蛋白質序列輸入到PSIPRED程序,得到蛋白質序列的二級結構預測概率矩陣PSS,矩陣大小為n×3;再使用與前述同樣大小的滑動窗口,得到每個氨基酸殘基的二級結構信息矩陣;最后將二級結構信息矩陣拉成長度為3×winsize的特征向量。

4.  根據權利要求1所述的基于采樣學習的蛋白質-配體綁定位點預測方法,其特征在于:在上述步驟3中,使用的KNN動態采樣學習技術分別對綁定位點樣本集與非綁定位點樣本集進行采樣。

5.  根據權利要求1所述的基于采樣學習的蛋白質-配體綁定位點預測方法,其特征在于:在上述步驟4中,所述的集成SVM,使用閾值分割的方法,確定每一個氨基酸殘基是否屬于綁定位點。

6.  根據權利要求5所述的基于采樣學習的蛋白質-配體綁定位點預測方法,其特征在于:使用閾值分割的方法確定每一個氨基酸殘基是否屬于綁定位點時,所選取該閾值取值范圍為0~1,且滿足以下條件:使得預測結果的馬氏相關系數最大化。

說明書

說明書基于采樣學習的蛋白質-配體綁定位點預測方法
技術領域
本發明涉及生物信息學預測蛋白質-配體綁定位點領域,具體而言涉及一種基于采樣學習的蛋白質-配體綁定位點預測方法,特別是一種基于隨機下采樣、KNN動態采樣學習技術、支持向量機集成策略的具有高精度的蛋白質-配體綁定位點預測方法。
背景技術
在生命活動中,大大小小的配體起到了不可或缺的作用,如三磷酸腺苷(ATP)、維他命等;其中ATP是一種重要的生物大分子,對于生物體中的膜傳輸、肌肉收縮、信號傳遞、細胞運動、DNA復制與轉錄以及其他生命活動具有重要意義。這些配體大多數是通過蛋白質-配體綁定位點與蛋白質相互作用,通過借助蛋白質的運輸、分解等功能執行各種各樣的生化功能。此外,蛋白質與一些配體的綁定位點也是抗菌與抗癌藥物重要的靶點。因此,快速、精確地定位蛋白質序列中的蛋白質-配體綁定位點具有重要意義。
然而,通過生物實驗的方法來確定蛋白質與配體之間的綁定位點需要耗費大量的時間和資金,并且效率較低;而且,隨著測序技術的飛速發展和人類結構基因組的不斷推進,蛋白質組學中已經累積了大量未進行蛋白質-配體綁定位點標定的蛋白質序列。因此應用生物信息學的相關知識,研發能夠直接從蛋白質序列出發進行蛋白質-配體綁定位點快速且準確的智能預測方法有著迫切需求,且對于發現和認識蛋白質結構和生理功能有著重要的意義。
目前,針對基于序列信息的蛋白質-配體綁定位點的預測模型還很欠缺。通過查閱相關文獻,可以發現,目前專門設計來進行基于序列信息的蛋白質-配體綁定位點預測的計算模型有:ATPint、ATPsite、GTPbinder、NsitePred、TargetATP、TargetATPsite、TargetS以及TargetSOS等。其中ATPint(J.S.Chauhan,N.K.Mishra,and G.P.Raghava,"Identification of ATP binding residues of a protein from its primary sequence,"BMC Bioinformatics,vol.10,pp.434,2009)與ATPsite(K.Chen,M.J.Mizianty,and L.Kurgan,"ATPsite:sequence-based prediction of ATP-binding residues,"Proteome Sci,vol.9Suppl 1,pp.S4,2011.)是兩個較早的基于序列信息的蛋白質-ATP綁定位點的預測模型。GTPbinder(Chauhan,J.S.,et al.(2010)Prediction of GTP interacting residues,dipeptides and tripeptides in a protein from its evolutionary information.BMC Bioinformatics,11,301.)是專門設計用來預測蛋白質-GTP綁定位點的計算模型。TargetATP(Dong-Jun Yu,Jun Hu,Zhen-Min Tang,Hong-Bin Shen,Jian Yang,and Jing-Yu Yang.Improving Protein-ATP Binding Residues Prediction by Boosting SVMs with Random Under-Sampling.Neurocomputing.2013,104:180-190.)與TargetATPsite(Dong-Jun Yu,Jun Hu,Yan Huang, Hong-Bin Shen,Yong Qi,Zhen-Min Tang and Jing-Yu Yang:TargetATPsite:A Template-free Method for ATP Binding Sites Prediction with Residue Evolution Image Sparse Representation and Classifier Ensemble,Journal of Computational Chemistry.2013,34:974-985.)也是專門設計用來預測蛋白質-ATP綁定位點的計算模型。NsitePred(Chen K,Mizianty M J,Kurgan L.Prediction and analysis of nucleotide-binding residues using sequence and sequence-derived structural descriptors.Bioinformatics,2012,28(3):331-341.)與TargetSOS(Jun Hu,Xue He,Dong-Jun Yu*,Xi-Bei Yang,Jing-Yu Yang,and Hong-Bin Shen.A New Supervised Over-Sampling Algorithm with Application to Protein-Nucleotide Binding Residues Prediction,PLOS ONE.2014,9(9):e107676)是設計用來預測蛋白質與核苷酸(ATP、ADP、AMP、GTP與GDP)綁定位點的預測模型。TargetS(Dong-Jun Yu,Jun Hu,Jing Yang,Hong-Bin Shen,Jinhui Tang,and Jing-Yu Yang.Designing template-free predictor for targeting protein-ligand binding sites with classifier ensemble and spatial clustering,IEEE/ACM Transactions on Computational Biology and Bioinformatics.2013,10(4):994-1008.)是一個可以預測蛋白質與核苷酸(ATP、ADP、AMP、GTP與GDP)、與金屬離子(Ca2+、Mg2+、Mn2+、Fe3+與Zn2+)綁定位點的計算模型。
然而,配體的種類有很多,上面所述的預測蛋白質-配體綁定位點的計算模型都沒有考慮全面。而且蛋白質-配體綁定位點預測是傳統的不平衡學習問題,雖然在一些計算模型中使用隨機下采樣技術克服了一部分不平衡數據帶來的影響,卻沒有對不同的待預測樣本進行區別對待,沒有挖掘待預測樣本之間的差異性。從而導致蛋白質-配體綁定位點預測模型的可解釋性較差的問題有待克服;且可以發現預測精度距離實際應用還有較大差距,迫切需要進一步提高。
發明內容
為了解決上述蛋白質-配體綁定位點預測問題中由于配體種類不齊全引發的通用性不強、不同待預測樣本之間差異性沒有被充分考慮而導致預測精度距離實際應用差距較大且可解釋性較差的缺點,本發明的目的在于提出一種結合隨機下采樣、KNN動態采樣學習與集成技術的,具有預測精度高、模型可解釋性強的基于采樣學習的蛋白質-配體綁定位點預測方法。
為達成上述目的,本發明所采用的技術方案如下:
一種基于采樣學習的蛋白質-配體綁定位點預測方法,包括以下步驟:
步驟1:特征提取,將待預測蛋白質序列中的每個氨基酸殘基轉換為數值形式表示。對于一個由n個氨基酸組成的蛋白質,通過PSI-BLAST程序可得到該蛋白質位置特異性得分矩陣(Position Specific Scoring Matrix,PSSM),該矩陣大小為n×20(n行20列);先使用sigmo id函數s(x)=1/(1+e-x)對該PSSM矩陣進行逐行標準化,然后使用長度為winsize的滑動窗 口得到每個氨基酸殘基的進化信息矩陣;將進化信息矩陣拉成長度為20×winsize的特征向量:其中i表示蛋白質序列中的第i個殘基;將蛋白質序列輸入到PSIPR ED程序,可以得到蛋白質序列的二級結構預測概率矩陣(Predicted Secondary Structure,PS S),大小為n×3(n行3列),使用同樣大小的滑動窗口,得到每個氨基酸殘基的二級結構信息矩陣;將二級結構信息矩陣拉成長度為3×winsize的特征向量:最終,將兩種信息的特征向量串行組合得到最終用于預測的特征向量。
步驟2:使用隨機下采樣技術,對非綁定位點的樣本進行隨機下采樣;將得到的非綁定位點樣本子集與綁定位點樣本集構成一個訓練集,在構建的訓練集合上訓練一個SVM。通過這種方法構建的訓練集中,能夠保持正負樣本的均衡性。然而,也會導致計算模型對不同待預測樣本之間的差異性不敏感。為此,將在下一步中利用KNN動態采樣學習技術來進行補償。
步驟3:對于每個待預測樣本,首先使用步驟1進行特征抽取,然后使用KNN動態采樣學習技術分別對綁定位點樣本與非綁定位點樣本進行采樣,最后,將采樣后的綁定位點樣本子集與非綁定位點樣本子集合并后訓練一個專門用來預測該待預測樣本的SVM。確保不同的待預測樣本之間的差異性得到最大的保留。這樣處理使得計算模型可以應對更多的配體類型。
步驟4:采用基于閾值的集成技術進行SVM集成,對上述步驟2和步驟3中所訓練得到的兩個個SVM,應用基于閾值的集成技術進行集成。對集成得到的輸出結果,使用閾值分割的方法,確定每個殘基是否屬于綁定位點。
由以上本發明的技術方案可知,本發明的有益效果在于:
1.提高模型的預測精度:使用了隨機下采樣與KNN動態采樣學習技術相結合的策略,使得計算模型同時具有不同待預測樣本之間的統一性與差異性信息,可以進一步挖掘更多有效的樣本分布信息,提高了預測蛋白質-配體綁定位點的計算模型的預測精度;
2.提升模型的可解釋性:KNN動態采樣學習技術的使用使得計算模型可以針對不同的待預測樣本訓練專門的預測模型,在融入待預測樣本差異性的同時,也使得預測得到的結果更具有公平性與合理性,提升了模型的可解釋性。
附圖說明
圖1為結合隨機下采樣、KNN動態采樣學習與基于閾值的集成技術的蛋白質-配體綁定位點預測方法的示意圖。
具體實施方式
為了更了解本發明的技術內容,下面結合附圖對本發明作進一步的說明。
圖1給出了本發明的預測方法系統結構示意圖。結合圖1所示,根據本發明的實施例, 一種基于采樣學習的蛋白質-配體綁定位點預測方法,包括了以下步驟:
首先,使用PSI-BLAST和PSIPRED程序分別獲取訓練蛋白質的進化信息矩陣(Position Specific Scoring Matrix,PSSM)和二級結構預測概率矩陣(Predicted Secondary Structure,PSS);其次,使用滑動窗口技術,從PSSM矩陣與二級結構預測概率矩陣構建每一個氨基酸殘基的特征向量,再將前述兩種信息的特征向量串行組合得到最終用于預測的特征向量;再次,使用隨機下采樣技術,對非綁定位點殘基進行下采樣,將得到的非綁定位點樣本子集與綁定位點樣本構成一個訓練集,在該訓練集上訓練一個SVM;然后,使用KNN動態采樣學習技術,分別對綁定位點殘基與非綁定殘基進行下采樣,將得到的綁定位點樣本子集與非綁定位點樣本子集構成一個訓練集,在該訓練集上訓練一個SVM;最后,使用基于閾值的集成策略對上述得到的兩個SVM進行集成。
下面將結合附圖所示,更加具體地描述前述過程。
步驟1:特征提取
對于一個由n個氨基酸殘基組成的蛋白質,通過PSI-BLAST程序可得到位置特異性得分矩陣PSSM,大小為n×20(n行20列),將蛋白質序列信息轉化成矩陣形式,如下:

對PSSM中的每個值進行歸一化:
s(x)=11+e-x---(2)]]>
使用大小為winsize的滑動窗口,來提取每個氨基酸殘基的PSSM特征矩陣:

然后,將該氨基酸殘基的特征矩陣拉成維數為20×winsize的特征向量:
xpssmi=(pssmi-winsize-12,1normalized,pssmi-winsize-12,2normalized,...,pssmi-winsize-12,20normalized)T---(4)]]>
對于一個由n個氨基酸殘基組成的蛋白質序列,通過PSIPRED程序可得到其二級結構預測概率矩陣(PSS),大小為n×3(n行3列):

使用上述同樣大小的滑動窗口技術,可以得到每個氨基酸殘基的PSS特征矩陣:

然后,將該氨基酸殘基的PSS特征矩陣拉成維數為3×winsize的特征向量:
xpssi=(pssi-winsize-12,1,pssi-winsize-12,2,...,pssi+winsize-12,3)T---(7)]]>
最后,將式(4)和式(7)串行組合起來,得到用于預測的待預測樣本的特征向量。
步驟2:使用隨機下采樣技術,對非綁定位點的樣本進行下采樣,將采樣得到的非綁定位點子集與綁定位點樣本構成一個訓練集,在該訓練集合上訓練一個SVM。
通過這種方法構建的訓練集中,能夠保持正負樣本的均衡性。然而,也會導致計算模型對不同待預測樣本之間的差異性不敏感。為此,將在下一步中利用KNN動態采樣學習技術來進行補償。
步驟3:使用KNN動態采樣學習技術分別對綁定位點樣本與非綁定位點樣本進行下采樣,將采樣后的綁定位點樣本子集與非綁定位點樣本子集構成一個訓練集合,再在該訓練集合上訓練一個SVM。
設是原始的氨基酸殘基訓練集合,其中表示第i個樣本的特征向量,表示第i個樣本是否是綁定位點(-1表示非綁定位點,1表示是綁定位點);為編號為j的待預測氨基酸殘基。
為了使得KNN動態采樣學習技術可以分別對綁定位點樣本與非綁定位點樣本進行采樣,我們首先需要使用式(8)根據是否是綁定位點的狀態將綁定位點樣本與非綁定位點樣本從Str中分開。
(Sbindingtr,Snon-bindingtr)=DivideDataset(Str)---(8)]]>
其中為綁定位點樣本集合、為非綁定位點樣本集合。
然后,分別在與集合中,根據待預測樣本信息使用KNN算法搜索待預測樣本在綁定位點樣本集合中的近鄰與非綁定位點樣本集合中的近鄰:
neighborjbinding=KNNSelection(xjtst,Sbindingtr)---(9)]]>
neighborjnon-binding=KNNSelection(xjtst,Snon-bindingtr)---(10)]]>
再將兩個近鄰集合與合并起來構成一個專門用來預測的訓練集
neighborSet=Union(neighborjbinding,neighborjnon-binding)---(9)]]>
訓練一個專門用來預測該待預測樣本的SVM。
步驟4:使用基于閾值的集成技術,將步驟2與步驟3中的SVM集成。
設pro_rand與pro_dynamic分別是步驟2與步驟3中的SVM對同一個待預測樣本的預測概率,我們使用基于閾值的集成技術如下:
proensemble=argmaxp∈{pro_rand,pro_dynamic}|p-cthres|---(9)]]>
其中cthres是可以調節的閾值參數,其調節范圍為0到1。
最后在使用閾值分割的方法,確定每個殘基是否屬于綁定位點:
f(xjtst)=-1,if proensemble≥T1,otherwise---(9)]]>
其中,T為設定的閾值,該閾值取值范圍為0~1,需要滿足以下條件:使得預測結果的馬氏相關系數最大化。
綜上所述,本發明與現有的預測方法相比,其顯著優點在于:本方法擁有解決蛋白質-配體綁定位點不平衡數據學習的能力,具有深度挖掘每個待預測樣本之間差異性的能力,這不僅可以使得最大限度的區分不同配體之間的差異,同時使得預測模型不僅可解釋性增強,而且提高了模型的預測精度。
雖然本發明已以較佳實施例揭露如上,然其并非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明的精神和范圍內,當可作各種的更動與潤飾。因此,本 發明的保護范圍當視權利要求書所界定者為準。

關 鍵 詞:
基于 采樣 學習 蛋白質 配體綁 定位 預測 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:基于采樣學習的蛋白質配體綁定位點預測方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6353633.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图