• / 9
  • 下載費用:30 金幣  

蛋白質結構空間構象的全信息預測方法.pdf

摘要
申請專利號:

CN201510623583.8

申請日:

2015.09.25

公開號:

CN105260626A

公開日:

2016.01.20

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):G06F 19/16申請日:20150925|||公開
IPC分類號: G06F19/16(2011.01)I 主分類號: G06F19/16
申請人: 麥科羅醫藥科技(武漢)有限公司
發明人: 楊家安
地址: 430075湖北省武漢市東湖開發區高新大道666號B5棟
優先權:
專利代理機構: 武漢科皓知識產權代理事務所(特殊普通合伙)42222 代理人: 汪俊鋒
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510623583.8

授權公告號:

||||||

法律狀態公告日:

2017.11.14|||2016.02.17|||2016.01.20

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

本發明涉及一種蛋白質結構空間構象的全信息預測方法,屬于生物信息學領域。對于任何蛋白質序列,運用蛋白質結構指紋技術,直接通過對5AAPFSC數據庫的高通量篩選,就會得到其對應的蛋白折疊構象。每一個折疊構象將由蛋白折疊形狀碼字母來表示,這些折疊結構涵蓋了二級結構和三級結構。全部可能的折疊形狀碼可以對齊形成一個列陣,生成一個PFSC蛋白空間構象譜帶作為預測結果。通過對大量已知三維結構的蛋白質的測試,已經很好地驗證了本發明方法的可靠性和有效性。

權利要求書

1.一種蛋白質結構空間構象的全信息預測方法,其特征在于,包括如下步驟:1)從全部20個氨基酸中任意地提取5個氨基酸,形成總數為3,200,000的不同排列,每一個排列的可能折疊構象從全球蛋白質數據庫獲得,然后用蛋白折疊形狀碼表示;創建了一個數據庫來收集上述排列及其對應的蛋白折疊形狀碼,該數據庫被命名為5AAPFSC;2)對于任何一個待預測結構的蛋白質,沿著蛋白質的序列,從N-端開始,逐步移動向C-端,依次讀取每5個連續的氨基酸,其可能具有的折疊構象從5AAPFSC數據庫直接獲得,用蛋白折疊形狀碼的字符表示;在蛋白質數據庫中出現頻率最高的折疊構象碼的字符排在第一位,出現頻率第二個高的折疊構象碼字符排在第二位,從上到下依次形成一列,直至收集完全為止,每5個連續的氨基酸具有不同數目的折疊構象可能;3)待測蛋白質的全部可能的折疊形狀碼形成一個陣列,稱為蛋白折疊構象譜帶,代表了沿著蛋白質的序列全部可能的折疊構象;對于每一個蛋白序列,通過其全部可能的局部折疊構象的相互替代,可以準確地得到所有可能的構象;可能構象的總數目是全部每5個氨基酸可能折疊構象數目的連續乘積。2.根據權利要求1所述的全信息預測方法,其特征在于,預測得到的一個空間構象是由出現頻率最高的折疊形狀碼構成。3.根據權利要求1所述的全信息預測方法,其特征在于,預測得到的一個空間構象是由出現頻率第二高折疊形狀碼,在沒有第二高頻率構象位置,以頻率最高的的折疊形狀碼作為補充構成。4.根據權利要求1所述的全信息預測方法,其特征在于,預測得到的一個空間構象是由出現頻率第三高折疊形狀碼,在沒有第三高頻率構象位置,以頻率最高的的折疊形狀碼作為補充構成。

說明書

蛋白質結構空間構象的全信息預測方法

技術領域

本發明涉及一種蛋白質結構空間構象的全信息預測方法,屬于生物信息學領
域。

背景技術

蛋白質結構是開展基因組學,生物信息學,藥物研發和生物技術研究的重要
的信息1,2。然而,到目前為止,只有大約不到1%的蛋白質的三維結構通過X-射線
晶體衍射或核磁共振等實驗方法測量獲得3。仍然還有大約超過五千二百萬個蛋白
質的序列尚沒有三維結構的信息和數據4,生物醫藥研究迫切希望能確定這些蛋白
的空間結構。長期以來,以計算機建模為基礎,已經開發了許多關于蛋白質結構
預測的方法和應用。從1994年起,每兩年舉辦一次的“蛋白質結構預測的關鍵評
估(CASP)”活動成為世界各國蛋白質分子生物科學家的一個交流平臺5,6。鑒于
蛋白質結構的復雜性,以及指數數量級的可能折疊方式,預測蛋白結構的研究難
題被列為21世紀現代科學的一百個大挑戰性課題之一7。

迄今為止,各種預測蛋白結構的方法基本上可分為三大類別。第一類是基
于序列的建模方法8,9,10。該方法利用已知的蛋白結構來求解未知蛋白結構。這種
方法需要依賴于序列之間的相似程度比對提取信息,關于預測結果的可靠程度一
直是個疑問。第二類是采用折疊構型識別的拼接建模方法11,12,13,14,15。該方法采用
統計方法從特定的蛋白數據庫中篩選折疊片段和序列之間的相互關系。統計方法
固然可以涵蓋大多數折疊構型,但是頻率較低的折疊構型往往就被忽略了。第三
類是從頭計算模型方法16,17,18。該方法運用計算機反復地迭代計算蛋白質中的氨基
酸和原子之間的相互作用,直到最后整個構象體系趨于一個較低的能量狀態。該
方法消耗大量的計算機時間和資源,而且預測僅僅能得到相關蛋白質的一個可能
空間結構。長期以來,生物學家期望通過預測方法獲得可靠而且沒有異議的蛋白
質結構。以此為目標,各種研究試圖改進蛋白質結構的預測方法,然而在這方面
的進展是非常不理想的。究其根本原因,是由于蛋白質結構本身的復雜性和多變
性。

發明內容

本發明所要解決的技術問題是提供一種蛋白質空間構象的全信息預測
(CompletePredictionforProteinConformation,CPPC)方法。該方法運用
數字化模型來簡化蛋白結構的復雜性,同時運用全信息結構數據來認知蛋白結構
的多變性。該方法能夠快速預測蛋白質的結構,并提供所有可能的蛋白空間構象。

本發明的蛋白質空間構象的全信息預測方法是建立在發明人之前專利
ZL200880003164.2公開的蛋白質折疊形狀碼(ProteinFoldingShapeCode,
PFSC)基礎上開發的預測蛋白結構的新方法19。通過嚴格推導得到的蛋白質折疊形
狀碼(PFSC)能夠完好地描述連續的5個氨基酸片段的折疊形狀。5個氨基酸片
段在蛋白質中的任意折疊形狀可以通過27PFSC向量來描述,全部27PFSC向量
采用了26個英文字母加上$符號來表達。更重要的是,全部27個PFSC向量涵蓋
了一個完整的數學空間。而且,全部27個PFSC向量的折疊形狀是高度密切相關
聯的。每個PFSC向量都可以從一個向量過渡轉換為另一個向量。

從數學角度來看氨基酸,通過不同的排序,5個氨基酸可以形成不同的排列。
從全部20個氨基酸中任意地提取5個氨基酸將可以形成總數為3,200,000的不同
排列。每一個排列的可能折疊構象可以從全球蛋白質數據庫(PDB)獲得,然后用
蛋白折疊形狀碼(PFSC)表示。在此基礎上,我們創建了一個數據庫來收集上述
三百二十萬個排列的折疊構象。該全新的數據庫被命名為5AAPFSC。在這個數據
庫中,和每個排列相關的折疊形狀將完整地采用對應的PFSC碼存儲其中。

本發明的蛋白質結構空間構象的全信息預測方法,包括如下步驟:

1)從全部20個氨基酸中任意地提取5個氨基酸,形成總數為3,200,000
的不同排列,每一個排列的可能折疊構象從全球蛋白質數據庫(PDB)獲得,然后
用蛋白折疊形狀碼(PFSC)表示;創建了一個數據庫來收集上述排列及其對應的
蛋白折疊形狀碼,該數據庫被命名為5AAPFSC,如圖1所示;

2)對于任何一個待預測結構的蛋白質,沿著蛋白質的序列,從N-端開始,
逐步移動向C-端,依次讀取每5個連續的氨基酸,其可能具有的折疊構象從
5AAPFSC數據庫直接獲得,用蛋白折疊形狀碼(PFSC)的字符表示;在蛋白質數
據庫中出現頻率最高的折疊構象碼的字符排在第一位,出現頻率第二個高的折疊
構象碼字符排在第二位,從上到下依次形成一列,直至收集完全為止,每5個連
續的氨基酸具有不同數目的折疊構象可能;

3)待測蛋白質的全部可能的折疊形狀碼形成一個陣列,稱為蛋白折疊構象譜
帶,如圖2所示,代表了沿著蛋白質的序列全部可能的折疊構象;對于每一個蛋
白序列,通過其全部可能的局部折疊構象的相互替代,可以準確地得到所有可能
的構象;可能構象的總數目是全部每5個氨基酸可能折疊構象數目的連續乘積;

對于任何一個待測蛋白,盡管全部可能空間構象的數目是巨大的,可能性高
的空間構象通過出現頻率高的局域折疊構象獲得。舉例來說,第一個空間構象是
由出現頻率最高的折疊構形狀碼構成;第二個空間構象是由出現頻率第二高折疊
形狀碼,在沒有第二高頻率構象位置,以頻率最高的的折疊形狀碼作為補充構成;
第三個空間構象是由出現頻率第三高折疊形狀碼,在沒有第三高頻率構象位置,
以頻率最高的的折疊形狀碼作為補充構成;如此類推,形成可能性較高的一系列
可能的預測構象。

因此,一連串由高頻率構象組成的蛋白折疊形狀碼就是可能性較高的蛋白空
間結構構象。依據蛋白折疊構象譜帶,可以發現更多的局域變化和替代,進行修
正形成更多有關可能的空間結構構象。

本分析方法得到的蛋白空間構象譜帶對蛋白結構空間折疊構象提供了一個全
信息的預測,同時揭示其可能的任何局部構象的微小變化。蛋白質空間構象的全
信息預測(CPPC)方法的一個重要意義是為今后構建一個全新的蛋白基因結構綜
合數據庫創造了必要的條件。蛋白質空間構象的全信息預測是預測蛋白結構的一
個新的方法,該方法將會推動蛋白結構基因組學的發展。我們開發的蛋白質空間
構象的全信息預測技術不僅僅對蛋白結構的預測提供了完整的折疊構象,而且對
于全面理解從實驗測定得到的蛋白結構具有十分重要意義。

附圖說明

圖1,5AAPFSC數據庫的構建。

圖2,蛋白折疊構象譜帶的建立。

圖3,人細胞質5'-核苷酸II蛋白的2XCW蛋白片段(殘基3-62)已知構象和全
信息預測結果的對比。表格第一行是該蛋白的氨基酸序列片段(3-62)。接著是
8個已知結構的折疊構象,折疊構象用蛋白折疊形狀碼(PFSC)表示。表格中下
半段是預測的9個可能的空間構象。

圖4,海洋水生物銀鮫(CallorhinchusMiliiX)提取物32個氨基酸的降鈣素預
測空間構象。

具體實施方式

對于任何蛋白質序列,運用蛋白質結構指紋技術(PSFT),直接通過對5AAPFSC
數據庫的高通量篩選,就會得到其對應的蛋白折疊構象。每一個折疊構象將由蛋
白折疊形狀碼(PFSC)字母來表示,其中每一個字母都代表其專有的折疊結構的
特性,這些折疊結構涵蓋了二級結構和三級結構。全部可能的折疊形狀碼可以對
齊形成一個列陣,生成一個PFSC蛋白空間構象譜帶作為預測結果。通過對大量已
知三維結構的蛋白質的測試,已經很好地驗證了該方法的可靠性和有效性。

實施例一選用一個已經知道三維結構的蛋白質作為例子和預測結果進行對照。

人細胞質5'-核苷酸II蛋白質是一個具有已知三維結構的蛋白分子,它的三
維結構已經被X-射線晶體衍射實驗確定。圖3的上半部列出從X-射線晶體衍射實
驗測得的人細胞質5'-核苷酸II蛋白質8個結構的空間構象。它的每一個三維空
間結構可以從蛋白質數據庫獲得。然后,每一個構象用折疊碼表達,并且對齊排
成陣列。每一個空間構象代表實驗測得的一個結構狀態。圖3的下半部列出本發
明方法預測得到的9個最可能的空間構象。這些空間構象可以通過前面段落描述
的步驟獲得。第一個空間構象是由出現頻率最高的折疊構象碼的字符串構成;第
二個空間構象是由出現頻率第二高,再加上構成頻率最高的的折疊構象碼的字符
串作為補充構成;第三個空間構象是由出現頻率第三高,再加上構成頻率最高的
的折疊構象碼的字符串作為補充構成;如此類推,形成可能性較高的9個構象。
從表中可以看出,如果以2XCW蛋白片段60個氨基酸序列(3-62)的已知構象為
參照,提取第一行預測的結果進行比對,全信息預測的結果構象有45個折疊構象
相同,5個相似,10個不同。僅僅考慮第一行的預測結果,所謂的準確率達到大
約80%。

另一方面,分子生物學家認識到,從X-射線晶體衍射實驗測得的結構數據只
是蛋白質的某一個靜態結構狀態,并不能反映出蛋白質的全部可能動態構象。表
一上半段列出的蛋白質8個已知空間構象,這些空間構象顯示了其結構的可變性。
對照這些變化,全信息預測的預測譜帶完全可以涵蓋這些變化的折疊構型。表格
的數據有力地說明我們開發的蛋白質空間構象的全信息預測技術不僅僅對蛋白結
構的預測提供了完整的折疊構象,而且對于全面理解從實驗測定得到的蛋白結構
具有十分重要意義。

實施例二選擇一個未知三維空間結構的蛋白作為例子,其三維空間構象可以
通過全蛋白信息預測獲得。圖4展示了從海洋水生物銀鮫
(CallorhinchusMiliiX)32個氨基酸構成的降鈣素多肽的空間構象預測。這些
空間構象可以通過前面段落描述的4個步驟獲得。第一個空間構象是由出現頻率
最高的折疊構象碼的字符串構成;第二個空間構象是由出現頻率第二高,再加上
構成頻率最高的的折疊構象碼的字符串作為補充構成;第三個空間構象是由出現
頻率第三高,再加上構成頻率最高的的折疊構象碼的字符串作為補充構成;如此
類推,形成可能性較高的13個構象。預測得到的銀鮫降鈣素的蛋白空間構象譜帶
由13條蛋白折疊形狀碼(PFSC)字符碼組成。該譜帶是對銀鮫降鈣素空間構象的
完整預測,并展示了其局部構象的可能變化。

本發明的蛋白質空間構象的全信息預測(CPPC)方法有下列四大特點和突破。

1.蛋白質空間構象的全信息預測(CPPC)以嚴密的數學推導為基礎并且和蛋
白結構特征相結合。首先,27PFSC蛋白折疊形狀碼完整地代表了一個有實質意
義的完整封閉空間,這樣就保證了預測結果不會產生缺失和遺漏。在5個氨基酸
基礎之上,通過建立20個氨基酸和和27個PFSC蛋白折疊形狀碼相關性。結合全
球蛋白數據庫,緊密聯系蛋白質結構的特征,創建了5AAPFSC數據庫,囊括了20
個氨基酸中任意5個氨基酸的全部可能的數學排列。相對于傳統的蛋白結構預測
方法而言,依據這些排列和PFSC碼之間的相關性建立的CPPC的新方法具有堅實的
數理基礎。

2.蛋白質空間構象的全信息預測(CPPC)提供了快速預測蛋白結構的途經。
按照目前計算機技術水平,如果每10-13秒計算一個構象。對于一個100個氨基酸
的蛋白序列,如果容許每一個氨基酸變換10個空間位置,將產生總數10100空間
構象。完成這些構象需要1077年完成。對于同樣大小的蛋白序列,運用蛋白質空
間構象的全信息預測(CPPC)技術,只需要大約30秒時間。蛋白質空間構象的全
信息預測(CPPC)對于完成長度上千的蛋白序列的結構預測,也僅僅需要大約120
秒。

3.蛋白質空間構象的全信息預測(CPPC)通過PFSC蛋白折疊形狀碼顯示了
沿著蛋白序列的全部可能的局域折疊變化。這些局域折疊變化和組合可以形成指
數級的總數量的空間構象。這些海量的信息完全暴露在全信息預測構象譜帶中。

4.蛋白質空間構象的全信息預測(CPPC)可以預測可能的蛋白質空間構象。
依據局域折疊構象出現頻率從巨大數量的空間構象中預測出可能空間構象。

參考文獻:

------------

1Jumpupto:abPSIAssessmentPanel."ReportoftheProteinStructureInitiativeAssessment
Panel".RetrievedDecember5,2008

2Baker,D.;Sali,A.(Oct2001)."Proteinstructurepredictionandstructuralgenomics",
Science294(5540):93–6

3Yonath,Ada.X-raycrystallographyattheheartoflifescience.CurrentOpinioninStructural
Biology.Volume21,Issue5,October2011,Pages622–626.

4Rigden,DanielJ.FromProteinStructuretoFunctionwithBioinformatics.SpringerScience.
2009.ISBN978-1-4020-9057-8.

5MoultJ.etal.Alarge-scaleexperimenttoassessproteinstructurepredictionmethods,
1995;Proteins23

6http://predictioncenter.org

7Jumpup,Editorial:Somuchmoretoknow.Science2005,309:78-102

8ZhangY(2008)."Progressandchallengesinproteinstructure
prediction".CurrOpinStructBiol18(3):342–8.

9YiHea,S.Rackovskya,YanpingYina,andHarold.Scheragaa,Alternativeapproachtoprotein
structurepredictionbasedonsequentialsimilarityofphysicalproperties,PNAS,2015,
112(16):5029-5032

10Ashtawy,H.M.;Mahapatra,N.R.,"AComparativeAssessmentofPredictiveAccuraciesof
ConventionalandMachineLearningScoringFunctionsforProtein-LigandBinding
AffinityPrediction,"ComputationalBiologyandBioinformatics,IEEE/ACMTransactions
on,vol.12,no.2,pp.335,347,2015

11BowieJU,LuthyR,EisenbergD;Lüthy;Eisenberg(1991)."Amethodtoidentifyprotein
sequencesthatfoldintoaknownthree-dimensionalstructure".Science253(5016):
164–170.

12JT.Huang,TWang,SR.HuangandXLi,Reducedalphabetforproteinfolding
prediction,Proteins,2015,83-4,631–63

13BowieJU,LüthyR,EisenbergD(1991)."Amethodtoidentifyproteinsequencesthatfold
intoaknownthree-dimensionalstructure".Science253(5016):164–170.

14JonesDT,TaylorWR,ThorntonJM(1992)."Anewapproachtoproteinfoldrecognition".
Nature358(6381):86–89..

15Peng,Jian;JinboXu(2011)."RaptorX:exploitingstructureinformationforprotein
alignmentbystatisticalinference".Proteins.79Suppl10:

16Pierce,LeviC.T.;Salomon-Ferrer,Romelia;AugustoF.deOliveira,Cesar;McCammon,J.
Andrew;Walker,RossC.(2012)."RoutineAccesstoMillisecondTimeScaleEventswith
AcceleratedMolecularDynamics".JournalofChemicalTheoryandComputation8(9):
2997–3002.

17Nugent,T.;Jones,D.T.(2012)."Accuratedenovostructurepredictionoflarge
transmembraneproteindomainsusingfragment-assemblyandcorrelatedmutation
analysis".ProcNatlAcadSciUSA109(24):E1540–7.

18Morcos,F.;Pagnani,A.;Lunt,B.;Bertolino,A.;Marks,DS.;Sander,C.;Zecchina,R.;
Onuchic,JN.etal.(Dec2011)."Direct-couplinganalysisofresiduecoevolutioncaptures

---------

nativecontactsacrossmanyproteinfamilies".ProcNatlAcadSciUSA108(49):
E1293–301.

19YangJ.Comprehensivedescriptionofproteinstructuresusingproteinfoldingshapecode.
Proteins2008;71.3:1497-1518。

關 鍵 詞:
蛋白質 結構 空間 構象 信息 預測 方法
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:蛋白質結構空間構象的全信息預測方法.pdf
鏈接地址:http://www.rgyfuv.icu/p-6345406.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图