InterPro

fehérjecsaládok, -domének és -helyek adatbázisa
Ez a közzétett változat, ellenőrizve: 2024. január 22.

Az InterPro fehérjecsaládok, fehérjedomének és funkciós helyek adatbázisa, ahol ismert fehérjék azonosítható jellemzői alkalmazhatók új fehérjeszekvenciák esetén[1] funkcionális jellemzésükhöz.[2][3]

InterPro
Első kiadás1999
Kategóriabiológiai adatbázis
Az InterPro weboldala

Az InterPro diagnosztikai aláírásokat és az azoknak jelentős mértékben megfelelő fehérjéket tartalmaznak. E jelek fehérjecsaládokat, -doméneket vagy helyeket leíró modellekből (egyszerűekből, például reguláris kifejezésekből, vagy összetettebbekből, például rejtett Markov-modellekből) állnak. A modellek az ismert családok aminosav-szekvenciáiból épülnek, és ezeket később ismeretlen (például új genom szekvenálásából származó) szekvenciák keresésére használják azok besorolásához. Az InterPro mindegyik tagadatbázisa eltérő részhez járul a nagyon magas szintű, szerkezeti alapú osztályzástól (SUPERFAMILY és CATH-Gene3D) a specifikus alcsalád-besorolásig (PRINTS, PANTHER).

Az InterPro célja a fehérjékről szóló információk egy helyen való megtalálhatósága, ahol minden eltérő adatbázis által adott eredmény az InterPro-adatbázisban lévő bejegyzésekbe kerül. Az ekvivalens doméneket, helyeket vagy családokat adó eredmények egy helyre kerülnek, és a bejegyzések összekapcsolhatók. További információk, például leírás, konzisztens nevek és génontológiai (GO) fogalmak tartoznak minden bejegyzéshez, ha lehetséges.

Az InterPro adatai

szerkesztés

Az InterPro három fő entitást tartalmaz: fehérjéket, aláírásokat (metódusok, modellek) és bejegyzések. A UniProtKB-ben lévő fehérjék az InterPro központi fehérjeentitásai. Az adott aláírásnak jelentősen megfelelő fehérjék a UniProtKB-ben lévő szekvenciákból vannak számítva, ezen eredmények nyilvánosak. Az aláírás-fehérje egyezések határozzák meg az aláírások integrálását InterPro-bejegyzésekbe: az egyeztetett fehérjecsoportok átfedése és az aláírások egyezésének foka használatosak a rokonság indikátoraiként. Csak az elegendően magas minőségű aláírások kerülnek az InterPróba. Az InterPro 81.0 a UniProtKB-ben lévő csoportok 73,9%-át tartalmazta, további 9,2% pedig integrálás alatt állt.[4]

 
A UniProtKB-csoportok lefedettsége InterPro-bejegyzésekkel az InterPro 81.0-ban[4]

Az InterPro tartalmaz továbbá adatokat splicingváltozatokhoz és a UniParc és UniMES adatbázisokban lévő fehérjékhez.

Az InterPro tagadatbázisai

szerkesztés
 
Az InterPro 13 tagadatbázisa adatbázis-építő módszer és a központban lévő biológiai entitás szerint csoportosítva.[5]

Az InterPro aláírásait 13 „tagadatbázis” adja:

  • CATH-Gene3D: Fehérjecsaládokat és doménarchitektúrákat ír le teljes genomokban. A fehérjecsaládok Markov-csoportosítóalgoritmussal jönnek létre többkapcsolatos csoportosítással szekvenciaazonosságnak megfelelően. Az előrejelzett szerkezet és a szekvenciadomének összekapcsolása rejtett Markov-modellel történik. A funkciós jelölés több erőforrásból származó fehérjékre használható. A funkciós előrejelzés és analízis a Gene3D-weblapról elérhető.
  • CDD: a Conserved Domain Database fehérjejelző adatbázis, mely többszekvenciás elrendezési modellekből áll ősi doménekhez és teljes fehérjékhez is. Pozícióspecifikus pontszámmátrixok (PSSM) érhetők el az állandó domének gyors azonosítására RPS-BLAST-tal.
  • HAMAP: a High-quality Automated and Manual Annotation of microbial Proteomes rövidítése. A HAMAP-profilokat kézzel készítik szakértők jól állandósult bakteriális, archeális és plasztiszok (például kloroplasztisz, cianellum, apikoplasztisz, nem fotoszintetikus plasztisz) kódolta fehérjék családjairól vagy alcsaládjairól.
  • MobiDB: a MobiDB a fehérjék belső rendezetlenségét jelölő adatbázis.
  • PANTHER: a PANTHER nagy, funkcionálisan rokon alcsaládokba osztott fehérjecsaládok kézzel karbantartott gyűjteménye. Ezen alcsaládok a funkciók divergenciáját modellezik, lehetővé téve a pontosabb összekapcsolást a funkcióval (kézzel karbantartott molekulárisfunkció- és biológiaifolyamat-osztályzások és útvonaldiagramok), valamint a funkciós specificitáshoz fontos aminosavak inferenciáját. A családokhoz és alcsaládokhoz rejtett Markov-modellek készülnek további szekvenciák azonosításához.
  • Pfam: Nagy többszekvenciás elrendeződések és több gyakori fehérjedomént és -családot lefedő rejtett Markov-modellek gyűjteménye.
  • PIRSF: a PIRSF többszintű szekvenciadiverzitással működő adatbázis főcsaládtól alcsaládig, mely a teljes fehérjék és domének kapcsolatát tükrözi. Az elsődleges PIRSF osztályozási egység a homeomorf család, melynek tagjai homológok (közös ősből fejlődtek) és homeomorfak (teljes hosszúságú szekvenciahasonlóságuk és közös doménszerkezetük van).
  • PRINTS: a PRINTS fehérje-ujjlenyomatok gyűjteménye. Az ujjlenyomat egy fehérjecsalád jellemzésére használható állandósult motívumok gyűjteménye, diagnosztikai erejét a UniProt iteratív ellenőrzése növeli. Általában a motívumok nem fednek át, hanem egy szekvencián elválnak, azonban 3D-s térben folytonosak lehetnek. Az ujjlenyomatok rugalmasabban kódolhatják fehérjék szerkezetét és funkcióit, mint egyes motívumok, teljes diagnosztikai képességük a szomszédaik adta kontextusból származik.
  • PROSITE: a PROSITE fehérjecsaládok és -domének adatbázisa. Biológiailag jelentős helyekből, mintákból és profilokból áll, melyek segítik a megbízható eldöntését annak, hogy egy új szekvencia mely család tagja (ha tagja).
  • SMART: a Simple Modular Architecture Research Tool lehetővé teszi genetikailag mobilis domének azonosítását és jelölését és a doménarchitektúrák elemzését. Több mint 800 doméncsalád észlelhető szignál-, sejten kívüli és kromatinasszociált fehérjékben. Ezek jelentős mértékben meg vannak jelölve, figyelembe véve a filetikus eloszlásokat, a funkciós osztályt, a harmadlagos szerkezeteket és a funkcióhoz fontos csoportokat.
  • SUPERFAMILY: a SUPERFAMILY rejtett profil-Markov-modellek könyvtára, minden ismert szerkezetű fehérjével. A könyvtár a SCOP-besoroláson alapul: minden modell egy SCOP-doménnek felel meg, célja az egész SCOP-szupercsalád lefedése, melyhez az adott domén tartozik. A SUPERFAMILY használható teljesen szekvenált genomokhoz való szerkezet-hozzárendelésekhez.
SFLD
hierarchikus enzimosztályozás, mely szekvencia-szerkezeti jellemzőket kapcsol össze bizonyos kémiai funkciókhoz.
TIGRFAMs
a TIGRFAMs fehérjecsaládok gyűjteménye, több szekvenciaelrendezéssel, rejtett Markov-modellekkel és jelölésekkel, eszközként szolgálva a funkcionálisan kapcsolódó fehérjék azonosítására szekvenciahomológia alapján. Az „ekvivalog” bejegyzések a homológ fehérjéket csoportosítják, melyek funkciója állandó.

Adattípusok

szerkesztés

Az InterPro a különböző tagok által biztosított 7 adattípusból áll:

InterPro-adattípusok
Adattípus Leírás Adatbázisok
InterPro-bejegyzések Fehérjék egy vagy több aláírás alapján előrejelzett szerkezeti vagy funkciós doménjei Mind a 13 tagadatbázis
tagadatbázis-aláírások Tagadatbázisból származó aláírások. Ide tartoznak az InterPróba integrált és még nem integrált aláírások is. Mind a 13 tagadatbázis
Fehérje Fehérjeszekvenciák UniProtKB (Swiss-Prot, TrEMBL)
Proteom Egy élőlényhez tartozó fehérjék gyűjteménye UniProtKB
Szerkezet 3 dimenziós fehérjeszerkezet PDBe
Taxonómia Fehérje taxonómiai információi UniProtKB
Csoport Evolúciósan kapcsolódó családok csoportjai Pfam, CDD
 
Az InterPro 5 bejegyzéstípusát azonosító ikonok (homológ szupercsalád, család, domén, ismétlődés, hely).[6]

InterPro-bejegyzéstípusok

szerkesztés

Az InterPro bejegyzései 5 típusra bonthatók:

  • homológ szupercsalád: közös evolúciós eredetű fehérjecsoport, mely a szerkezeti hasonlóságokon látható, még ha a szekvenciák nem is hasonlók. Ezeket 2 tagadatbázis biztosítja: a CATH-Gene3D és a SUPERFAMILY.
  • család: közös evolúciós eredetű fehérjecsoport szerkezeti hasonlóságokon, hasonló funkciókon vagy szekvenciahomológián keresztül.
  • domén: egy fehérje adott egysége adott funkcióval, szerkezettel vagy szekvenciával.
  • ismétlődés: általában 50 aminosavnál nem hosszabb aminosav-szekvencia, mely egy fehérjében többször ismétlődik.
  • hely: rövid aminosav-szekvencia, ahol legalább 1 aminosav azonos. Ide tartoznak a poszttranszlációs módosítási helyek, az állandó helyek, a kötőhelyek és az aktív helyek.

Az adatbázis elérhető szöveg- és szekvenciaalapú keresésekre webszerveren, valamint letöltésre anonim FTP-n keresztül. Más EBI-adatbázisokhoz hasonlóan közkincs, mivel tartalma „felhasználható bárki által bármilyen célra”.[7] Az InterPro 8 hetente tesz közzé adatot, általában ugyanazon fehérjék UniProtKB-kiadásától számított egy napon belül.

InterPro-alkalmazásprogramozásifelület (API)

szerkesztés

Az InterPro API-t biztosít az összes bejegyzésének és hasonló bejegyzések JSON-formátumban való eléréséhez.[8] 6 fő, különböző InterPro-adattípusokhoz tartozó végpontja van az API-nak: bejegyzés, fehérje, szerkezet, taxonómia, proteom és csoport.

InterProScan

szerkesztés

Az InterProScan szekvenciák tagadatbázisokban lévő bejegyzésekkel való összehasonlítását lehetővé tevő szoftvercsomag. Ezen aláírás-ellenőrző szoftver használható új nukleotid- vagy fehérjeszekvenciák funkcionális jellemzésére.[9] Az InterProScan gyakran használatos genomprojektekben a kívánt genom első jellemzésére.[10][11] 2020 decemberében az InterProScan nyilvános változata (5.x) Java-alapú architektúrát használt.[12] A szoftvercsomag csak 64 bites Linuxon támogatott.

Az InterProScan más EMBL-EBI bioinformatikai eszközökhöz hasonlóan a REST és SOAP Web Services API-kkal érhető el.[13]

  1. Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, Bernard T, Binns D, Bork P, Burge S, de Castro E, Coggill P, Corbett M, Das U, Daugherty L, Duquenne L, Finn RD, Fraser M, Gough J, Haft D, Hulo N, Kahn D, Kelly E, Letunic I, Lonsdale D, Lopez R, Madera M, Maslen J, McAnulla C, McDowall J, McMenamin C, Mi H, Mutowo-Muellenet P, Mulder N, Natale D, Orengo C, Pesseat S, Punta M, Quinn AF, Rivoire C, Sangrador-Vegas A, Selengut JD, Sigrist CJ, Scheremetjew M, Tate J, Thimmajanarthanan M, Thomas PD, Wu CH, Yeats C, Yong SY (2012. január 1.). „InterPro in 2011: new developments in the family and domain prediction database”. Nucleic Acids Research 40 (Database issue), D306-12. o. DOI:10.1093/nar/gkr948. PMID 22096229. PMC 3245097. 
  2. Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM (2001. január 1.). „The InterPro database, an integrated documentation resource for protein families, domains and functional sites”. Nucleic Acids Research 29 (1), 37–40. o. DOI:10.1093/nar/29.1.37. PMID 11125043. PMC 29841. 
  3. Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM (2000. december 1.). „InterPro--an integrated documentation resource for protein families, domains and functional sites”. Bioinformatics 16 (12), 1145–50. o. DOI:10.1093/bioinformatics/16.12.1145. PMID 11159333. 
  4. a b Blum M, Chang HY, Chuguransky S, Grego T, Kandasaamy S, Mitchell A, Nuka G, Paysan-Lafosse T, Qureshi M, Raj S, Richardson L, Salazar GA, Williams L, Bork P, Bridge A, Gough J, Haft DH, Letunic I, Marchler-Bauer A, Mi H, Natale DA, Necci M, Orengo CA, Pandurangan AP, Rivoire C, Sigrist CJ, Sillitoe I, Thanki N, Thomas PD, Tosatto SC, Wu CH, Bateman A, Finn RD (2020. november 1.). „The InterPro protein families and domains database: 20 years on”. Nucleic Acids Research 49 (D1), D344–D354. o. DOI:10.1093/nar/gkaa977. PMID 33156333. PMC 7778928. 
  5. EMBL-EBI: Where does the data come from? | InterPro (angol nyelven). (Hozzáférés: 2020. december 4.)
  6. EMBL-EBI: InterPro entry types | InterPro (angol nyelven). (Hozzáférés: 2020. december 4.)
  7. Terms of Use for EMBL-EBI Services | European Bioinformatics Institute
  8. How to download InterPro data? — InterPro Documentation. interpro-documentation.readthedocs.io . (Hozzáférés: 2020. december 4.)
  9. Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R (2005. július 1.). „InterProScan: protein domains identifier” (Free full text). Nucleic Acids Research 33 (Web Server issue), W116-20. o. DOI:10.1093/nar/gki442. PMID 15980438. PMC 1160203. 
  10. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, etal (2001. február 1.). „Initial sequencing and analysis of the human genome”. Nature 409 (6822), 860–921. o. DOI:10.1038/35057062. PMID 11237011. 
  11. Holt RA, Subramanian GM, Halpern A, Sutton GG, Charlab R, Nusskern DR, etal (2002. október 1.). „The genome sequence of the malaria mosquito Anopheles gambiae”. Science 298 (5591), 129–49. o. DOI:10.1126/science.1076181. PMID 12364791. 
  12. Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, McWilliam H, Maslen J, Mitchell A, Nuka G, Pesseat S, Quinn AF, Sangrador-Vegas A, Scheremetjew M, Yong SY, Lopez R, Hunter S (2014. május 1.). „InterProScan 5: genome-scale protein function classification”. Bioinformatics 30 (9), 1236–40. o. DOI:10.1093/bioinformatics/btu031. PMID 24451626. PMC 3998142. 
  13. Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, Basutkar P, Tivey AR, Potter SC, Finn RD, Lopez R (2019. július 1.). „The EMBL-EBI search and sequence analysis tools APIs in 2019”. Nucleic Acids Research 47 (W1), W636–W641. o. DOI:10.1093/nar/gkz268. PMID 30976793. PMC 6602479. 

Fordítás

szerkesztés

Ez a szócikk részben vagy egészben az InterPro című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

További információk

szerkesztés