Proteindatenbanken – Typen und Bedeutung

Proteindatenbanken – Typen und Bedeutung

Da sich die Biologie zunehmend zu einer datenreichen Wissenschaft entwickelt hat, ist der Bedarf an der Speicherung und Kommunikation großer Datensätze enorm gewachsen.

Die offensichtlichen Beispiele sind die Nukleotidsequenzen, die Proteinsequenzen und die 3D-Strukturdaten, die durch Röntgenkristallographie und makromolekulare NMR erzeugt wurden.

Die biologische Information von Proteinen liegt als Sequenzen und Strukturen vor. Sequenzen werden eindimensional dargestellt, während die Struktur die dreidimensionalen Daten von Sequenzen enthält.

Eine biologische Datenbank ist eine Sammlung von Daten, die so organisiert ist, dass ihr Inhalt leicht zugänglich, verwaltet und aktualisiert werden kann.

Eine Proteindatenbank besteht aus einem oder mehreren Datensätzen über Proteine, die die Aminosäuresequenz, Konformation, Struktur und Merkmale eines Proteins umfassen können, wie z. B. aktive Zentren. 

Proteindatenbanken werden durch die Übersetzung von DNA-Sequenzen aus verschiedenen Gendatenbanken erstellt und enthalten Strukturinformationen. Sie sind eine wichtige Ressource, da Proteine ​​die meisten biologischen Funktionen vermitteln.

Proteindatenbanken – Typen und Bedeutung

Bedeutung von Proteindatenbanken

Es werden riesige Datenmengen zu Proteinstrukturen, -funktionen und vor allem Sequenzen generiert. Das Durchsuchen von Datenbanken ist oft der erste Schritt bei der Untersuchung eines neuen Proteins. Es hat die folgenden Verwendungen:

  1. Der Vergleich zwischen Proteinen oder zwischen Proteinfamilien liefert Informationen über die Beziehung zwischen Proteinen innerhalb eines Genoms oder zwischen verschiedenen Spezies und bietet daher viel mehr Informationen, die durch die Untersuchung nur eines isolierten Proteins gewonnen werden können.
  2. Sekundärdatenbanken, die von experimentellen Datenbanken abgeleitet sind, sind ebenfalls weit verbreitet. Diese Datenbanken reorganisieren und kommentieren die Daten oder liefern Vorhersagen.
  3. Die Verwendung mehrerer Datenbanken hilft Forschern oft, die Struktur und Funktion eines Proteins zu verstehen.

Primäre data beinses of Protein

Die PRIMARY-Datenbanken enthalten die experimentell bestimmten Proteinsequenzen, die aus der konzeptionellen Translation der Nukleotidsequenzen abgeleitet wurden. Dies ist natürlich keine experimentell abgeleitete Information, sondern ist als Ergebnis der Interpretation der Nukleotidsequenzinformation entstanden und muss folglich so behandelt werden, als ob sie möglicherweise fehlinterpretierte Information enthält. Es gibt eine Reihe von Datenbanken mit primären Proteinsequenzen, und jede erfordert einige spezifische Überlegungen.

ein. P tein Information Resource (PIR) – Protein Sequence Database (PIR-PSD):

  • Die PIR-PSD ist eine Kooperation zwischen dem PIR, dem MIPS (Münchener Informationszentrum für Proteinsequenzen, Deutschland) und der JIPID (Japan International Protein Information Database, Japan).
  • Das PIR-PSD ist jetzt ein umfassendes, nicht redundantes, fachmännisch kommentiertes, objektrelationales DBMS.
  • Ein einzigartiges Merkmal der PIR-PSD ist die Klassifizierung von Proteinsequenzen basierend auf dem Superfamilienkonzept.
  • Die Sequenz in PIR-PSD wird auch basierend auf Homologiedomäne und Sequenzmotiven klassifiziert.
  • Homologiedomänen können evolutionären Bausteinen entsprechen, während Sequenzmotive funktionelle Stellen oder konservierte Regionen darstellen.
  • Der Klassifizierungsansatz ermöglicht ein vollständigeres Verständnis der Sequenzfunktion-Struktur-Beziehung.

b. SWISS-PROT

  • Die andere bekannte und ausgiebig genutzte Proteindatenbank ist SWISS-PROT. Wie die PIR-PSD bietet auch diese kuratierte Proteinsequenzdatenbank ein hohes Maß an Annotation.
  • Die Daten in jedem Eintrag können separat als Kerndaten und Annotation betrachtet werden.
  • Die Kerndaten bestehen aus den Sequenzen, die in einem gemeinsamen Einzelbuchstaben-Aminosäurecode eingegeben wurden, sowie den zugehörigen Referenzen und Bibliographie. Zu diesen Kerninformationen gehört auch die Taxonomie des Organismus, aus dem die Sequenz gewonnen wurde.
  • Die Annotation enthält Informationen über die Funktion oder Funktionen des Proteins, posttranslationale Modifikation wie Phosphorylierung, Acetylierung usw., funktionelle und strukturelle Domänen und Stellen wie Calciumbindungsregionen, ATP-Bindungsstellen, Zinkfinger usw., bekannte sekundäre Strukturmerkmale wie zum Beispiel Alpha-Helix, Beta-Faltblatt usw., die Quartärstruktur des Proteins, Ähnlichkeiten mit anderen Proteinen, falls vorhanden, und Krankheiten, die dadurch entstehen können, dass verschiedene Autoren unterschiedliche Sequenzen für dasselbe Protein veröffentlichen oder aufgrund von Mutationen in verschiedenen Stämmen einer als Teil der Annotation beschrieben.

TrEMBL (für Translated EMBL) ist eine computerannotierte Proteinsequenzdatenbank, die als Ergänzung zu SWISS-PROT veröffentlicht wird. Es enthält die Übersetzung aller kodierenden Sequenzen, die in der EMBL-Nukleotiddatenbank vorhanden sind, die jedoch nicht vollständig annotiert wurden. Somit kann es die Sequenz von Proteinen enthalten, die niemals exprimiert und in den Organismen nie tatsächlich identifiziert werden.

c. Proteindatenbank (PDB):

  • PDB ist eine primäre Proteinstrukturdatenbank. Es ist eine kristallographische Datenbank für die dreidimensionale Struktur großer biologischer Moleküle wie Proteine.
  • Trotz des Namens archiviert PDB die dreidimensionalen Strukturen nicht nur von Proteinen, sondern auch aller biologisch wichtigen Moleküle wie Nukleinsäurefragmente, RNA-Moleküle, große Peptide wie das Antibiotikum Gramicidin und Komplexe aus Proteinen und Nukleinsäuren.
  • Die Datenbank enthält Daten, die hauptsächlich aus drei Quellen stammen: Struktur bestimmt durch Röntgenkristallographie, NMR-Experimente und molekulare Modellierung.

Secondary Data bein ses o f Protein

Die sekundären Datenbanken werden so genannt, weil sie die Ergebnisse der Analyse der Sequenzen enthalten, die in primären Datenbanken gespeichert sind. Viele sekundäre Proteindatenbanken sind das Ergebnis der Suche nach Merkmalen, die verschiedene Proteine ​​in Beziehung setzen. Einige häufig verwendete sekundäre Datenbanken für Sequenz und Struktur sind wie folgt:

ein. PROSITE: 

  • Eine Reihe von Datenbanken sammelt Muster, die in Proteinsequenzen gefunden wurden, und nicht die vollständigen Sequenzen. PROSITE ist eine solche Musterdatenbank.
  • Das Proteinmotiv und -muster werden als „reguläre Ausdrücke“ kodiert.
  • Die Informationen, die jedem Eintrag in PROSITE entsprechen, haben zwei Formen – die Muster und der zugehörige Beschreibungstext.

b. DRUCKE:

  • In der PRINTS-Datenbank werden die Proteinsequenzmuster als „Fingerabdrücke“ gespeichert. Ein Fingerabdruck ist eher ein Satz von Motiven oder Mustern als ein einzelner.
  • Die im PRINT-Eintrag enthaltenen Informationen lassen sich in drei Abschnitte unterteilen. Neben Eintragsname, Zugangsnummer und Motivanzahl enthält der erste Abschnitt Querverweise zu anderen Datenbanken, die weitere Informationen zur charakterisierten Familie enthalten.
  • Der zweite Abschnitt enthält eine Tabelle, die zeigt, wie viele der Motive, aus denen der Fingerabdruck besteht, in wie vielen Sequenzen in dieser Familie vorkommen.
  • Der letzte Abschnitt des Eintrags enthält die eigentlichen Fingerabdrücke, die als mehrfach ausgerichtete Sätze von Sequenzen gespeichert sind, das Alignment erfolgt lückenlos. Daher gibt es für jedes Motiv einen Satz ausgerichteter Sequenzen.

c. MHCPep:

  • MHCPep ist eine Datenbank mit über 13000 Peptidsequenzen, von denen bekannt ist, dass sie den Major Histocompatibility Complex des Immunsystems binden.
  • Jeder Eintrag in der Datenbank enthält nicht nur die Peptidsequenz, die 8 bis 10 Aminosäuren lang sein kann, sondern auch Informationen über die spezifischen MHC-Moleküle, an die es bindet, die experimentelle Methode zur Bestimmung des Peptids, den Aktivitätsgrad und die beobachtete Bindungsaffinität, das Quellprotein, das beim Abbau dieses Peptid zusammen mit anderen hervorbrachte, die Positionen entlang des Peptids, an denen es an den MHC-Molekülen verankert ist, und Verweise und Querverbindungen zu anderen Informationen.

d. Pfam

  • Pfam enthält die Profile, die mit Hidden-Markov-Modellen verwendet werden.
  • HMMs bauen das Modell des Musters als eine Reihe von Übereinstimmungs-, Ersetzungs-, Einfüge- oder Löschzuständen auf, wobei Bewertungen für die Ausrichtung zugewiesen werden, um von einem Zustand zum anderen zu wechseln.
  • Jede im Pfam definierte Familie oder jedes Muster besteht aus den vier Elementen. Die erste ist die Anmerkung, die Informationen über die Quelle enthält, um den Eintrag vorzunehmen, die verwendete Methode und einige Zahlen, die als Gütezahlen dienen.
  • Das zweite ist das Seed-Alignment, das verwendet wird, um den Rest der Sequenzen in die multiplen Alignments und dann in die Familie zu booten.
  • Das dritte ist das HMM-Profil.
  • Das vierte Element ist das vollständige Alignment aller in dieser Familie identifizierten Sequenzen.

Definebiology.net

Proteindatenbanken – Typen und Bedeutung

%d bloggers like this: