GenBank - GenBank
Indhold | |
---|---|
Beskrivelse | Nukleotidsekvenser for mere end 300.000 organismer med understøttende bibliografisk og biologisk kommentar. |
Datatyper fanget |
|
Organismer | Alle |
Kontakt | |
Forskningscenter | NCBI |
Primær henvisning | PMID 21071399 |
Udgivelses dato | 1982 |
Adgang | |
Dataformat | |
Internet side | NCBI |
Download URL | ncbi ftp |
Web service URL | |
Værktøjer | |
Web | SPÆNDING |
Standalone | SPÆNDING |
Diverse | |
Licens | Uklar |
The GenBank sekvensdatabasen er en åben adgang , kommenteret samling af alle offentligt tilgængelige nucleotid -sekvenser og deres protein- oversættelser. Det produceres og vedligeholdes af National Center for Biotechnology Information (NCBI; en del af National Institutes of Health i USA ) som en del af International Nucleotide Sequence Database Collaboration (INSDC).
GenBank og dets samarbejdspartnere modtager sekvenser produceret i laboratorier over hele verden fra mere end 100.000 forskellige organismer . Databasen startede i 1982 af Walter Goad og Los Alamos National Laboratory . GenBank er blevet en vigtig database for forskning inden for biologiske felter og er vokset i de seneste år med eksponentiel hastighed ved at fordoble omtrent hver 18. måned.
Udgivelse 242.0, produceret i februar 2021, indeholdt over 12 billioner nukleotidbaser i mere end 2 milliarder sekvenser. GenBank er opbygget af direkte indsendelser fra individuelle laboratorier samt fra bulk indsendelser fra store sekventeringscentre .
Indsendelser
Kun originale sekvenser kan indsendes til GenBank. Der indsendes direkte indsendelser til GenBank ved hjælp af BankIt , som er en webbaseret formular eller det enkeltstående indsendelsesprogram, Sequin . Efter modtagelse af en sekvensindsendelse undersøger GenBank -personalet dataenes originalitet og tildeler sekvensen et tiltrædelsesnummer og udfører kvalitetskontrol. Indsendelserne frigives derefter til den offentlige database, hvor posterne kan hentes af Entrez eller downloades med FTP . Masseindsendelser af Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) og High-Throughput Genome Sequence (HTGS) data indsendes oftest af store sekvenscentre. GenBank -gruppen med direkte indsendelser behandler også komplette mikrobielle genom -sekvenser.
Historie
Walter Goad fra Theoretical Biology and Biophysics Group ved Los Alamos National Laboratory og andre etablerede Los Alamos Sequence Database i 1979, som kulminerede i 1982 med oprettelsen af den offentlige GenBank. Finansiering blev ydet af National Institutes of Health , National Science Foundation, Department of Energy og Department of Defense. LANL samarbejdede på GenBank med firmaet Bolt, Beranek og Newman , og ved udgangen af 1983 blev mere end 2.000 sekvenser gemt i det.
I midten af 1980'erne ledede Intelligenetics bioinformatikvirksomheden ved Stanford University GenBank -projektet i samarbejde med LANL. Som et af de tidligste bioinformatik -samfundsprojekter på Internettet startede GenBank -projektet BIOSCI /Bionet -nyhedsgrupper for at fremme åben adgangskommunikation mellem bioscientists. I løbet af 1989 til 1992 overgik GenBank -projektet til det nyoprettede nationale center for bioteknologisk information .
Vækst
I GenBanks udgivelsesnotater til udgivelse 162.0 (oktober 2007) hedder det, at "fra 1982 til i dag er antallet af baser i GenBank fordoblet cirka hver 18. måned". Den 15. juni 2019 har GenBank -udgivelse 232.0 213.383.758 loci , 329.835.282.370 baser, fra 213.383.758 rapporterede sekvenser.
GenBank -databasen indeholder yderligere datasæt, der er konstrueret mekanisk ud fra dataindsamlingen i hovedsekvensen, og derfor er udelukket fra dette antal.
Organisme | basepar |
---|---|
Homo sapiens | 1.6310774187 × 10 10 |
Mus musculus | 9.974977889 × 10 9 |
Rattus norvegicus | 6.521253272 × 10 9 |
Bos taurus | 5.386258455 × 10 9 |
Zea mays | 5.062731057 × 10 9 |
Sus scrofa | 4.88786186 × 10 9 |
Danio rerio | 3.120857462 × 10 9 |
Strongylocentrotus purpuratus | 1.435236534 × 10 9 |
Macaca mulatta | 1.256203101 × 10 9 |
Oryza sativa Japonica Group | 1.255686573 × 10 9 |
Nicotiana tabacum | 1.197357811 × 10 9 |
Xenopus (Silurana) tropicalis | 1.249938611 × 10 9 |
Drosophila melanogaster | 1.11996522 × 10 9 |
Pan troglodytes | 1.008323292 × 10 9 |
Arabidopsis thaliana | 1.144226616 × 10 9 |
Canis lupus familiaris | 951.238.343 |
Vitis vinifera | 999.010.073 |
Gallus gallus | 899.631.338 |
Glycin max | 906.638.854 |
Triticum aestivum | 898.689.329 |
Ufuldstændige identifikationer
Offentlige databaser, som kan søges ved hjælp af National Center for Biotechnology Information Basic Local Alignment Search Tool (NCBI BLAST), mangler peer-reviewed sekvenser af typestammer og sekvenser af ikke-type stammer. På den anden side, mens kommercielle databaser potentielt indeholder filtrerede sekvensdata af høj kvalitet, er der et begrænset antal referencesekvenser.
Et papir udgivet i Journal of Clinical Microbiology evaluerede 16S rRNA- gensekventeringsresultaterne analyseret med GenBank i forbindelse med andre frit tilgængelige, kvalitetskontrollerede, webbaserede offentlige databaser, såsom EzTaxon -e og BIBI-databaser. Resultaterne viste, at analyser udført ved hjælp af GenBank kombineret med EzTaxon -e (kappa = 0,79) var mere diskriminerende end at bruge GenBank (kappa = 0,66) eller andre databaser alene.
GenBank, der er en offentlig database, kan indeholde sekvenser, der er forkert tildelt en bestemt art, fordi den oprindelige identifikation af organismen var forkert. En nylig artikel, der blev offentliggjort i Genome (journal) , viste, at 75% af mitokondrielle Cytochrome c -oxidase -underenhed I -sekvenser blev forkert tildelt fisken Nemipterus mesoprion som følge af fortsat brug af sekvenser af oprindeligt fejlidentificerede personer. Forfatterne giver anbefalinger til, hvordan man undgår yderligere distribution af offentligt tilgængelige sekvenser med forkerte videnskabelige navne.
Se også
- Ensembl
- Human Protein Reference Database (HPRD)
- Sekvensanalyse
- UniProt
- Liste over sekventerede eukaryote genomer
- Liste over sekventerede arkaeal genomer
- RefSeq - Reference Sequence Database
- Geneious - indeholder et GenBank Submission Tool
- Åbn videnskabelige data
Referencer
- Denne artikel indeholder materiale fra det offentlige domæne fra National Center for Biotechnology Information document: "NCBI Handbook" .
eksterne links
- GenBank
- Eksempel på sekvensrekord for hæmoglobin beta
- BankIt
- Paillet -et enkeltstående softwareværktøj udviklet af NCBI til indsendelse og opdatering af poster til GenBank-sekvensdatabasen.
- EMBOSS - gratis, open source software til molekylærbiologi
- GenBank, RefSeq, TPA og UniProt: Hvad er der i et navn?