GenBank - GenBank

GenBank
Indhold
Beskrivelse Nukleotidsekvenser for mere end 300.000 organismer med understøttende bibliografisk og biologisk kommentar.
Datatyper
fanget
Organismer Alle
Kontakt
Forskningscenter NCBI
Primær henvisning PMID  21071399
Udgivelses dato 1982 ; 39 år siden ( 1982 )
Adgang
Dataformat
Internet side NCBI
Download URL ncbi ftp
Web service URL
Værktøjer
Web SPÆNDING
Standalone SPÆNDING
Diverse
Licens Uklar

The GenBank sekvensdatabasen er en åben adgang , kommenteret samling af alle offentligt tilgængelige nucleotid -sekvenser og deres protein- oversættelser. Det produceres og vedligeholdes af National Center for Biotechnology Information (NCBI; en del af National Institutes of Health i USA ) som en del af International Nucleotide Sequence Database Collaboration (INSDC).

GenBank og dets samarbejdspartnere modtager sekvenser produceret i laboratorier over hele verden fra mere end 100.000 forskellige organismer . Databasen startede i 1982 af Walter Goad og Los Alamos National Laboratory . GenBank er blevet en vigtig database for forskning inden for biologiske felter og er vokset i de seneste år med eksponentiel hastighed ved at fordoble omtrent hver 18. måned.

Udgivelse 242.0, produceret i februar 2021, indeholdt over 12 billioner nukleotidbaser i mere end 2 milliarder sekvenser. GenBank er opbygget af direkte indsendelser fra individuelle laboratorier samt fra bulk indsendelser fra store sekventeringscentre .

Indsendelser

Kun originale sekvenser kan indsendes til GenBank. Der indsendes direkte indsendelser til GenBank ved hjælp af BankIt , som er en webbaseret formular eller det enkeltstående indsendelsesprogram, Sequin . Efter modtagelse af en sekvensindsendelse undersøger GenBank -personalet dataenes originalitet og tildeler sekvensen et tiltrædelsesnummer og udfører kvalitetskontrol. Indsendelserne frigives derefter til den offentlige database, hvor posterne kan hentes af Entrez eller downloades med FTP . Masseindsendelser af Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) og High-Throughput Genome Sequence (HTGS) data indsendes oftest af store sekvenscentre. GenBank -gruppen med direkte indsendelser behandler også komplette mikrobielle genom -sekvenser.

Historie

Walter Goad fra Theoretical Biology and Biophysics Group ved Los Alamos National Laboratory og andre etablerede Los Alamos Sequence Database i 1979, som kulminerede i 1982 med oprettelsen af ​​den offentlige GenBank. Finansiering blev ydet af National Institutes of Health , National Science Foundation, Department of Energy og Department of Defense. LANL samarbejdede på GenBank med firmaet Bolt, Beranek og Newman , og ved udgangen af ​​1983 blev mere end 2.000 sekvenser gemt i det.

I midten af ​​1980'erne ledede Intelligenetics bioinformatikvirksomheden ved Stanford University GenBank -projektet i samarbejde med LANL. Som et af de tidligste bioinformatik -samfundsprojekter på Internettet startede GenBank -projektet BIOSCI /Bionet -nyhedsgrupper for at fremme åben adgangskommunikation mellem bioscientists. I løbet af 1989 til 1992 overgik GenBank -projektet til det nyoprettede nationale center for bioteknologisk information .

Genbank og EMBL: NucleotideSequences 1986/1987 bind I til VII.
CDRom fra Genbank v100

Vækst

Vækst i GenBank-basepar, 1982 til 2018, i en semi-log-skala

I GenBanks udgivelsesnotater til udgivelse 162.0 (oktober 2007) hedder det, at "fra 1982 til i dag er antallet af baser i GenBank fordoblet cirka hver 18. måned". Den 15. juni 2019 har GenBank -udgivelse 232.0 213.383.758 loci , 329.835.282.370 baser, fra 213.383.758 rapporterede sekvenser.

GenBank -databasen indeholder yderligere datasæt, der er konstrueret mekanisk ud fra dataindsamlingen i hovedsekvensen, og derfor er udelukket fra dette antal.

Toporganismer i GenBank (frigivelse 191)
Organisme basepar
Homo sapiens 1.6310774187 × 10 10^
Mus musculus 9.974977889 × 10 9^
Rattus norvegicus 6.521253272 × 10 9^
Bos taurus 5.386258455 × 10 9^
Zea mays 5.062731057 × 10 9^
Sus scrofa 4.88786186 × 10 9^
Danio rerio 3.120857462 × 10 9^
Strongylocentrotus purpuratus 1.435236534 × 10 9^
Macaca mulatta 1.256203101 × 10 9^
Oryza sativa Japonica Group 1.255686573 × 10 9^
Nicotiana tabacum 1.197357811 × 10 9^
Xenopus (Silurana) tropicalis 1.249938611 × 10 9^
Drosophila melanogaster 1.11996522 × 10 9^
Pan troglodytes 1.008323292 × 10 9^
Arabidopsis thaliana 1.144226616 × 10 9^
Canis lupus familiaris 951.238.343
Vitis vinifera 999.010.073
Gallus gallus 899.631.338
Glycin max 906.638.854
Triticum aestivum 898.689.329

Ufuldstændige identifikationer

Offentlige databaser, som kan søges ved hjælp af National Center for Biotechnology Information Basic Local Alignment Search Tool (NCBI BLAST), mangler peer-reviewed sekvenser af typestammer og sekvenser af ikke-type stammer. På den anden side, mens kommercielle databaser potentielt indeholder filtrerede sekvensdata af høj kvalitet, er der et begrænset antal referencesekvenser.

Et papir udgivet i Journal of Clinical Microbiology evaluerede 16S rRNA- gensekventeringsresultaterne analyseret med GenBank i forbindelse med andre frit tilgængelige, kvalitetskontrollerede, webbaserede offentlige databaser, såsom EzTaxon -e og BIBI-databaser. Resultaterne viste, at analyser udført ved hjælp af GenBank kombineret med EzTaxon -e (kappa = 0,79) var mere diskriminerende end at bruge GenBank (kappa = 0,66) eller andre databaser alene.

GenBank, der er en offentlig database, kan indeholde sekvenser, der er forkert tildelt en bestemt art, fordi den oprindelige identifikation af organismen var forkert. En nylig artikel, der blev offentliggjort i Genome (journal) , viste, at 75% af mitokondrielle Cytochrome c -oxidase -underenhed I -sekvenser blev forkert tildelt fisken Nemipterus mesoprion som følge af fortsat brug af sekvenser af oprindeligt fejlidentificerede personer. Forfatterne giver anbefalinger til, hvordan man undgår yderligere distribution af offentligt tilgængelige sekvenser med forkerte videnskabelige navne.

Se også

Referencer


eksterne links