GenBank - GenBank

GenBank
Indhold
Beskrivelse	Nukleotidsekvenser for mere end 300.000 organismer med understøttende bibliografisk og biologisk kommentar.
Datatyper ; fanget
Organismer	Alle
Kontakt
Forskningscenter	NCBI
Primær henvisning	PMID 21071399
Udgivelses dato	1982 ; 39 år siden
Adgang
Dataformat
Internet side	NCBI
Download URL	ncbi ftp
Web service URL
Værktøjer
Web	SPÆNDING
Standalone	SPÆNDING
Diverse
Licens	Uklar

The GenBank sekvensdatabasen er en åben adgang , kommenteret samling af alle offentligt tilgængelige nucleotid -sekvenser og deres protein- oversættelser. Det produceres og vedligeholdes af National Center for Biotechnology Information (NCBI; en del af National Institutes of Health i USA ) som en del af International Nucleotide Sequence Database Collaboration (INSDC).

GenBank og dets samarbejdspartnere modtager sekvenser produceret i laboratorier over hele verden fra mere end 100.000 forskellige organismer . Databasen startede i 1982 af Walter Goad og Los Alamos National Laboratory . GenBank er blevet en vigtig database for forskning inden for biologiske felter og er vokset i de seneste år med eksponentiel hastighed ved at fordoble omtrent hver 18. måned.

Udgivelse 242.0, produceret i februar 2021, indeholdt over 12 billioner nukleotidbaser i mere end 2 milliarder sekvenser. GenBank er opbygget af direkte indsendelser fra individuelle laboratorier samt fra bulk indsendelser fra store sekventeringscentre .

Indsendelser

Kun originale sekvenser kan indsendes til GenBank. Der indsendes direkte indsendelser til GenBank ved hjælp af BankIt , som er en webbaseret formular eller det enkeltstående indsendelsesprogram, Sequin . Efter modtagelse af en sekvensindsendelse undersøger GenBank -personalet dataenes originalitet og tildeler sekvensen et tiltrædelsesnummer og udfører kvalitetskontrol. Indsendelserne frigives derefter til den offentlige database, hvor posterne kan hentes af Entrez eller downloades med FTP . Masseindsendelser af Expressed Sequence Tag (EST), Sequence-tagged site (STS), Genome Survey Sequence (GSS) og High-Throughput Genome Sequence (HTGS) data indsendes oftest af store sekvenscentre. GenBank -gruppen med direkte indsendelser behandler også komplette mikrobielle genom -sekvenser.

Historie

Walter Goad fra Theoretical Biology and Biophysics Group ved Los Alamos National Laboratory og andre etablerede Los Alamos Sequence Database i 1979, som kulminerede i 1982 med oprettelsen af den offentlige GenBank. Finansiering blev ydet af National Institutes of Health , National Science Foundation, Department of Energy og Department of Defense. LANL samarbejdede på GenBank med firmaet Bolt, Beranek og Newman , og ved udgangen af 1983 blev mere end 2.000 sekvenser gemt i det.

I midten af 1980'erne ledede Intelligenetics bioinformatikvirksomheden ved Stanford University GenBank -projektet i samarbejde med LANL. Som et af de tidligste bioinformatik -samfundsprojekter på Internettet startede GenBank -projektet BIOSCI /Bionet -nyhedsgrupper for at fremme åben adgangskommunikation mellem bioscientists. I løbet af 1989 til 1992 overgik GenBank -projektet til det nyoprettede nationale center for bioteknologisk information .

Genbank og EMBL: NucleotideSequences 1986/1987 bind I til VII.

CDRom fra Genbank v100

Vækst

Vækst i GenBank-basepar, 1982 til 2018, i en semi-log-skala

I GenBanks udgivelsesnotater til udgivelse 162.0 (oktober 2007) hedder det, at "fra 1982 til i dag er antallet af baser i GenBank fordoblet cirka hver 18. måned". Den 15. juni 2019 har GenBank -udgivelse 232.0 213.383.758 loci , 329.835.282.370 baser, fra 213.383.758 rapporterede sekvenser.

GenBank -databasen indeholder yderligere datasæt, der er konstrueret mekanisk ud fra dataindsamlingen i hovedsekvensen, og derfor er udelukket fra dette antal.

Toporganismer i GenBank (frigivelse 191)
Organisme	basepar
Homo sapiens	1.6310774187 × 10¹⁰^
Mus musculus	9.974977889 × 10⁹^
Rattus norvegicus	6.521253272 × 10⁹^
Bos taurus	5.386258455 × 10⁹^
Zea mays	5.062731057 × 10⁹^
Sus scrofa	4.88786186 × 10⁹^
Danio rerio	3.120857462 × 10⁹^
Strongylocentrotus purpuratus	1.435236534 × 10⁹^
Macaca mulatta	1.256203101 × 10⁹^
Oryza sativa Japonica Group	1.255686573 × 10⁹^
Nicotiana tabacum	1.197357811 × 10⁹^
Xenopus (Silurana) tropicalis	1.249938611 × 10⁹^
Drosophila melanogaster	1.11996522 × 10⁹^
Pan troglodytes	1.008323292 × 10⁹^
Arabidopsis thaliana	1.144226616 × 10⁹^
Canis lupus familiaris	951.238.343
Vitis vinifera	999.010.073
Gallus gallus	899.631.338
Glycin max	906.638.854
Triticum aestivum	898.689.329

Ufuldstændige identifikationer

Offentlige databaser, som kan søges ved hjælp af National Center for Biotechnology Information Basic Local Alignment Search Tool (NCBI BLAST), mangler peer-reviewed sekvenser af typestammer og sekvenser af ikke-type stammer. På den anden side, mens kommercielle databaser potentielt indeholder filtrerede sekvensdata af høj kvalitet, er der et begrænset antal referencesekvenser.

Et papir udgivet i Journal of Clinical Microbiology evaluerede 16S rRNA- gensekventeringsresultaterne analyseret med GenBank i forbindelse med andre frit tilgængelige, kvalitetskontrollerede, webbaserede offentlige databaser, såsom EzTaxon -e og BIBI-databaser. Resultaterne viste, at analyser udført ved hjælp af GenBank kombineret med EzTaxon -e (kappa = 0,79) var mere diskriminerende end at bruge GenBank (kappa = 0,66) eller andre databaser alene.

GenBank, der er en offentlig database, kan indeholde sekvenser, der er forkert tildelt en bestemt art, fordi den oprindelige identifikation af organismen var forkert. En nylig artikel, der blev offentliggjort i Genome (journal) , viste, at 75% af mitokondrielle Cytochrome c -oxidase -underenhed I -sekvenser blev forkert tildelt fisken Nemipterus mesoprion som følge af fortsat brug af sekvenser af oprindeligt fejlidentificerede personer. Forfatterne giver anbefalinger til, hvordan man undgår yderligere distribution af offentligt tilgængelige sekvenser med forkerte videnskabelige navne.

Se også

Ensembl
Human Protein Reference Database (HPRD)
Sekvensanalyse
UniProt
Liste over sekventerede eukaryote genomer
Liste over sekventerede arkaeal genomer
RefSeq - Reference Sequence Database
Geneious - indeholder et GenBank Submission Tool
Åbn videnskabelige data

Referencer

Denne artikel indeholder materiale fra det offentlige domæne fra National Center for Biotechnology Information document: "NCBI Handbook" .

eksterne links

GenBank
Eksempel på sekvensrekord for hæmoglobin beta
BankIt
Paillet -et enkeltstående softwareværktøj udviklet af NCBI til indsendelse og opdatering af poster til GenBank-sekvensdatabasen.
EMBOSS - gratis, open source software til molekylærbiologi
GenBank, RefSeq, TPA og UniProt: Hvad er der i et navn?

Languages

In other projects