Grid computing - Grid computing

Grid computing er brugen af bredt distribuerede computersystemer ressourcer til at nå et fælles mål. Et computergitter kan betragtes som et distribueret system med ikke-interaktive arbejdsbyrder, der involverer mange filer. Grid computing adskiller sig fra konventionelle højtydende computersystemer, såsom klynge- computing, idet netcomputere har hver node indstillet til at udføre en anden opgave/applikation. Gittercomputere har også en tendens til at være mere heterogene og geografisk spredte (altså ikke fysisk koblede) end klynge -computere. Selvom et enkelt gitter kan dedikeres til en bestemt applikation, bruges et gitter normalt til en række forskellige formål. Gitre er ofte konstrueret med generelle formål gitter middleware software biblioteker. Gitterstørrelser kan være ret store.

Gitter er en form for distribueret computing, hvorved en "super virtuel computer" er sammensat af mange netværksbaserede løst koblede computere, der fungerer sammen for at udføre store opgaver. For visse applikationer kan distribueret eller grid computing ses som en særlig type parallel computing, der er afhængig af komplette computere (med indbyggede CPU'er, lager, strømforsyninger, netværksgrænseflader osv.) Forbundet til et computernetværk (privat eller offentligt) af en konventionel netværksgrænseflade , såsom Ethernet . Dette er i modsætning til den traditionelle opfattelse af en supercomputer , som har mange processorer, der er forbundet af en lokal high-speed computer bus . Denne teknologi er blevet anvendt til beregningsmæssigt intensive videnskabelige, matematiske og akademiske problemer gennem frivillig computing , og den bruges i kommercielle virksomheder til så forskellige applikationer som lægemiddelopdagelse , økonomisk prognose , seismisk analyse og backoffice -databehandling til støtte for e- handel og webtjenester .

Grid computing kombinerer computere fra flere administrative domæner for at nå et fælles mål, for at løse en enkelt opgave og kan derefter forsvinde lige så hurtigt. Størrelsen på et net kan variere fra små - begrænset til f.eks. Et netværk af computerarbejdsstationer i et selskab - til store, offentlige samarbejder på tværs af mange virksomheder og netværk. "Forestillingen om et begrænset net kan også være kendt som et intra-nodesamarbejde, mens forestillingen om et større, bredere net dermed kan referere til et samarbejde mellem noder".

Koordinering af applikationer på tavler kan være en kompleks opgave, især når man koordinerer informationsstrømmen på tværs af distribuerede computerressourcer. Grid -workflow -systemer er blevet udviklet som en specialiseret form for et workflow -styringssystem, der er specielt designet til at sammensætte og udføre en række beregnings- eller datamanipulationstrin eller en arbejdsgang i netværkssammenhæng.

Sammenligning af net og konventionelle supercomputere

"Distribueret" eller "grid" computing generelt er en særlig type parallel computing, der er afhængig af komplette computere (med indbyggede CPU'er, lagring, strømforsyninger, netværksgrænseflader osv.) Tilsluttet et netværk (privat, offentligt eller internettet ) ved en konventionel netværksgrænseflade, der producerer råvarehardware, sammenlignet med den lavere effektivitet ved at designe og konstruere et lille antal brugerdefinerede supercomputere. Den primære ulempe ved ydeevne er, at de forskellige processorer og lokale lagerområder ikke har højhastighedsforbindelser. Dette arrangement er således velegnet til applikationer, hvor flere parallelle beregninger kan finde sted uafhængigt, uden at det er nødvendigt at kommunikere mellemliggende resultater mellem processorer. Den avancerede skalerbarhed af geografisk spredte net er generelt gunstig på grund af det lave behov for forbindelse mellem noder i forhold til det offentlige internets kapacitet.

Der er også nogle forskelle i programmering og MC. Det kan være dyrt og svært at skrive programmer, der kan køre i miljøet på en supercomputer, som kan have et brugerdefineret operativsystem eller kræve, at programmet løser samtidige problemer. Hvis et problem kan paralleliseres tilstrækkeligt, kan et "tyndt" lag af "grid" -infrastruktur tillade konventionelle, selvstændige programmer, der får en anden del af det samme problem, at køre på flere maskiner. Dette gør det muligt at skrive og fejlsøge på en enkelt konventionel maskine og eliminerer komplikationer på grund af flere forekomster af det samme program, der kører i den samme delte hukommelse og lagerplads på samme tid.

Designovervejelser og variationer

Et træk ved distribuerede gitre er, at de kan dannes ud fra computerressourcer, der tilhører en eller flere flere individer eller organisationer (kendt som flere administrative domæner ). Dette kan lette kommercielle transaktioner, som i utility computing , eller gøre det lettere at samle frivillige computernetværk .

En ulempe ved denne funktion er, at de computere, der rent faktisk udfører beregningerne, muligvis ikke er helt pålidelige. Systemets designere skal således indføre foranstaltninger til at forhindre funktionsfejl eller ondsindede deltagere i at producere falske, vildledende eller fejlagtige resultater og fra at bruge systemet som en angrebsvektor. Dette indebærer ofte, at der tilfældigt tilføjes arbejde til forskellige noder (formodentlig med forskellige ejere) og kontrolleres, at mindst to forskellige noder rapporterer det samme svar for en given arbejdsenhed. Uoverensstemmelser identificerer funktionsfejl og ondsindede noder. På grund af den manglende centrale kontrol over hardwaren er der imidlertid ingen måde at garantere, at noder ikke falder ud af netværket tilfældigt. Nogle noder (f.eks. Bærbare computere eller opkaldte internetkunder) er muligvis også tilgængelige til beregning, men ikke netværkskommunikation i uforudsigelige perioder. Disse variationer kan imødekommes ved at tildele store arbejdsenheder (hvilket reducerer behovet for kontinuerlig netværksforbindelse) og tildele arbejdsenheder igen, når en given knude ikke rapporterer sine resultater i forventet tid.

Et andet sæt af, hvad der kunne betegnes som sociale kompatibilitetsproblemer i de tidlige dage med netcomputering, relaterede til målene for netudviklere om at føre deres innovation ud over det oprindelige område med højtydende computing og på tværs af disciplinære grænser til nye felter, f.eks. energifysik.

Virkningerne af tillid og tilgængelighed på ydeevne og udviklingsvanskeligheder kan påvirke valget af, om de skal installeres på en dedikeret klynge, til inaktive maskiner internt i den udviklende organisation eller til et åbent eksternt netværk af frivillige eller entreprenører. I mange tilfælde skal de deltagende knuder stole på, at det centrale system ikke misbruger den adgang, der ydes, ved at forstyrre driften af ​​andre programmer, mangle lagrede oplysninger, overføre private data eller oprette nye sikkerhedshuller. Andre systemer anvender foranstaltninger til at reducere mængden af ​​tillid, "klient" noder skal placere i det centrale system, såsom placering af applikationer i virtuelle maskiner.

Offentlige systemer eller dem, der krydser administrative domæner (herunder forskellige afdelinger i den samme organisation) resulterer ofte i behovet for at køre på heterogene systemer ved hjælp af forskellige operativsystemer og hardwarearkitekturer . Med mange sprog er der en afvejning mellem investering i softwareudvikling og antallet af platforme, der kan understøttes (og dermed størrelsen på det resulterende netværk). Sprog på tværs af platforme kan reducere behovet for at gøre denne afvejning, dog potentielt på bekostning af høj ydeevne på en given knude (på grund af fortolkning i løbetid eller mangel på optimering til den særlige platform). Forskellige middleware -projekter har skabt generisk infrastruktur, der gør det muligt for forskelligartede videnskabelige og kommercielle projekter at udnytte et bestemt tilknyttet net eller med det formål at oprette nye net. BOINC er en fælles for forskellige akademiske projekter, der søger offentlige frivillige; flere er angivet i slutningen af ​​artiklen .

Faktisk kan middleware ses som et lag mellem hardwaren og softwaren. Oven på midtervaren skal en række tekniske områder overvejes, og disse er måske eller ikke uafhængige af mellemprogrammerne. Eksempelområder omfatter SLA -administration, tillid og sikkerhed, forvaltning af virtuel organisation , licensstyring, portaler og datahåndtering. Disse tekniske områder kan blive taget hånd om i en kommerciel løsning, selvom forkant af hvert område ofte findes inden for specifikke forskningsprojekter, der undersøger området.

Marksegmentering af netcomputermarkedet

For segmenteringen af ​​netcomputermarkedet skal to perspektiver overvejes: udbydersiden og brugersiden:

Udbydersiden

Det overordnede netmarked omfatter flere specifikke markeder. Disse er netværksmarkedet, markedet for netaktiverede applikationer, værktøjsmarkedet og software-as-a-service (SaaS) -markedet.

Grid middleware er et specifikt softwareprodukt, som muliggør deling af heterogene ressourcer og virtuelle organisationer. Det er installeret og integreret i den eller de involverede virksomheds eksisterende infrastrukturer og giver et særligt lag placeret blandt den heterogene infrastruktur og de specifikke brugerapplikationer. Største grid -mellemprogrammer er Globus Toolkit , gLite og UNICORE .

Utility computing omtales som levering af grid computing og applikationer som service enten som et open grid utility eller som en hosting løsning for en organisation eller en VO . Store aktører på værktøjsmarkedet er Sun Microsystems , IBM og HP .

Gitteraktiverede applikationer er specifikke softwareapplikationer, der kan udnytte netinfrastruktur. Dette er muliggjort ved brug af grid middleware, som påpeget ovenfor.

Software as a service (SaaS) er "software, der ejes, leveres og administreres eksternt af en eller flere udbydere." ( Gartner 2007) Derudover er SaaS -applikationer baseret på et enkelt sæt fælles kode og datadefinitioner. De forbruges i en en-til-mange-model, og SaaS bruger en Pay As You Go-model (PAYG) eller en abonnementsmodel, der er baseret på brug. Udbydere af SaaS ejer ikke nødvendigvis selve computerressourcerne, som er nødvendige for at køre deres SaaS. Derfor kan SaaS -udbydere trække på computermarkedet for nytteværktøjer. Utility -computermarkedet giver computerressourcer til SaaS -udbydere.

Brugersiden

For virksomheder på efterspørgsels- eller brugersiden af ​​netcomputermarkedet har de forskellige segmenter betydelige konsekvenser for deres it -implementeringsstrategi. IT -implementeringsstrategien samt den type it -investeringer, der foretages, er relevante aspekter for potentielle netbrugere og spiller en vigtig rolle for netadoption.

Rensning af CPU

CPU-scavenging , cyklus-scavenging eller delt computing skaber et "grid" fra de inaktive ressourcer i et netværk af deltagere (hvad enten det er globalt eller internt i en organisation). Typisk udnytter denne teknik de 'ekstra' instruktionscyklusser, der skyldes den intermitterende inaktivitet, der typisk opstår om natten, i frokostpauser eller endda i løbet af (forholdsvis små, selvom talrige) øjeblikke med inaktiv ventetid på den moderne stationære CPU's oplevelse i løbet af dagen ( når computeren venter på IO fra brugeren, netværket eller lageret ). I praksis donerer deltagende computere også en vis mængde diskplads, RAM og netværksbåndbredde ud over rå CPU -strøm.

Mange frivillige databehandlingsprojekter , f.eks. BOINC , bruger CPU -scavenging -modellen. Da noder sandsynligvis vil gå "offline" fra tid til anden, da deres ejere bruger deres ressourcer til deres primære formål, skal denne model være designet til at håndtere sådanne uforudsete situationer.

Oprettelse af et opportunistisk miljø er en anden implementering af CPU-scavenging, hvor et særligt arbejdsstyringsstyringssystem høster de inaktive stationære computere til computerintensive job, det betegnes også som Enterprise Desktop Grid (EDG). For eksempel kan HTCondor, open-source high-throughput computing software-rammer til grovkornet distribueret rationalisering af beregningsintensive opgaver, konfigureres til kun at bruge stationære maskiner, hvor tastaturet og musen er inaktive for effektivt at udnytte spildt CPU-strøm fra ellers inaktive desktop-arbejdsstationer . Ligesom andre fuldt udstyrede batchsystemer tilbyder HTCondor en jobkø-mekanisme, planlægningspolitik, prioritetsordning, ressourceovervågning og ressourceforvaltning. Det kan også bruges til at styre arbejdsbyrden på en dedikeret klynge computere, eller det kan problemfrit integrere både dedikerede ressourcer (rackmonterede klynger) og ikke-dedikerede stationære maskiner (cyklusopsamling) i ét computermiljø.

Historie

Begrebet grid computing opstod i begyndelsen af ​​1990'erne som en metafor for at gøre computerkraft lige så let tilgængelig som et elektrisk strømnet . Strømnetmetaforen for tilgængelig computing blev hurtigt kanonisk, da Ian Foster og Carl Kesselman udgav deres skelsættende værk, "The Grid: Blueprint for a new computing infrastructure" (1999). Dette blev efterfulgt af årtier af metaforen for utility computing (1961): computing som et offentligt værktøj, analogt med telefonsystemet.

CPU-scavenging og frivillig computing blev populært begyndt i 1997 af distribueret.net og senere i 1999 af SETI@home for at udnytte kraften i netværks-pc'er verden over for at løse CPU-intensive forskningsproblemer.

Gitterets ideer (herunder dem fra distribueret computing, objektorienteret programmering og webtjenester) blev bragt sammen af Ian Foster og Steve Tuecke fra University of Chicago og Carl Kesselman fra University of Southern California 's Information Sciences Institute . Trioen, der ledede bestræbelserne på at skabe Globus Toolkit , betragtes bredt som "netets fædre". Værktøjssættet inkorporerer ikke bare beregningsstyring, men også lagerstyring , sikkerhedstilførsel, dataflytning, overvågning og et værktøjskasse til udvikling af yderligere tjenester baseret på den samme infrastruktur, herunder aftaleforhandling, meddelelsesmekanismer, trigger -tjenester og informationsaggregering. Mens Globus Toolkit fortsat er de facto -standarden for opbygning af netløsninger, er der blevet bygget en række andre værktøjer, der besvarer nogle undersæt af tjenester, der er nødvendige for at oprette en virksomhed eller et globalt net.

I 2007 kom udtrykket cloud computing i popularitet, hvilket konceptuelt ligner den kanoniske Foster -definition af grid computing (med hensyn til computerressourcer, der forbruges, da elektricitet er fra elnettet ) og tidligere utility computing. Faktisk er grid computing ofte (men ikke altid) forbundet med levering af cloud computing -systemer som eksemplificeret af AppLogic -systemet fra 3tera .

Fremskridt

I november 2006 modtog Seidel Sidney Fernbach -prisen på Supercomputing Conference i Tampa, Florida . "For fremragende bidrag til udviklingen af ​​software til HPC og Grid computing for at muliggøre numerisk kollaborativ undersøgelse af komplekse fysiske problemer; især modellering af kollisioner med sorte huller." Denne pris, som er en af ​​de højeste hædersbevisninger inden for computing, blev uddelt for sine præstationer inden for numerisk relativitet.

Hurtigste virtuelle supercomputere

Også fra marts 2019 havde Bitcoin Network en målt computerkraft svarende til over 80.000 exaFLOPS (Floating-point Operations Per Second). Denne måling afspejler det antal FLOPS, der kræves for at svare til hash-output fra Bitcoin-netværket frem for dets kapacitet til generelle flydende aritmetiske operationer, da elementerne i Bitcoin-netværket (Bitcoin mining ASIC'er ) kun udfører den specifikke kryptografiske hashberegning, der kræves af den Bitcoin protokollen.

Projekter og applikationer

Grid computing tilbyder en måde at løse Grand Challenge -problemer på, såsom proteinfoldning , finansiel modellering , jordskælvsimulering og klima- / vejrmodellering , og var en integreret del i aktiveringen af ​​Large Hadron Collider på CERN. Gitter tilbyder en måde at bruge informationsteknologiressourcerne optimalt i en organisation. De giver også et middel til at tilbyde informationsteknologi som et værktøj til kommercielle og ikke -kommercielle kunder, idet disse kunder kun betaler for det, de bruger, som med elektricitet eller vand.

Fra oktober 2016 er over 4 millioner maskiner, der kører open source Berkeley Open Infrastructure for Network Computing (BOINC) platform, medlemmer af World Community Grid . Et af de projekter, der bruger BOINC, er SETI@home , der brugte mere end 400.000 computere til at opnå 0,828 TFLOPS fra oktober 2016. Fra oktober 2016 opnåede Folding@home , som ikke er en del af BOINC, mere end 101 x86-tilsvarende petaflops på over 110.000 maskiner.

Den Europæiske Union finansierede projekter gennem rammeprogrammer for Europa-Kommissionen . BEinGRID (Business Experiments in Grid) var et forskningsprojekt finansieret af Europa -Kommissionen som et integreret projekt under sponsorprogrammet for sjette rammeprogram (FP6). Projektet startede den 1. juni 2006 og kørte 42 måneder indtil november 2009. Projektet blev koordineret af Atos Origin . Ifølge projektets faktablad er deres mission "at etablere effektive ruter til at fremme vedtagelsen af ​​netcomputer i hele EU og stimulere forskning i innovative forretningsmodeller ved hjælp af Grid -teknologier". For at udtrække bedste praksis og fælles temaer fra de eksperimentelle implementeringer analyserer to grupper af konsulenter en række piloter, en teknisk, en virksomhed. Projektet er ikke kun vigtigt for dets lange varighed, men også for sit budget, der med 24,8 millioner euro er det største af et integreret FP6 -projekt. Heraf ydes 15,7 millioner af Europa -Kommissionen og resten af ​​dens 98 bidragydende partnervirksomheder. Siden projektets afslutning er BEinGRIDs resultater blevet taget op og videreført af IT-Tude.com .

Enabling Grids for E-sciencE-projektet, der er baseret i EU og omfattede lokaliteter i Asien og USA, var et opfølgningsprojekt til European DataGrid (EDG) og udviklede sig til den europæiske netinfrastruktur . Dette sammen med LHC Computing Grid (LCG) blev udviklet til at understøtte forsøg ved hjælp af CERN Large Hadron Collider . En liste over aktive websteder, der deltager i LCG, kan findes online, ligesom overvågning af EGEE -infrastrukturen i realtid. Den relevante software og dokumentation er også offentligt tilgængelig. Der er spekulationer om, at dedikerede fiberoptiske links, f.eks. Dem, der er installeret af CERN for at imødekomme LCGs datakrævende behov, en dag kan være tilgængelige for hjemmebrugere og derved levere internettjenester med hastigheder op til 10.000 gange hurtigere end en traditionel bredbåndsforbindelse. Den europæiske netinfrastruktur er også blevet brugt til andre forskningsaktiviteter og eksperimenter såsom simulering af onkologiske kliniske forsøg.

Den distributed.net Projektet blev startet i 1997. NASA Advanced Supercomputing facilitet (NAS) løb genetiske algoritmer ved hjælp af Condor cyklus ådselæder kører på omkring 350 Sun Microsystems og SGI arbejdsstationer.

I 2001 United Devices drives Forenede Devices Cancer Research Project baseret på dens Grid MP produkt, som cyklus-indfanger på frivillige pc'er tilsluttet internettet. Projektet kørte på omkring 3,1 millioner maskiner, inden det lukkede i 2007.

Definitioner

I dag er der mange definitioner af grid computing :

  • I sin artikel “Hvad er gitteret? En trepunkts tjekliste ”, lister Ian Foster disse primære attributter:
  • Plaszczak/Wellner definerer netteknologi som "den teknologi, der muliggør ressourcevirtualisering, on-demand-levering og service (ressource) deling mellem organisationer."
  • IBM definerer grid computing som “muligheden ved at bruge et sæt åbne standarder og protokoller til at få adgang til applikationer og data, processorkraft, lagerkapacitet og en lang række andre computerressourcer over internettet. Et gitter er en type parallelt og distribueret system, der muliggør deling, valg og sammenlægning af ressourcer fordelt på 'flere' administrative domæner baseret på deres (ressourcer) tilgængelighed, kapacitet, ydeevne, omkostninger og brugernes kvalitetskrav ”.
  • Et tidligere eksempel på begrebet computing som nytteværdi var i 1965 af MIT's Fernando Corbató. Corbató og de andre designere af Multics -operativsystemet forestillede sig en computerfacilitet, der fungerer "som et el- eller vandselskab".
  • Buyya/Venugopal definerer grid som "en type parallelt og distribueret system, der muliggør deling, valg og aggregering af geografisk distribuerede autonome ressourcer dynamisk ved runtime afhængigt af deres tilgængelighed, kapacitet, ydeevne, omkostninger og brugernes kvalitetskvalitet krav ".
  • CERN , en af ​​de største brugere af netteknologi, taler om The Grid : "en tjeneste til deling af computerkraft og datalagringskapacitet over internettet ."

Se også

Relaterede begreber

Alliancer og organisationer

Produktionsgitre

Internationale projekter

Navn Område Start Ende
European Grid Infrastructure (EGI) Europa Maj 2010 December 2014
Open Middleware Infrastructure Institute Europe (OMII-Europe) Europa Maj 2006 Maj 2008
Aktivering af net til E-sciencE (EGEE, EGEE II og EGEE III) Europa Marts 2004 April 2010
Gitteraktiveret fjerninstrumentering med distribueret kontrol og beregning (GridCC) Europa September 2005 September 2008
European Middleware Initiative (EMI) Europa Maj 2010 aktiv
KnowARC Europa Juni 2006 November 2009
Nordic Data Grid Facility Skandinavien og Finland Juni 2006 December 2012
World Community Grid Global November 2004 aktiv
XtreemOS Europa Juni 2006 (Maj 2010) udvid. til september 2010
OurGrid Brasilien December 2004 aktiv

Nationale projekter

Standarder og API'er

Overvågning af rammer

Referencer

Bibliografi