Strengt standardiseret middelforskel - Strictly standardized mean difference

I statistikken er den strengt standardiserede middelforskel (SSMD) et mål for effektstørrelse . Det er middelværdien divideret med standardafvigelsen for en forskel mellem to tilfældige værdier hver fra en af ​​to grupper. Det blev oprindeligt foreslået til kvalitetskontrol og hitudvælgelse i high-throughput screening (HTS) og er blevet en statistisk parameter, der måler effektstørrelser til sammenligning af to grupper med tilfældige værdier.

Baggrund

Ved screening med høj gennemløb (HTS) er kvalitetskontrol (QC) kritisk. Et vigtigt QC karakteristisk i et HTS -assay er, hvor meget de positive kontroller, test forbindelser , og negative kontroller adskiller sig fra hinanden. Denne QC -karakteristik kan evalueres ved at sammenligne to brøndtyper i HTS -assays . Signal-til-støj-forhold (S/N), signal-til-baggrund-forhold (S/B) og Z-faktoren er blevet vedtaget for at evaluere kvaliteten af ​​HTS- assays gennem sammenligning af to undersøgte typer brønde. S/B tager imidlertid ikke hensyn til oplysninger om variabilitet; og S/N kan kun fange variationen i en gruppe og kan derfor ikke vurdere analysens kvalitet, når de to grupper har forskellige variationer. Zhang JH et al. foreslog Z-faktoren . Fordelen ved Z-faktoren i forhold til S/N og S/B er, at den tager højde for variationerne i begge sammenlignede grupper. Som et resultat heraf er Z-faktoren i vid udstrækning blevet brugt som en QC-metrik i HTS-assays. Det absolutte tegn i Z-faktoren gør det ubelejligt at udlede sin statistiske slutning matematisk.

For at udlede en bedre fortolkelig parameter til måling af differentieringen mellem to grupper foreslog Zhang XHD SSMD at evaluere differentieringen mellem en positiv kontrol og en negativ kontrol i HTS -assays. SSMD har et sandsynlighedsgrundlag på grund af dets stærke forbindelse med d + -sandsynlighed (dvs. sandsynligheden for, at forskellen mellem to grupper er positiv). Til en vis grad svarer d + -sandsynligheden til det veletablerede sandsynlighedsindeks P ( X  >  Y ), som er blevet undersøgt og anvendt på mange områder. Understøttet på sin probabilistiske baggrund har SSMD været brugt til både kvalitetskontrol og hit udvalg i high-throughput screening.

Koncept

Statistisk parameter

Som en statistisk parameter er SSMD (betegnet som ) defineret som forholdet mellem middelværdi og standardafvigelse af forskellen på henholdsvis to tilfældige værdier fra to grupper. Antag, at en gruppe med tilfældige værdier har middelværdi og varians, og en anden gruppe har middelværdi og varians . Den kovarians mellem de to grupper er Derefter SSMD til sammenligning af disse to grupper er defineret som

Hvis de to grupper er uafhængige,

Hvis de to uafhængige grupper har lige store forskelle ,

I den situation, hvor de to grupper er korreleret, er en almindeligt anvendt strategi for at undgå beregning af først at opnå parrede observationer fra de to grupper og derefter at estimere SSMD baseret på de parrede observationer. Baseret på en parret forskel med befolkningen middelværdi og , SSMD er

Statistisk estimering

I den situation, hvor de to grupper er uafhængige, udledte Zhang XHD estimatet af maksimal sandsynlighed (MLE) og moment-metode (MM) for SSMD. Antag, at grupperne 1 og 2 har prøven middelværdi , og prøven afvigelser . MM -estimatet for SSMD er derefter

Når de to grupper har normale fordelinger med samme varians , er det ensartede minimale varians upartiske estimat (UMVUE) af SSMD,

hvor er stikprøvestørrelserne i de to grupper og .

I den situation, hvor de to grupper er korrelerede, baseret på en parret forskel med en prøvestørrelse , prøve middelværdi og prøve varians , MM estimat af SSMD er

UMVUE -estimatet for SSMD er

SSMD ligner t-statistik og Cohens d, men de er forskellige med hinanden som illustreret i.

Anvendelse i screeningsassays med høj kapacitet

SSMD er forholdet mellem middelværdi og standardafvigelse af forskellen mellem to grupper. Når dataene er forbehandlet ved hjælp af log-transformation, som vi normalt gør i HTS-eksperimenter, er SSMD middelværdien af logfold- ændring divideret med standardafvigelsen for logfold- ændring i forhold til en negativ reference. Med andre ord er SSMD den gennemsnitlige foldændring (på logskalaen) straffet af variationen i foldændring (på logskalaen). For kvalitetskontrol er et indeks for kvaliteten af ​​et HTS -assay størrelsen på forskellen mellem en positiv kontrol og en negativ reference i en assayplade . Til hitvalg er størrelsen af ​​virkningerne af en forbindelse (dvs. et lille molekyle eller et siRNA ) repræsenteret af størrelsesforskjellen mellem forbindelsen og en negativ reference. SSMD måler direkte størrelsen af ​​forskellen mellem to grupper. Derfor kan SSMD bruges til både kvalitetskontrol og hitvalg i HTS -eksperimenter.

Kvalitetskontrol

Antallet af brønde til de positive og negative kontroller i en plade i 384-brønds eller 1536-brønds platform er normalt designet til at være rimeligt stort. Antag, at de positive og negative kontroller i en plade har prøve middelværdi , prøve afvigelser , og prøvestørrelser . Normalt holder antagelsen om, at kontrollerne har samme variation i en plade. I et sådant tilfælde anslås SSMD til vurdering af kvalitet i pladen til

hvor . Når antagelsen om lige varians ikke holder, estimeres SSMD'en til vurdering af kvaliteten i denne plade som

Hvis der klart er afvigelser i kontrollerne, kan SSMD anslås til

hvor er medianerne og median absolutte afvigelser i henholdsvis de positive og negative kontroller.

Det Z-faktorbaserede QC-kriterium bruges populært i HTS-assays. Det er imidlertid blevet påvist, at dette QC -kriterium er mest egnet til et assay med meget eller ekstremt stærke positive kontroller. I et RNAi HTS -assay er en stærk eller moderat positiv kontrol sædvanligvis mere lærerig end en meget eller ekstremt stærk positiv kontrol, fordi effektiviteten af ​​denne kontrol mere ligner hits af interesse. Derudover har de positive kontroller i de to HTS -eksperimenter teoretisk set forskellige størrelser af effekter. Derfor bør QC -tærsklerne for den moderate kontrol være forskellige fra dem for den stærke kontrol i disse to forsøg. Desuden er det almindeligt, at to eller flere positive kontroller vedtages i et enkelt forsøg. Anvendelse af de samme Z -faktorbaserede QC -kriterier på begge kontroller fører til inkonsekvente resultater som illustreret i litteraturerne.

De SSMD-baserede QC-kriterier, der er anført i den følgende tabel, tager højde for effektstørrelsen af ​​en positiv kontrol i et HTS-assay, hvor den positive kontrol (såsom en hæmningskontrol) teoretisk har værdier mindre end den negative reference.

Kvalitet Type A: Moderat kontrol B: Stærk kontrol C: Meget stærk kontrol D: Ekstremt stærk kontrol
Fremragende
godt
Underlegen
Fattige

I anvendelsen, hvis effektstørrelsen af ​​en positiv kontrol er kendt biologisk, skal du anvende det tilsvarende kriterium baseret på denne tabel. Ellers bør følgende strategi hjælpe med at bestemme hvilket QC -kriterium, der skal anvendes: (i) i mange HTS -assay med små molekyler med én positiv kontrol bør normalt kriterium D (og lejlighedsvis kriterium C) vedtages, fordi denne kontrol normalt har meget eller ekstremt meget stærke effekter; (ii) for RNAi HTS -assays, hvor cellelevedygtighed er det målte respons, bør kriterium D vedtages for kontrollerne uden celler (nemlig brøndene uden celler tilføjet) eller baggrundskontroller; (iii) i et viralt assay , hvor mængden af ​​vira i værtsceller er interessen, bruges kriterium C normalt, og kriterium D bruges lejlighedsvis til den positive kontrol bestående af siRNA fra viruset.

Lignende SSMD-baserede QC-kriterier kan konstrueres til et HTS-assay, hvor den positive kontrol (f.eks. En aktiveringskontrol) teoretisk har værdier større end den negative reference. Flere detaljer om, hvordan du anvender SSMD-baserede QC-kriterier i HTS-eksperimenter, findes i en bog.

Hit markering

I et HTS -assay er et primært mål at vælge forbindelser med en ønsket størrelse af inhibering eller aktiveringseffekt. Størrelsen af forbindelsen virkning er repræsenteret ved størrelsen af forskellen mellem en test forbindelse og en negativ referencegruppe uden specifikke inhibering / aktivering effekter. En forbindelse med en ønsket størrelse af effekter i en HTS -skærm kaldes et hit. Processen med at vælge hits kaldes hit selection. Der er to hovedstrategier til valg af hits med store effekter. Den ene er at bruge bestemte metriske (r) til rang og / eller klassificere forbindelserne ved deres virkninger og derefter for at vælge det største antal potente forbindelser , der er praktisk for validering assays . Den anden strategi er at teste, om en forbindelse har effekter, der er stærke nok til at nå et forudindstillet niveau. I denne strategi skal falsk-negative satser (FNR'er) og/eller falsk-positive satser (FPR'er) kontrolleres.

SSMD kan ikke kun rangere størrelsen af ​​effekter, men også klassificere effekter som vist i følgende tabel baseret på SSMD 's populationsværdi ( ).

Effekt undertype Tærskler for negativ SSMD Tærskler for positiv SSMD
Ekstremt stærk
Meget stærk
Stærk
Temmelig stærk
Moderat
Temmelig moderat
Temmelig svag
Svag
Meget svag
Ekstremt svag
Ingen effekt

Estimeringen af ​​SSMD for skærme uden replikater adskiller sig fra det for skærme med replikater.

I en primær screening uden replikater, antager den målte værdi (normalt på log-skala) i en brønd til en testet forbindelse er , og den negative reference i denne plade har prøvestørrelse , prøve middelværdi , median , standardafvigelse og median absolutte afvigelse , den SSMD for denne forbindelse anslås til

hvor . Når der er outliers i et assay, som normalt er almindeligt i HTS -forsøg, kan en robust version af SSMD opnås ved hjælp af

I en bekræftende eller primær screening med replikater, for den i'te test forbindelse med gentagelser, beregner vi den parrede forskel mellem den målte værdi (normalt på logaritmisk skala) af forbindelsen og den mediane værdi af en negativ kontrol i en plade, opnå derefter middelværdien og variansen af den parrede forskel på tværs af replikater. SSMD for denne forbindelse er anslået til

I mange tilfælde kan forskere bruge både SSMD og gennemsnitlig foldændring til hitvalg i HTS -eksperimenter. Dual-lommelygte plot kan vise både gennemsnitlige gange ændring og SSMD for alle test forbindelser i et assay og hjælp til at integrere dem begge for at vælge hits i HTS eksperimenter. Brugen af ​​SSMD til hitvalg i HTS-eksperimenter er illustreret trin for trin

Se også

Yderligere læsning

Referencer