Bli kjent med type I- og type II-feil 2

UX-guiden til metodegalaksen. Kapittel 1

Type I- og II-feil er to feilslutninger du burde bli kjent med.
Illustrasjon Dag Helge Scott.
Vi jobber med hypoteser hver eneste dag. Hver gang du designer en knapp, skriver en tekst eller velger en farge, så har du en hypotese om hvordan brukerne dine oppfører seg på nettsiden din, hvem de er og hva slags behov de har.

Du kan teste dine designvalg på flere måter. Brukertest, statistikk, intervjuer, kortsortering, spørreundersøkelser – mulighetene er mange.

Jeg vil se på brukertest i denne bloggposten.

Når du tester dine designhypoteser er det to klassiske feilslutninger du bør være oppmerksom på. Type I og type II heter de, og de ER noen skumle typer.

Denne teksten beskriver de to klassiske feilslutningene og hvordan du unngår dem.

Statistikerne Pearson og Neyman omtalte disse feilslutningene under disse navnene allerede i 1933.

For oss webfolk er det lurt å ta avgjørelser basert på fakta. Metodene vi bruker for å finne frem til fakta er som regel utsatt for en kraftig kost/nytte-vurdering. Det er rett og slett smart å gjøre forskningen vår “god nok” – og ikke nødvendigvis perfekt. Da er det viktig å ha oversikt over mulige feilslutninger.

Type I-feil: Lumsk og lekker

Du har designet en meny på en nettside. Siden du er veldig flink, kjører du en liten brukertest. I testen ser du at alle finner frem. Du konkluderer med at menyen din virker, puster lettet ut, klapper deg selv på skulderen og fortsetter arbeidet. Det som egentlig har skjedd, er at akkurat de testpersonene du testet med fikk det til. Men i virkeligheten ville 95 % av brukerne faktisk ikke fått det til.

Dette er en såkalt type I-feil.

La meg forklare, og her kommer det en litt teknisk del. Et grunnprinsipp i forskning er at man søker å avkrefte hypoteser. Ikke bekrefte dem. Det vil si at man alltid skal anta at enhver betingelse, f.eks. en ny meny, ikke vil utgjøre noen forskjell. Dette kaller vi nullhypotesen, altså null forskjell.

En Type I-feil er når vi forkaster nullhypotesen selv om den er sann. Type I-feil kalles også ofte for en falsk positiv.

Et annet eksempel kan være å sende noen i fengsel for noe de ikke har gjort.

Med andre ord, du tror du har rett, men tar feil.

Type I-feil er den skumleste typen. Du VIL at den fine menyen skal virke. Kanskje tid og penger i prosjektet holder på å ta slutt? Type I-feil er rett og slett farlig fordi den er så besnærende. Nobelprisvinnere i kjemi og webfolk har begge til felles at de gjerne VIL skape forskjell.

Type II-feil:Kritisk grinebiter

Du har fått i oppdrag fra en kunde å teste en meny på en nettside. I denne brukertesten finner ikke testpersonene frem. Du konkluderer med at menyen ikke fungerer og anbefaler at å lage en ny. Det som egentlig har skjedd, er at testpersonene du hadde innom tilfeldigvis ikke fikk dette til. Sannheten er at 95 % faktisk hadde klart å bestille med den menyen du hadde laget, men akkurat de testpersonene du fikk inn tilhører de 5 % som ikke får det til.

Dette er en type II-feil. En type-II feil er når vi beholder nullhypotesen (se over) selv om den er ikke er sann, vi får en falsk negativ.

Et annet eksempel kan være å frikjenne noen i retten selv om de er skyldige.

Med andre ord du tror du tar feil, men har rett.

Denne er ofte litt mindre skummel. Først og fremst fordi du vanligvis ikke antar, eller har lyst til å tro, at du har laget noe som ikke virker. Den er rett og slett ikke så attraktiv.

Det finnes unntak. Som i eksempelet over når oppdraget ditt er å finne feil, enten for kolleger eller kunder. Da kan du være mer tilbøyelig til å gjøre en type II-feil.

Unngå type I- og type-II-feil

Du vil aldri slippe unna disse feilslutningene. Det er likevel flere enkle, og kanskje mindre enkle, grep kan du kan benytte deg av for å minske sjansene for å gjøre Type I- og II-feil i forbindelse med en brukertest.

1.Triangulering av data

Sjekk flere datakilder. Dette er et enkelt råd å gi, men krever mer av deg.

Har du oppdaget ett problem på nettsiden din i en brukertest? Sjekk statistikken på siden din. Stemmer mønsteret du ser i testen overens med data derfra? Se etter hvor folk faller fra, hvor klikker de og hvor går de til? Har du noen spørreundersøkelsen liggende? Kanskje noen kundetilfredshetsmålinger? Intervjuer med brukere? Snakk med de som sitter på kundesenteret. Hva får de flest henvendelser om?

Se på ALT du har. Ikke bruk alt.

Det er lett å gå seg vill i en haug med data. Oversikt er viktigere enn detaljer. Se etter bruksmønstre. Tegn opp en minikundereise og sett inn funn fra de ulike kildene dine.

2. Antall testpersoner

Med 8 testpersoner får du avdekket 80 % av problemene folk kan ha og med 5 får du problemer som påvirker minst ⅓ av brukerne dine. Skal du ha statistisk signifikante data må du over 20 (Nielsen, 2012).

Det kan være nyttig å legge merke til at det alltid er snakk om å avdekke feil når man snakker om antall testpersoner. Ikke noe om hvor viktige problemene er eller hvor mange som har de. Med få testpersoner er det alltid en mulighet for at du rent tilfeldig får folk fra den delen av populasjonen (brukerne av nettsiden din) som har et svært sjeldent problem som ikke er representativt for populasjonen i sin helhet.

En enkel måte å sikre seg på er å øke antall testpersoner. Det er dessverre ofte ikke kostnadseffektivt fordi det viktigste er å avdekke feil, ikke si noe om hvor ofte et problem oppstår blant brukerne dine (prevalens).

Det som da er kritisk er å nøye følge med på hva testpersonene gjør når et problem oppstår. Hva er det kritiske punktet? Kan du avdekke deres mentale modell av hvordan nettstedet virker? Hvorfor tar de feil eller gjør det rett? Skal du gjøre en kvalitativ brukertest må du behandle resultatene deretter.

Let etter mening i funnene dine – ikke kvasi-kvantiative funn i form av prosent og antall.

3. Riktig rekruttering

Antall testpersoner er også knyttet til en annen feilkilde. Har du rekruttert riktig? Du kan ha en skjevhet i utvalget ditt. Å være nøye med rekrutteringskriteriene er en enkel måte å motvirke feilslutninger på. Det å teste egen nettside på kolleger er en klassisk feilkilde. Selv om kollegene ikke nødvendigvis vet noe om web, har de gjerne bedre kjennskap til bedriften, begreper, intern organisering, ordbruk, fargekoder enn gjennomsnittsbrukeren. Fordi kollegene dine sitter med mentale modeller som ligner dine, er det lett å gjøre en type I-feil. Motsatt kan det å teste på brukere som ikke kan nok (i forhold til hva de faktiske brukerne kan) lett føre til type I-feil. Dette gjelder spesielt ekspertbrukere og/eller bransjenettsteder.

4. Utforming av testoppgaver

Stiller du ledene spørsmål? I typiske ledende spørsmål bruker du ord som går igjen på nettsiden, eller du utformer oppgavene direkte ut fra ditt formål med testen ( “finner folk dagligbank i menyen”) i stedet for folks behov (“jeg vil betale en regning”). Ledende spørsmål gjør det også lett å gjøre en type I-feil.

Konklusjon

Vart du skræmt, no? Type I- og type II-feil er noen skumle typer. Gjennomfører du brukertester er det viktig å skille mellom de som gir deg kvantitative data (over 20 testpersoner) og de som gir deg kvalitative data (under 20). Når du tar beslutninger basert på kvalitative data må du lete etter meningen bak funnene dine, ikke tallene. Se om andre datakilder støtter opp under funnene dine. Vær kritiskt til, og rekrutter riktige testpersoner. Lag gode testoppgaver som reflekterer brukernes faktiske behov.

Leseliste metode

Internettet
Wikipedia – Type I and II errors
Psychology Wiki – Statistics

I bokhyllen min
Pedhazur, E. J., & Schmelkin, L. P. (2013). Measurement, design, and analysis: An integrated approach. Psychology Press.
Liebert, R. M., & Liebert, L. L. (1995). Science and behavior: An introduction to methods of psychological research.