A / B prófun er oft reiknuð sem vísindaleg leið til að staðfesta hönnun ákvarðanir. Stundum nefndur flassprófun, A / B prófun er einfalt ferli sem á yfirborðinu virðist lofa ákveðnar niðurstöður:

Búðu til tvær tilbrigði á hönnunarþátt, skipta þeim af handahófi á síðuna þína og skráðu hvernig notendur þínir bregðast við, bera saman niðurstöðurnar, framkvæma hvaða breyting sem gerist best. Það er skynsamlegt.

Klassískt dæmi er: rauður hnappur vs grænt hnappur, sem verður tappað meira? Hins vegar er meira áhugavert spurningin: grænt hnappur vs. sama græna hnappinn, sem verður merktur meira?

Hvað gerist þegar við A / B prófa tvo eins afbrigði? A / A próf, ef þú vilt.

Grænn hnappur vs græna hnappinn

Til að prófa gildi hvers A / B próf, þurfum við próf sem hefur "rétt" svar. Við þurfum rétta svarið vegna þess að við viljum vita, allt sem er jafn, hversu líklegt er að A / B prófið muni leiða til afleiðingarinnar og þar af leiðandi þurfum við að vita hvaða niðurstaða er að búast við.

Ef við A / B prófa tvo sömu hnappa, ætti niðurstaðan að vera dauður hiti

Svo, gerum ráð fyrir að við prófum græna hnappinn á móti sömu grænu hnappinum og að hnappurinn er svo tæla að 100% notenda tappi á hann.

(Hlutfallið skiptir ekki máli, það gæti verið 14.872%. Það sem skiptir máli er að vegna þess að hnappar eru eins, þá ætti krónan einnig að vera eins.)

Ef við A / B prófa tvo sömu hnappa, ætti niðurstaðan vera dauður hiti.

Myntsprófprófið

Kasta peningi. Hvaða hlið mun koma upp, höfuð eða hala? Við vitum að það eru tvær hliðar, bæði eins og það er 50-50 tækifæri.

Ef við kasta peningnum okkar tvisvar, vitum við að það eru þrjár mögulegar niðurstöður: 2 höfuð, 2 hala eða 1 höfuð og 1 hala. Og svo framvegis…

Segjum að mynthlaupið er A / A prófið okkar; Líkurnar á að höfuðhliðin koma upp eru eins og líkurnar á hallahliðinni koma upp, eins og líkurnar á því að annaðhvort af grænu hnappunum okkar sé tappað jafnt.

Svo skulum skrifa fljótur handrit í vafranum (vegna þess að flestir A / B prófanir gerast í vafranum) til að líkja eftir því að notendur taki einum hnappi eða öðrum, allt eftir því hver er kynntur.

Mundu að við erum að prófa tvo eins afbrigði af hnappi og hvernig við vitum að þau eru eins er að við erum að meðhöndla líkurnar á því að þær séu taldar eins sams konar. Allt sem við erum að leita að er samkvæm (og því rétt) niðurstaða.

Í fyrsta lagi þurfum við HTML töflu til að skrá niðurstöðurnar okkar, töflunni mun líta svona út:

#HeadsTailsDifferenceMargin of Error

Í fyrsta dálknum munum við taka upp fjölda prófsins (allar góðar A / B prófanir eru endurteknar til að staðfesta niðurstöður, svo við munum endurtaka prófið nokkrum sinnum). Næst munum við taka upp fjölda niðurstöðum höfuðsins , þá er fjöldi hala niðurstaðan. Dálkinn eftir það mun vera munurinn á tveimur niðurstöðum (sem ætti að vera núll). Þá munum við taka upp bilunarmyndina (sem aftur ætti að vera 0%). Undir borðinu munum við prenta út samantekt, meðaltal allra niðurstaðna og versta afleiðingin.

Hér er handritið:

var bestOf = 12, // the number of times we want to run the testtestRepeat = 12, // the number of times we’d like to repeat the testtestCount = 0, // the number of the current testtestInterval = setInterval(performCoinToss, 100), // call the coin toss functiontotalDifference = 0, // used for calculating the average differenceworstDifference = 0; // the worst casefunction performCoinToss(){testCount++; // increment the current testvar testCounter = bestOf, // the current iteration of the testheadsCounter = 0, // the total number of times the script came up with "heads"tailsCounter = 0; // the total number of times the script came up with "tails"while(testCounter--) // loop 'testCounter' times{Math.round(Math.random()) ? headsCounter++ : tailsCounter++; // finds 0 or 1 randomly, if 1 increments headsCounter, otherwise increments tailsCounter}var difference = Math.abs(headsCounter - tailsCounter), // the difference between the twoerror = (difference / bestOf) * 100; // the error percentagedocument.getElementById("results").innerHTML += "" + testCount + "" + headsCounter + "" + tailsCounter + "" + difference + "" + error + "%"; // add result to tabletotalDifference += difference; // increments the difference counterworstDifference = difference > worstDifference ? difference : worstDifference; // updates worstDifferenceif(--testRepeat == 0){var averageDifference = totalDifference / testCount, // finds average differenceaverageError = (averageDifference / bestOf) * 100; // finds the average error margindocument.getElementById("summary").innerHTML = "

Average difference: " + averageDifference + "

Average margin of error: " + averageError + "%

Worst Case: " + worstDifference + "

"; // write summary to pageclearInterval(testInterval); // if the test has been repeated enough times, clear the interval}}

Kóðinn er athugasemd, svo hér eru bara hápunktur:

Í fyrsta lagi setjum við nokkrar breytur þar á meðal fjölda sinnum sem við viljum að henda myntinu (bestOf) og fjölda sinnum sem við viljum endurtaka prófið (testRepeat).

Spoiler viðvörun: Við erum að fara að komast inn í nokkuð háar lykkjur, svo að forðast að brjóta neinn vafra erum við að keyra prófið á bili á hverjum 100ms.

Inni í performCoinToss virkninni lyftir við nauðsynlegan fjölda skipta, hver endurtekning á lykkjunni notum við handahófi JavaScript til að búa til annað hvort 1 eða 0, sem síðan hækkar annaðhvort höfuðcounter eða tailsCounter .

Næst skrifa við niðurstöðuna úr prófinu í töflunni.

Að lokum, ef prófið hefur verið endurtekið, hversu oft við viljum, finnum við meðaltal og versta fallið, skrifið þau í samantektina og hreinsið bilið.

Hér er niðurstaðan . Eins og þú getur séð að meðaltali munurinn er, þá mun það vera öðruvísi en þú skrifar þetta meðaltal munurinn er 2,8333333333333335, að meðaltali villa er því 23,611111111111114%.

Yfir 23% villa vekur ekki áhyggjur, sérstaklega þar sem við vitum að munurinn ætti að vera 0%. Það sem er verra er að versta fallið mitt er 8, það er 10-2 í þágu höfuðsins.

Nota nokkur raunhæf númer

Allt í lagi, þannig að prófið var ekki sanngjarnt. A raunveruleg A / B próf myndi aldrei halda því fram að finna endanlega niðurstöðu frá aðeins 12 notendum.

A / B próf notar eitthvað sem kallast "tölfræðilega þýðingu" sem þýðir að prófið þarf að keyra nóg til að ná fram árangri.

Svo, við skulum tvöfalda breytu besta og sjá hversu langt við þurfum að fara til að ná fram bilunarmörkum sem eru innan við 1% - sem jafngildir 99% sjálfstrausti.

Í bestum af 24 (þegar ritun er skrifuð) er meðaltal munurinn 3,16666666666666665, sem er 13,194444444444445%. Skref í rétta átt! Prófaðu það sjálfur (niðurstöðurnar þínar verða breytilegar).

Við skulum tvöfalda það aftur. Í þetta sinn er meðaltal munurinn minn 6,6666666666666667, með framlegð fyrir villu 13,88888888888889%. Verra er að versta er 16, það er villa 33.3333333333333333%! Þú getur prófaðu þá fyrir sjálfan þig líka.

Reyndar, engar verðlaun fyrir að giska á að við getum haldið áfram: best af 96 , bestur af 192 , best af 384 , best af 768 , bestur af 1536 , bestur af 3072 , best af 6144 , bestur af 12288 , bestur af 24576 , bestur af 49152 , bestur af 98304 .

Að lokum, í besta falli 98304, lækkar versta fallið undir 1%. Með öðrum orðum getum við verið 99% fullviss um að prófið sé rétt.

Svo í A / A próf, niðurstaðan sem við vissum fyrirfram, tók það sýnishorn stærð 98.304 til að ná viðunandi mistökum.

$ 3.000.000.000 hnappinn

Í hvert sinn sem A / B prófanir eru ræddar, minnir einhver á vin vinar, sem A / B prófaði einum hnappi á vefsvæðinu sínu og gerði strax ósannarlega hagnað (raunverulegt dollaraverð hnappsins eykst í hvert skipti sem ég heyri saga).

Í þessum sögum eru hnöpparnir venjulega prófaðir fyrir ör-afrita, "Sæktu ebook minn" vs "Sækja ókeypis bókina mína". Það ætti ekki að koma á óvart að hið síðarnefnda vinnur. Það er framför sem góður auglýsingatextahöfundur myndi gera. A viðeigandi A / B próf væri "Sækja bók mína" vs "Hlaða niður bókinni" (peningarnir mínir eru á síðari).

Ef þú finnur sjálfan þig með afleiðingum sem eru þungt vegin gagnvart einum af valkostunum, þá bendir það til þess að eitthvað sé mjög athugavert við eitt af afbrigði þínu. Oftast verður gott niðurstaðan að bæta við minna en 5%, sem gefur til kynna vandamál ef þú ert að prófa með um það bil 1000 notendur (viðmiðunarmörkin eru um 5%).

Því meira sem gagnlegt er að prófa er, því strangari er sigurvegur fyrir einn afbrigði eða hinn. Hins vegar er strangari á sigri, því meiri sem sýnishornið þarf til að gefa þér viðunandi lítið bilargildi.

Lies, fordæmdur lygar og A / B prófun

Mark Twain, hugsanlega vitna Disraeli, notaði einu sinni setninguna: lygar, fordæmdar lygar og tölfræði. Með því að hann þýddi að eitthvað sýni af tölfræði, er ekki endilega satt. Tölfræði er hægt að nota til að sanna hvað sem þú vilt.

A / B prófun mun veita þér afleiðing en það er afleiðing sem mun segja meira um þig og um það sem þú bjóst við að finna en um viðskiptavini þína

The hættulegur hlutur óður í A / B prófun er að það getur reynst eitthvað sem þú vilt það að; Það getur valdið falskum jákvæðum og það gerir okkur kleift að greina mynstur sem ekki er rétt studd.

Ennfremur má A / B próf gefa til kynna að græna hnappurinn sé betri en rauður hnappur en hvað um bláa hnappinn? Jafnvel árangursríkur A / B prófun leyfir okkur aðeins að staðfesta hönnunarmörk okkar í tengslum við prófið sjálft.

Fyrir A / B próf til að virka eins og ætlað er, þurfum við tvær andstæðar aðstæður til að vera satt:

  1. Það ætti að vera lágmarks breyting á milli valkosta, þannig að prófið er ekki vegið af óskum okkar;
  2. Sýnishornið ætti að vera nægjanlegt að bilskekkjan sé minni en styrk niðurstaðan.

Því miður eru flestar síður ekki sýnisstærðir nógu stórir til að ná nægilega litlum skekkjumörkum. Og vegna þess að við getum ekki aukið sýnishornið okkar (við myndum ef við gætum), er eini kosturinn okkar að auka breytinguna á valkostunum til þess að framleiða skýrar niðurstöður og skekkja prófið eftir óskum okkar.

A / B prófun mun veita þér afleiðingu, en það er afleiðing sem mun segja meira um þig og um það sem þú bjóst við að finna en um viðskiptavini þína. Þegar það kemur að því að taka ákvarðanir um hönnun á einhverjum öðrum vefsvæðum en þeim sem eru með mjög mikið magn af umferð, gætum við eins vel farið í mynt, sem A / B próf.

Valin mynd, mynt kasta mynd um Shutterstock.