8 chyb které děláte při A/B testování
Potřebujete vědět, jestli nový design zvýší prodeje? Vyplatí se Vám newsletter? Jak velká ikona přiměje lidi kliknou? Odpověď získáte díky A/B testování – sto let starého nástroje, který je i přesto nejznámější metodou sběru dat v marketingu. Ne vždy ho ale používáme správně. Nejčastější omyly se dozvíte v dnešním článku.
O co při A/B testování jde
A/B testování pomáhá se zdánlivě jednoduchou otázkou: Co je lepší, A nebo B?
Máte dvě obálky knížky a nevíte která je lépe prodejná. Dvě verze tlačítka subscribe a hledáte, které má větší míru prokliku. Dvě verze reklamy a zjišťujete, která povede k větší míře konverzí. Google díky A/B metodě postupně otestoval 41 druhů modré, než se rozhodl, jak obarví svoje internetové linky.
V současném online marketingu se A/B testování využívá všude – od web designu, online nabídek, po slogany a popisy produktů.
Oblíbenost metody je ale její hlavní slabinou. Často ji v praxi dělají lidé bez formálního statistického vzdělání. Při kvalitním zaučení to nemusí vadit. Statistika ale není jednoduchá a svádí k omylům. Proto jsme pro vás shrnuli ty nejčastější. Přepokládáme, že už v problematice máte základní znalosti.
1) Netestujete dostatečně dlouho
Hlavním cílem A/B testování je odejít se statisticky signifikantním výsledkem. Když v praxi konečně klesne p hodnota pod magickou hranici 0,05, mnoho laiků chce testování ukončit. Statistické signifikance jsme dosáhli, tak proč testovat dál a mařit čas a peníze?
Tento přístup je chybný, protože riskujete, že vaše měření nebude spolehlivé. Délka testování se kalkuluje dopředu a v potaz bere mnohem více faktorů, jako:
- Statistickou sílu testu
- Efekt dne v týdnu
- Sezónnost atp.
Pokud testování ukončíme předčasně, existuje vysoká pravděpodobnost, že i statisticky signifikantní výsledky jsou chybné. Závěry měření také nebudou replikovatelné. Vždy měřte tak dlouho jak jste si naplánovali!
2) Vás test není dostatečně silný
Často se stane, že dostanete statisticky nesignifikantní výsledek. To samotné ale ještě není důvodem hypotézu zamítnout. Je možné, že pouze nemáte dostatečně velkou sílu testu.
Síla testu vyjadřuje pravděpodobnost, že existující rozdíl mezi alternativami dokážete detekovat/prohlásit za statisticky významný. V praxi chceme, aby byla co největší, protože pokud je nízká, děláme výzkum zbytečně. Obvykle toužíme po síle 0,8 a výše.
Sílu testu ovlivňuje skutečná velikost efektu (čím větší, tím větší síla, protože je větší pravděpodobnost, že efekt detekujeme) a počet participantů.
V praxi zvládnete spočítat kolik lidí potřebujete, aby byl test silný tak a tak. Někdy se ale může stát, že během experimentu tolik lidí nezískáte. Například jsme chtěli tisíc, na stránce jich ale zrovna bylo jen 900. Experiment se v tomto případě vyplatí opakovat, i pokud vyšel statisticky nesignifikantní. Je totiž dost možné, že jste měli prostě jen smůlu.
3) Nesplňujete metodologické podmínky experimentu
A/B testování je druhem řízeného experimentu. Zkoumá kauzální vztah mezi proměnnými (barvou tlačítka a mírou konverzí). Jednou nezávislou proměnnou manipulujete (teď půjde zelené tlačítko, teď bílé…) a zkoumáte, jak se v reakci na to mění hodnoty druhé závisle proměnné (míra konverzí, prokliku, cokoliv aktuálně měříte). Z naměřených dat můžete získat kauzální tvrzení (A způsobuje více konverzí než B).
Jako každý experiment, má i A/B testování přísné metodologické podmínky:
- Účastníky studie vyberte náhodně. Náhodnost znamená, že nelze určit kdo bude vybrán a výběr jednoho nijak nesouvisí s výběrem druhého.
- Účastníky studie vyberte z vhodné populace. Ta většinou tvoří všechny návštěvníky webu, někdy je ale lepší zaměřit se na jejich menší část (viz metoda blokování).
- Rozdělte účastníky náhodně do skupin. Experimentální skupina zažívá zkoumaný jev (dostane bílé tlačítko). Kontrolní skupina ne (dostane zelené tlačítko).
- Sežeňte dostatečný počet participantů pro dosažení statistické signifikance.
- Dopředu stanovte podobu experimentu, měření a hypotézu.
- Měření musí být replikovatelné. Pokud váš experiment udělá někdo jiný, musí dostat statisticky podobné výsledky.
Pokud tyto a další podmínky nesplníte, mění se podstatně váha závěrů.
Například, pokud participanty nevyberete náhodně, získáte kvazi experiment. Ten už nemůže vést ke kauzálnímu tvrzení (zelená barva způsobuje více konverzí). Místo toho budete jen schopni konstatovat, že zelená barva tlačítka a zvýšená míra prodejů se spolu vyskytují víc, než je běžné (korelace).
4) Špatně kontrolujete prostředí a účastníky studie
Vědecké experimenty probíhají v přísně kontrolovaném prostředí laboratoře. Jedině tak dokážete ohlídat, že vaše měření neovlivní nepředvídané faktory. S experimenty na dálku to ale bývá těžší.
Příklad: Malé tlačítko vedlo k méně konverzím než velké.
Co když je ale ve vašem vzorku více mobilních uživatelů, kteří obecně potřebují větší ikony? Co když lidé na počítači klikají na věci více, než když jsme na telefonu? A měříte vůbec správnou skupinu? Co když v tuhle hodinu máte více starších návštěvníků, protože ti mladší jsou ve škole? Nebo jde jednoduše o efekt novosti?
Obecně se těmto nezapočítaným faktorům říká confoundery. Často vznikají chybou v náboru participantů a při designu měření. V experimentech jsou vaším největším nepřítelem, protože výsledky nepředvídatelně zkreslují (jsou zdrojem nevysvětlené variability).
Obecnou prevencí této chyby je dodržovat všechny podmínky experimentu a měřit co nejjednodušeji.
S kontrolou správného samplingu pomáhá A/A testování. Jde vlastně o A/B testování naruby: Dvě náhodně vybrané skupiny zažijí stejnou věc (zelené tlačítko). Výsledky by měly být statisticky podobné. Pokud nejsou, je něco špatně.
5) Špatně interpretujete výsledky
Typický výsledek A/B testování vypadá následovně:
Control: 15% (+/- 2.1%) Variation 18% (+/- 2.3%).
Statisticky to znamená, že 18 % uživatelů kliklo na nově zavedený prvek, s mezní chybou 2,3 % (tak velká chyba odhadu, že větší už je jen málo pravděpodobná).
Tento výsledek je ale pouhým odhadem skutečné hodnoty statistiky v populaci. Je proto chyba říkat, že skutečná míra konverzí leží mezi 15,7 % a 20,3 %. Statisticky správně můžete říct pouze to, že pokud byste měření donekonečna opakovali, v 95 % případů bude vámi naměřený interval obsahovat skutečnou míru konverzí. Jinými slovy, v 5 % případů bude skutečná míra konverzí mimo tento interval a skutečný efekt je nižší/vyšší. Konkrétní podíl záleží na zvolené hladině spolehlivosti.
Tento sofistikovanější pohled je důležitý, protože díky němu činíte lepší rozhodnutí. 3% uplift bude dobrým důvodem pro ozkoušení nové alternativy natvrdo. V jiných případech se to ale vyplatit nemusí.
6) Používáte příliš metrik zároveň
Nové testovací softwary ohromují širokou nabídkou dostupných metrik. Máme to rádi (čím víc toho vím, tím víc dokážu), v praxi je to ale dost rizikové.
Velké množství různorodých dat zvyšuje počet náhodných fluktuací a tím i riziko, že v nich objevíte falešné korelace. Čím více vidíme, tím více se naše myšlení překlápí k přístupu: co tu vypadá zajímavě? A to jednoduše není dobře. V naprosté většině případů se budete mýlit.
U správně provedeného A/B testování vždy metriky stanovte dopředu a vyberte jich jen pár.
7) Testujete pouze jednou
Průkazný experiment musí být replikovatelný. I přesto se spousta firem spokojí s prvním výsledkem a měření neopakuje.
A to je chyba. I se statisticky signifikantními závěry stále existuje riziko chyby prvního stupně (falešných pozitiv). Pokud test neprovedete jednou za čas znovu, nemůžete nikdy uspokojivě vyloučit, že se ve skutečnosti mýlíte!
8) Testujete moc malé změny
Produktoví manažeři často věří v přístup zavádění malých kontinuálních změn, které nakonec vyústí ve velký úspěch. Samo o sobě to není špatná filozofie. U A/B testování vás ale rychle svede na scestí.
Nevýhodou zkoumání malých efektů je fakt, že značně snižují sílu testu (pokud to nevyvážíte počtem participantů, což bývá nákladné) a tím zvyšují šanci, že se v závěrech měření zmýlíte.
Rizikem malých změn je i dosažení lokálního maxima. Pokud pomalu zlepšujete spoustu detailů, pravděpodobně brzo začnete stagnovat a bránit sami sobě v dosažní opravdu skvělého designu.
Jen velké změny dokáží přinést velký úspěch.
Závěr
Zkušený statistik by k nám popsaným chybám přidal ještě tucet dalších. V praxi ale k jeho službám nemusíte mít přístup a A/B testování zůstane na laikovi s rychlokurzem.
V tomto případě je dobré mít představu, co všechno vám nejspíš uniká. A pokud je snad složitost některých konceptů nad vaše síly, berte to jako důkaz toho, že založit si datové oddělení s proškolenými odborníky se vyplatí i začínajícím firmám.
Ladislav Dvořák
Na Ukrajině chceme mír!
Ukrajina není dokonalou zemí, ale která země je dokonalá? Válka je zlo, ale znamená vždy snaha o mír opravdový mír?
Ladislav Dvořák
10 nejpodivnějších a nejbizarnějších muzeí, ve kterých jste nikdy nebyli
Muzea jsou obvykle spojována s historií, uměním a vědou. Některá muzea však překračují obvyklé hranice a ukazují bizarní a neobvyklé věci.
Ladislav Dvořák
10 nejneobvyklejších a nejzajímavějších objevů v archeologii
Archeologie je obor, který nás neustále překvapuje nečekanými a fascinujícími objevy. Od starověkých artefaktů až po dávno zapomenuté civilizace – archeologové neustále objevují nové důkazy, které zpochybňují naše představy o minu
Ladislav Dvořák
10 nejpodivnějších a nejunikátnějších hotelů, které musíte navštívit
Hotelový průmysl se neustále vyvíjí a vzhledem k velké konkurenci se hotely snaží vyniknout a nabídnout něco jiného, co by hosty zaujalo.
Ladislav Dvořák
5 nejlepších softwarových nástrojů pro diagnostiku a ladění automobilů
Automobilový průmysl je stále více závislý na softwaru, protože moderní vozidla vyžadují ke správnému fungování celou řadu počítačových systémů.
Další články autora |
Trump se vrátí do Bílého domu. Urval klíčové státy, prohlásil se vítězem
Sledujeme online Donald Trump zvítězil v amerických prezidentských volbách. Získal klíčovou Pensylvánii, jeho...
Nenávidím vás všechny! Hollywood je v šoku z Trumpova vítězství
Šok, zlost, zklamání a smutek. Tak se dá shrnout reakce Hollywoodu a amerických tvůrců na vítězství...
Čeká nás zlatá éra Ameriky, uzavřeme hranice, slíbil Trump ve vítězné řeči
Výsledek amerických prezidentských voleb je dosud největším politickým vítězstvím. Za jásotu svých...
Mám rakovinu, oznámil ministr Válek. Objevil ji screening, čeká jej operace
Ministr zdravotnictví Vlastimil Válek oznámil, že má rakovinu. Prohlásil to na tiskové konferenci k...
Jeden jim všem vládne. Úder na Írán potvrdil technologickou nadvládu F-35
Izraelský letecký úder na vojenské cíle v Íránu před týdnem jasně potvrdil fakt, který bude brzy...
Turismus v Jeseníkách podpoří stát vouchery. Povodně odradily návštěvníky
Premium Chybějící turisty chce ministerstvo pro místní rozvoj nalákat na slevy z ceny ubytování. Podobně...
Čokoláda nejspíš zase zdraží. Kvůli omezování dětské práce
Tuna kakaa stála loni v květnu necelé tři tisíce dolarů (70,6 tisíce korun), do letošního dubna ale...
Pokuty za rychlost jako stroj na peníze, už za 51 km/h. Radarů v obcích přibývá
Premium Z Česka se stává radarová velmoc. Počet silničních radarů podle statistik Českého metrologického...
Amsterdam byl plný muslimů, kteří po nás šli. Napadení Izraelci popisují lynč
Premium Od spolupracovnice MF DNES v Izraeli „Žádná policie. Každý čtvrtý člověk, který jde po ulici, je muslim, který přišel napadnout Židy,“...
- Počet článků 48
- Celková karma 0
- Průměrná čtenost 1142x
Zde pracuji: https://www.autopujcovnavpraze.cz/