Ile czasu powinien trwać test A/B?

Testy A/B są jednym z najskuteczniejszych narzędzi optymalizacji konwersji, ale tylko wtedy, gdy są przeprowadzone poprawnie. Zbyt krótki test lub test na zbyt małej próbie może prowadzić do błędnych wniosków, które nie mają odzwierciedlenia w rzeczywistości.
Jak określić jak długo powinien trwać test A/B?
Zacznijmy od wyjaśnienia co wpływa na czas trwania testu.
Czas trwania testu A/B zależy od:
- Liczby konwersji – im więcej konwersji, tym szybciej osiągniemy statystycznie istotne wyniki.
- Ruchu na stronie – większy ruch pozwala na szybsze zbieranie danych.
- Minimalnego wykrywalnego efektu (MDE) – im mniejszy efekt chcesz wykryć, tym dłużej musi trwać test.
- Liczby wariantów w teście – im więcej wariantów, tym dłużej musi trwać test.
- Poziomu istotności (zwykle 95%) i mocy testu (zwykle 80%) – gwarantują, że wyniki są wiarygodne.
Aby określić czas trwania testu, trzeba wziąć te wszystkie czynniki pod uwagę. Taki proces kalkulacji czasu trwania testu nazywamy pre-analizą.
Pre-analiza – obowiązkowy krok przed każdym testem A/B
Pre-analiza pozwala określić:
- Czy konkretny test (lub cały program testów A/B) ma sens – jeśli masz za mało konwersji, lepiej skorzystać z innych metod walidacji (np. User Testingu).
- Jak długo powinien trwać test – na podstawie liczby konwersji, ruchu oraz wielkości zmiany, którą chcesz wykryć.
- Jakie MDE jest realistyczne do wykrycia – jeśli jest powyżej 10%, test może być zbyt podatny na losowe wahania.
Pre-analizę wykonujemy za pomocą specjalnych kalkulatorów. Do kalkulatora wprowadzamy uśrednioną tygodniową liczbę użytkowników i konwersji, liczbę wariantów oraz poziom istotności i mocy testu i na tej podstawie otrzymujemy kalkulacje MDE i liczby userów na wariant dla poszczególnych tygodni trwania testu.

Link do tego kalkulatora znajdziesz tutaj: https://speero.com/ab-test-calculator
MDE jest kluczowym elementem pre-analizy.
MDE pozwala nam ocenić, jak duży efekt musimy zaobserwować, aby mieć pewność, że nie jest to wynik przypadku. MDE decyduje o ustaleniu wielkości próby potrzebnej do przeprowadzenia testu: im mniejszy minimalny efekt, który chcemy wykryć, tym większa próba jest wymagana. Koncepcja ta zapewnia, że test A/B ma wystarczającą moc, aby stwierdzić, czy zmiana lub różnica między dwiema wersjami jest spowodowana samą modyfikacją, czy tylko przypadkiem.
Jakie powinno być MDE?
Przyjmuje się, że:
- MDE powinno wynosić poniżej 5% (najlepiej w ciągu 2-4 tygodni trwania testu),
- MDE przekraczające 10% (dla testu 6-tygodniowego), jest za wysokie.

Pamiętaj – jeśli Twój test wykazuje wzrosty powyżej 10% przy drobnej zmianie (np. zmiana koloru buttona) – to znak, że testowi brakuje mocy statystycznej i jego wynik jest raczej losowy niż rzeczywisty.
Minimalny i maksymalny czas trwania testu A/B
Aby zwiększyć wiarygodność wniosków z eksperymentów, testy nie powinny być:
- krótsze niż 2 tygodnie
- dłuższe niż 6 tygodni
Przykłady pre-analizy
Z tą wiedzą przyjrzyjmy się pre-analizom kilku sklepów internetowych o różnej skali konwersji. Warto przy tym zaznaczyć, że konwersja jest tu dowolnym zdarzeniem, którego zajście postrzegamy za sukces. Może być to dokonanie transakcji, ale również dodanie do koszyka, przejście do danej strony, skorzystanie z wyszukiwarki itd.
Preanaliza w sklepie z około 40 tys. konwersji miesięcznie:

Preanaliza w sklepie z około 8 tys. konwersji miesięcznie:

Preanaliza w sklepie z około 4 tys. konwersji miesięcznie:

Preanaliza w sklepie z około 1 tys. konwersji miesięcznie:

Jak widzisz – w większych biznesach e-commerce (40 tys. konwersji miesięcznie) już po 2. tygodniu testu MDE jest niższe niż 5%, a po 4. tygodniu niższe niż 3% – co oznacza, że można testować nawet mniejsze zmiany z wysoką wiarygodnością.
W mniejszych sklepach (1 tys. konwersji) MDE jest znacznie wyższe i przekracza 10% – co oznacza, że w takim biznesie przeprowadzanie testów A/B nie ma sensu.
Jeśli MDE wynosi 5-10%, oznacza to, że drobne zmiany (np. małe zmiany UI) będą niewykrywalne. W takiej sytuacji warto testować bardziej znaczące zmiany (jak np. radykalna przebudowa checkoutu lub karty produktu).
Co, gdy test „osiągnie istotność statystyczną” przed zaplanowanym końcem testu?
Odpowiadając krótko: nie zatrzymuj testu, gdy widzisz ”95% significance” lub gdy narzędzie do testów mówi, że test jest “istotny statystycznie”. To jeden z najczęstszych błędów podczas testowania A/B.
Test powinien trwać do momentu zebrania minimalnej liczby konwersji i osiągnięcia wymaganej mocy statystycznej (zwykle 80%).
Dlaczego?
- Wczesna istotność może być przypadkiem – losowe wahania w małej próbie mogą sztucznie napompować wynik.
- Efekt początkowego szumu – na początku testu użytkownicy mogą reagować inaczej niż w dłuższej perspektywie.
- Nie uwzględniasz cyklów użytkowników – zachowanie klientów może się różnić w weekendy vs. dni robocze, na początku miesiąca vs. końcu itp.
Testy należy kończyć nie wtedy, gdy osiągną istotność, ale gdy spełnią kryteria wielkości próby, mocy statystycznej i czasu trwania. Inaczej ryzykujesz fałszywymi wnioskami i wdrożeniem zmian, które w rzeczywistości nie działają.
Co gdy masz za mały ruch?
Jeśli twoja strona internetowa ma za mało ruchu i konwersji (np. mniej niż 1000 konwersji miesięcznie), testy A/B nie będą wiarygodne. Wtedy warto skorzystać z alternatywnych metod walidacji:
- Testy użyteczności z użytkownikami
- Testy preferencji
- Tree testing
- Testy 5-sekundowe
- Nagrania użytkowników
- Ankiety
- Wywiady z użytkownikami
Podsumowanie
- Preanaliza to MUST HAVE – bez niej nie wiesz, czy test A/B ma sens.
- MDE powinno wynosić poniżej 5% (najlepiej w ciągu 2-4 tygodni trwania testu),
- MDE przekraczające 10% (dla testu 6-tygodniowego), jest za wysokie.
- Z MDE pomiędzy 5-10% można rozważyć testowanie bardziej znaczących zmian w UX (jak radykalna przebudowa karty produktu)
- Nie zatrzymuj testu, gdy tylko osiągnie istotność statystyczną – tylko wtedy, gdy osiągnie ustaloną wcześniej próbę!
- Jeśli masz za mało danych – użyj innych metod walidacji.