Co to jest wartość P?

Wartość P jest terminem statystycznym, który pomaga określić, czy hipoteza, której używasz jest prawdziwa, prawdopodobieństwo zmienności próby. Po prostu mówi nam, jakie są szanse na uzyskanie tych wyników, jeśli nasza hipoteza zerowa jest prawdziwa.

  • Hipoteza zerowa to hipoteza, która mówi, że wyniki, które otrzymujemy są spowodowane czystym szczęściem.
  • Hipoteza alternatywna mówi, że wyniki, które otrzymujemy, nie są spowodowane szczęściem, ale istnieją elementy zewnętrzne, które wpływają na nasze wyniki.

Jest to bardzo ważny i powszechnie używany termin statystyczny, który można łatwo obliczyć w programach do analizy danych, takich jak Microsoft Excel. W tym artykule dowiesz się jak jej używamy, gdzie jej używamy i jak możemy ją obliczyć w Excelu na różne sposoby.

Zaczynajmy!

Dlaczego potrzebujemy wartości P?

Prowadząc badania z dużymi populacjami musisz obliczyć statystyki dla każdej osoby. Ale nawet w takim przypadku nie możesz być pewien, czy coś się stało z powodu przypadku lub po prostu szczęścia, ponieważ nie da się obserwować wszystkiego. Tu właśnie wkracza statystyka.

Obliczenia statystyczne nie dadzą Ci absolutnej prawdy, ale pomogą Ci mieć dobre wyobrażenie o Twoich badaniach.

Wartość P pozwala nam przetestować hipotezę na nasz temat. Możemy porównać matematyczne wyniki z tymi hipotezami i ponownie rozważyć naszą drogę bez poświęcania dużej ilości czasu na badania.

Gdzie używamy wartości P w prawdziwym życiu?

Używamy wartości prawdopodobieństwa, gdy próbujemy przetestować hipotezę. Może to być związane z badaniami lub prostym zakładem, który zawarliśmy z przyjacielem.

Łatwiej jest to zrozumieć na przykładach.

Marketing:

Załóżmy, że pracujesz w obszarze marketingu i twój ostatni projekt dotyczy reklamy zbóż.

Masz wyprodukowany film dla mediów społecznościowych i masz informacje na temat tego, czy użytkownicy pominęli go lub oglądali go przez długi czas.

Jako przykład, wspólny czas oglądania filmu wynosi 20 sekund. Średnia to 20 sekund. I podjąłeś decyzję, aby zmontować wideo z kawałkiem bardziej radosnej muzyki.

Jak teraz rozpoznasz, czy to zadziałało? W tym momencie używamy statystyki istotności.

Najpierw należy postawić hipotezę zerową:

Hipoteza zerowa głosi, że nie ma korelacji między tym, co inwestujesz, a wynikami, jakie uzyskujesz. Nie ma to wpływu na wyniki.

W tym przykładzie hipoteza zerowa będzie brzmiała następująco: "Nie ma żadnego związku między zmianami, które stosujesz, a czasem zegarkowym".

Następnie, hipoteza alternatywna:

Hipoteza alternatywna sugeruje, że faktycznie zmiana muzyki zadziałała i teraz ludzie oglądają reklamę dłużej niż 20 sekund. Matematycznie, hipoteza alternatywna mówi:

"Średnia jest teraz większa niż 20 sekund".

Oblicz poziom istotności:

Teraz musimy ustalić próg graniczny, aby obliczyć, czy odnieśliśmy sukces, czy nie. Nazywa się to poziomem istotności jest dodatkowo określany jako wartość alfa. Może to być dowolny procent, który chcesz, to jest absolutnie do Ciebie.

Ale w tym przykładzie będzie to 0,05.

Teraz, aby obliczyć z pewnością powinniśmy zawsze mieć wszystkie dane z czasu zegarka. Ale jeśli chodzi o Twój czas i źródła, powinieneś wziąć próbkę z populacji:

  1. Wziąłeś próbkę 100 osób.
  2. Te 100 osób ma 25 sekund czasu oglądania reklamy.
  3. Oznacza to, że średnia z próby wynosi 25.

Jest to bardzo prosta wersja obliczeń. Ale odchylenie standardowe próbki jest zwykle obliczane w tej skali, jeśli nie znasz odchylenia standardowego całej populacji.

Możesz użyć wartości, które obliczyłeś dla próbki, ponieważ są one zbliżone do wartości populacji. Średnia z próby jest bliska średniej z populacji.

Oblicz wartość P:

Wartość p pokazuje nam, czy możemy odrzucić hipotezę zerową, czy nie. Jest to prawdopodobieństwo, że średnia z próby jest większa lub równa 25 minut, jeśli hipoteza zerowa jest prawdziwa.

Istnieją dwie sytuacje, które mogą się zdarzyć.

  1. Jeżeli wartość p jest mniejsza niż alfa, można odrzucić hipotezę zerową. Masz statystyczny dowód na to, że hipoteza alternatywna jest prawdziwa.
  2. Ale jeśli wartość p jest większa lub równa al fa, nie możesz od rzucić hipotezy zerowej. Nie oznacza to, że hipoteza zerowa jest na pewno prawdziwa, ale nie można jej uniknąć.

Prawdopodobieństwo

Popracujmy nad innym przykładem.

Twój przyjaciel i ty rzucacie monetą w powietrze: Jeśli wypadnie reszka, tracisz 5 dolarów, a jeśli wypadnie główka, zyskujesz 5 dolarów.

  • Twój przyjaciel rzuca monetą raz: wypada reszka. W porządku, jest 50% szans, że wypadnie reszka. Teraz zakładasz, że prawdopodobieństwo wynosi 0,5, ponieważ wierzysz, że jest to uczciwa moneta. To jest twoja hipoteza zerowa.

Ale jest też inna możliwość, moneta jest podstępna. Podczas obliczania wartości p zachowujesz się tak, jakby hipoteza zerowa była prawdziwa.

  • Po drugie: Jest to reszka. Straciłeś kolejne 5 dolarów, ale to nic, ponieważ nadal istnieje duża szansa na dwa reszki z rzędu. Wartość p wynosi 0,25 i nadal jest to uczciwy stosunek.
  • Potrzecie: po raz kolejny jest ogon. Szansa, że trzy razy z rzędu będzie ogon wynosi 0,12. Nie jest ona niska, więc nie ma wystarczającego dowodu na to, że hipoteza zerowa nie jest poprawna. Ale zaczynasz myśleć, że twoja hipoteza alternatywna może być poprawna.
  • Po czwarte: To obraca się jako ogon ponownie zobaczysz, jak szanse stają się naprawdę niskie. To może być cudowny zbieg okoliczności, ale nadal jest 0,6 szansy i nadal nie ma wystarczających dowodów na poparcie hipotezy alternatywnej, która mówi, że moneta jest podstępna. I czekasz na piąty rzut.
  • Piąte: reszka. Szansa na to, że moneta pięć razy z rzędu okaże się reszką wynosi 0,3, co jest bardzo niską wartością. To jest punkt, w którym możesz odrzucić hipotezę zerową, ponieważ nie ma już wystarczających dowodów na jej poparcie.

Poprosiłeś swojego przyjaciela, aby zobaczył monetę i kiedy trzymasz ją w ręku, zdajesz sobie sprawę, że ma ona dwa rewersy i jest podstępną monetą.

Co spowodowało, że straciliśmy wiarę w naszą hipotezę zerową?

W uczciwej grze polegającej na rzucaniu monetą, szansa na otrzymanie reszki lub główki wynosi 50%. Jest to sytuacja, w której wierzymy, że moneta jest uczciwa, ale gdy wartość p spada, nasze zaufanie do tej hipotezy również słabnie.

Szansa na przypadkowy ogon jest niewielka, gdy wartość p spada poniżej 0,05. Kiedy więc zastosujemy ten termin statystyczny do takich spraw jak badania nad rakiem czy skutki zmian klimatycznych, nabiera on większego znaczenia.

Uwaga: Nie ma żadnego konkretnego powodu, dla którego używamy wartości p 0 ,05 do domyślnych obliczeń. Twórca formuły uznał, że jest to dobra liczba do obliczeń i domyślne obliczenia trzymają się jej. 
0,05 oznacza 5% na 100 osobników populacji, co mieści się w krzywej normalnej. Jest to jeden z powodów, dla których jest on powszechnie używany. Jeśli chcesz ją zmienić podczas samodzielnego obliczania, możesz to zrobić.

Jak obliczyć P-Value w Excelu?

Istnieje więcej niż jeden sposób na obliczenie wartości p w programie Microsoft Excel. Możesz wpisać formułę lub użyć Analysis ToolPak. Ten artykuł zawiera informacje jak zrobić to na oba sposoby.

Użycie klasycznych formuł Excela:

Zacznijmy od klasycznego sposobu z formułami Excela. Istnieją dwa sposoby na zrobienie tego: formuła TDIST i formuła testu T.

1.1) Formuła TDIST

Po pierwsze, będziesz potrzebował zestawu danych do obliczenia wartości p-value.

  • Załóżmy, że jesteś nauczycielem i chcesz porównać, jaki wynik uzyskali Twoi uczniowie na ostatnim egzaminie i jaki wynik spodziewałeś się uzyskać na podstawie ich poprzednich egzaminów.
  • Masz wyniki 25, 46, 34, 27, 35, 43, 40, 44, 21 i 39 dla ostatniego egzaminu.
  • Teraz do obliczeń potrzebujesz kolejnego ogona, jest to wynik, którego spodziewałeś się na podstawie poprzednich testów: 23, 44, 32, 20, 46, 37, 35, 42, 33 i 35.

Teraz, aby użyć formuły p-wartości w Excelu, powinieneś obliczyć kilka rzeczy wcześniej:

Współczynnik Pearsona (r): Jest to termin statystyczny, który mierzy korelację liniową pomiędzy dwoma danymi. Nie musisz znać matematycznego aspektu tego pojęcia, aby obliczyć wartość p-value. Prosty wzór na to zobaczysz w następnych paragrafach.

Populacja (n): n to całkowita liczba osób w twoim zestawie danych.

Statystyka T: Jest to stosunek odchylenia szacowanej wartości danych od jej założonej wartości do jej błędu standardowego.

Stopień swobody: Jest to liczba osobników w zbiorze danych minus dwa.

W tym przykładzie współczynnik Pearsona będzie zapisany na F4. Po jego kliknięciu wpiszemy formułę:

=PEARSON (C4: C13; D4: D13)

W kolumnach C znajdują się wyniki, a w kolumnach D oczekiwane wyniki. W tym przykładzie współczynnik Pearsona wynosi 0,691473.

Następnie wpiszemy liczbę osób w zbiorze danych. Jeśli wiesz na pewno, ile masz osobników, możesz wpisać to ręcznie, ale jeśli nie wiesz, możesz użyć formuły:

=COUNT (C4, C13)

Dlaczego formuła zawiera tylko kolumnę C?

Jest tak dlatego, że do obliczeń potrzebujemy tylko osób z jednego zestawu danych, dlatego wystarczy jedna kolumna. W komórce G5 będzie teraz znajdować się liczba 10. To jest nasza populacja.

Teraz, gdy masz już zarówno współczynnik Pearsona, jak i populację, możesz obliczyć statystykę T. Wzór matematyczny dla statystyki T to współczynnik Pearsona (r) razy znak pierwiastka kwadratowego z populacji (n) minus 2 podzielony przez pierwiastek kwadratowy z 1 minus współczynnik Pearsona podniesiony do kwadratu:

=(G4*(SQRT(G5-2)))/SQRT(1-G4^2)

Komórka G6 będzie zawierała wynik 2,70733. To jest nasza statystyka T.

Następnie obliczysz stopień swobody. Wpiszesz:

=G5-2

Do komórki G7. To jest stopień swobody. Będzie on wynosił 8.

Teraz masz już wszystko, czego potrzebujesz, aby obliczyć wartość P. Komórka G8 będzie zawierała wzór na nią. To jest:

=TDIST (statystyka t, stopień swobody, ogony)

Lub

=TDIST (G6, G7, 2)

Wynik będzie wynosił 0,026768. Jest to wartość p dla tego zestawu danych.

1.2. Wzór testu T

Drugim sposobem na wyznaczenie wartości p za pomocą formuł Excela jest użycie formuły testu T. Jest on nieco podobny do poprzedniego przykładu, ale krótszy.

  • Załóżmy, że zestaw danych jest taki sam, masz wyniki 25, 46, 34, 27, 35,43, 40, 44, 21, 39 dla ostatniego egzaminu.
  • Oczekiwane wyniki to 23, 44, 32, 20, 46, 37, 35, 42, 33, 35.
  • Dodasz trzecią kolumnę dla różnicy między oczekiwanym a faktycznym wynikiem. W kolumnie różnicy 2, 2, 2, 7, 11, 6, 5, 2, 12, 4 będą zapisane od E4 do E13.

Teraz do komórki E8 wpisz T-Test. Do pustej komórki obok wpiszesz formułę testu T. Czyli:

=T.Test (C4:C13, E4:E13, 1, 1)

I ta formuła da ci wartość p bezpośrednio.

Określanie wartości P za pomocą pakietu narzędzi Excela

Took Pak to pakiet, który pozwala na automatyczne obliczanie różnych pomiarów statystycznych, więc jest łatwy i bardzo poręczny. Jest również łatwy do zainstalowania.

Krok 1: Przejdź do ustawień. W lewym dolnym rogu znajduje się przycisk "Dodatki", kliknij go. Pojawi się nowe okno, znajdź opcję "Analysis Tool Pak", kliknij ją, a następnie kliknij przycisk przejdź w dolnej części okna.

Krok 2: Aktywuj dodatek, klikając symbol kleszcza obok niego i po przycisku OK w prawej kolumnie.

Krok 3: Jeśli udało Ci się go poprawnie aktywować, w górnym menu Twojego arkusza po prawej stronie pojawi się przycisk "Analiza danych".

Krok4: Kliknij przycisk "Analiza danych" i wybierz "t-Test: Sparowane dwie próby dla średnich". Po tym kliknij OK. Pojawi się nowe okno.

Krok 5: W pierwszym wierszu okna pojawi się pytanie o dane wejściowe. Wpisz C4: C13 do pola "variable 1 range". W polu "zmienna 2 zakres" wpisz D4: D13. Pozostaw pole alfa z jego domyślną wartością.

Krok 6: W drugim rzędzie okna możesz wybrać miejsce, w którym będziesz monitorował swoje wyniki. Może to być nowy arkusz lub dowolne puste komórki. Jeśli chcesz, aby wynik był wyświetlany w komórce, upewnij się, że zablokowałeś kolumnę i wiersz. Następnie kliknij przycisk OK.

Wskazówka: Użyj znaku dolara przed literą i cyfrą, aby zablokować kolumnę i wiersz. Na przykład, jeśli chcesz zablokować komórkę A2, wpisz $A$2.

Krok 7: Excel obliczy średnią, wariancję, obserwacje, korelację Pearsona, hipotetyczną średnią różnicę, statystykę t, p-value i inne.

SŁOWA KOŃCOWE

Wartość P jest łatwa do obliczenia i dostosowania w wielu różnych sytuacjach. Pomaga uzyskać informacje, których potrzebujesz bez poświęcania na to dużo czasu i wysiłku. Jest jeszcze łatwiejsza do obliczenia, gdy używasz programów do analizy statystycznej, takich jak Microsoft Excel, które są wyposażone w odpowiednie narzędzia i formuły. Sprawdźmy kolekcję szablonów Someka i pobierzmy szablony statystyczne, aby ułatwić sobie pracę!