Często słyszymy, że naukowcy lubią dobierać sobie te tematy, które im pasują. Piszą więc o Arktyce, gdzie temperatury są coraz większe, a lodu morskiego jest coraz mniej. Natomiast przemilczają Antarktydę, gdzie jest dokładnie na odwrót. Ale czy naprawdę? Przyjrzyjmy się zatem temu co dzieje się na Antarktydzie.
Pretekstem niech będzie nowy artykuł naukowy (znów z nielubianego przeze mnie PNAS): Liu i Curry 2010 [1]. O artykule tym napisała nawet Gazeta Wyborcza, chociaż autor notatki o nim chyba niezbyt uważnie go czytał (a może nie znał jego tła). Ale o tym niżej. O Antarktydzie rzeczywiście do niedawna sądzono, że większość jej się oziębia. Uważano też że przybywa na niej masy lądolodu (tak pisał jeszcze w 1972 Jacobs w czasopiśmie Science). Ponieważ obszary polarne powinny się ogrzewać szybciej niż przeciętnie cała Ziemia, wyglądało to na problem dla klimatologii. Słowem kluczowym jest tu jednak “do niedawna” bo nasza wiedza o tych problemach ostatnio znacznie się zwiększyła. W dodatku to “niedawno” to już dobrych parę lat. Przede wszystkim są części Antarktydy, które ogrzewają się i to szybciej niż przeciętna dla naszej planety (dokładnie tak jak przewiduje teoria). Jest to przede wszystkim “najbardziej wystająca” część Antarktydy, czyli Półwysep Antarktyczny. Powyższy rysunek z artykułu Vaughan i inni 2001 (też z Science) przedstawia wartości trendów zmian temperatury na dekadę czyli 10 lat (wraz z niepewnościami i poziomem istotności [2] trendu) dla stacji pomiarowych na Półwyspie Antarktycznym (podana jest także ilość lat pomiarów). Widać, że mimo dużych błędów statystycznych, mierzony wzrost temperatury powietrza jest znacznie szybszy niż średnia dla całej Ziemi (czyli w ostatnich dekadach ok. 1,5 C/stulecie). Ten szybki wzrost temperatury jest przyczyną głośnego w mediach (a nawet filmach fabularnych) rozpadu barier lodowych wokół Półwyspu, a zarazem jest on spodziewanym skutek znanej od dziesięcioleci “polarnej akceleracji” ocieplenia, czyli dodatnich sprzężeń zwrotnych (patrz wpis “Czy rozumiemy ocieplanie się Arktyki?“).
Czy jednak podobnie ociepla się reszta Antarktydy. Otóż nie. Do niedawna sądzono nawet, że wnętrze kontynentu się oziębia. Dopiero od około 5 lat (a nie od roku jak napisano we wspomnianej notatce z Wyborczej) wiemy, że wnętrze to się także ociepla, jednak znacznie wolniej niż większość planety.
W artykule Turnera i innych z marca 2006 roku (też Science) porównano dane z sondowań atmosfery balonami meteorologicznymi na stacjach polarnych. Wskazywały one (jak widać powyżej), że praktycznie na wszystkich stacjach, z których mamy dane zanotowano ocieplenie w okresie od 1971 ro 2003 r. Słupki oznaczają wartość średnioroczna i dla czterech pór roku zaczynając od jesieni (czyli okresu marzec-maj bo to półkula południowa). Kolory słupków oznaczają poziom istotności (Turner stosuje odwrotną terminologię niż Vaughan, tzn 1% u niego to szansa 99% że trend jest istotnie niezerowy).
Dolna część wykresu to wyliczony średni profil zmiany temperatury (stopnie na 10 lat) w funkcji wysokości nad powierzchnia morza – wyrażoną jak przystało na meteorologów wartością ciśnienia powietrza (średnio ok. 1013 hPa to powierzchnia morza a wartość zero to szczyt atmosfery). Wykres ten wskazuje na ocieplanie się nie tylko w pobliżu powierzchni lodu ale w całej troposferze.
Jedynie w stratosferze, która nawiasem mówiąc w obszarach polarnych zaczyna się niżej niż w naszych szerokościach, zanotowano ocieplenie. I w dodatku dokładnie wiemy dlaczego. To też nasza robota ale w tym wypadku nie chodzi o gazy cieplarniane. W stratosferze silnym czynnikiem grzejącym jest absorpcja ultrafioletu przez molekuły ozonu. A ponieważ pod koniec okresu, z którego posiadamy dane koncentracja ozonu zaczęła ponownie rosnąć po zakazaniu używania freonów, stratosfera też zaczęła się ogrzewać (i to jedynie w rejonach polarnych ale tam zmiany koncentracji ozonu są największe – słynna Dziura Ozonowa; gdzie indziej dominuje oziębianie stratosfery – efekt uboczny efektu cieplarnianego, o którym tu jeszcze napiszę).
Wspomniany w notatce z Wyborczej artykuł Steiga i innych z 2009 r. (tym razem Nature) zastosował model klimatyczny aby uzupełnić dziury w pomiarach (mamy dane jedynie z kilku stacji pomiarowych na kontynencie większym niż Europa). Wynika z niego, że Zachodnia Antarktyda (czyli ta od strony Półwyspu Antarktycznego) ogrzewa się szybciej niż wynika z pracy Turner i inni a Wschodnia nieco wolniej (a jesienią nawet minimalnie się ochładza). Oczywiście tu i zawsze należy pamiętać, że reanaliza modelem klimatyczny to jednak nie to samo co wartości pochodzące bezpośrednio z obserwacji. Jest to jednak najlepsze czym dysponujemy tam gdzie są luki w danych pomiarowych.
Jak jest zatem z przyrostem lub ubytkiem masy lądolodu Antarktydy i z lodem morskim? Z lądolodem nie najlepiej. Pomimo, że w części Antarktydy Wschodniej większe opady śniegu (o czym więcej niżej) i niezmienna temperatura powodują łącznie przyrost masy lodu, na kontynencie jako całości jest coraz gorzej. Wiemy to z kilku niezależnych metod pomiarowych (pisałem o nich we wpisie o Grenlandii), że lodu na Antarktydzie coraz szybciej ubywa.
Powyższy rysunek pochodzi z Diagnozy Kopenhaskiej 2009 (raportu podsumowującego postęp w badaniach od ostatniego raportu IPCC) i przedstawia wartości szacowanych prędkości zmian masy lądolodu Antarktydy w funkcji czasu. Widać, że nie dość, że ubywa (w tempie zwiększającym światowy poziom morz o ponad pół milimetra rocznie), ale ubywa coraz szybciej.
A lód morski? Lodu morskiego (w sensie powierzchni bo o jego grubości niewiele wiemy) nieco przybywa. Problem w tym, że w przeciwieństwie do Arktyki, na południowej półkuli nie ma praktycznie wieloletniego lodu morskiego (nie mylić z przyczepionymi do lądu barierami lodowymi!). Wiatry rozpraszają go na wielkich obszarach trzech oceanów i w ciągu roku topnieje on prawie w 100%. Tak wiec jego powierzchnia jest raczej wskaźnikiem siły wiatrów (jak mocno go rozproszą zanim stopnieje) niż temperatury.
A wiatry zachodnie wokół Antarktydy są od kilkudziesięciu lat średnio coraz silniejsze. Te wiatry to dobrze znane żeglarzom ryczące czterdziestki oraz wyjące pięćdziesiątki. Miarą ich jest wskaźnik meteorologiczny SAM (Southern Annular Mode) czy jak niektórzy wolą AAO (Antarctic Oscillation) (odpowiednik AO czyli Arctic Oscillation na półkuli północnej). Wzrost siły cyrkulacji zachodniej wokół Antarktydy wiązany jest najczęściej, chociaż nie jest to pewne, z malejącą koncentracja ozonu w stratosferze. Jeśli to prawda, to można spodziewać się w najbliższych dekadach odwrócenia się tego trendu i słabszych wiatrów.
Dlaczego jest to istotne? Ponieważ coraz większa izolacja termiczna mas powietrza nad Antarktydą przez tę coraz silniejszą cyrkulację zachodnią uważana jest za przyczynę ochładzania się (a przynajmniej wolniejszego ocieplania się) tego kontynentu. I wbrew wspomnianej notce z Wyborczej nie jest to nowa idea. Pisali o tym Thompson i Solomon już w 2002 roku (znów w Science).
Na czym polega zatem nowość wspomnianego artykułu Liu i Curry 2010? Otóż potwierdza on przy pomocy wyników modelowania i metod statystycznych, że AAO jest dominującym czynnikiem determinującym rozkład temperatur w rejonie Antarktydy. Poniżej przedstawiony pierwsza empiryczna funkcja ortogonalna (EOF) związana właśnie z tym indeksem wyliczona z danych historycznych temperatur wody morskiej: po lewej z HadISST, po prawej z ERSST. Mówiąc bardziej popularnie, wykresy pokazują jak zmieniają się temperatury przy wzroście indeksu AAO: rosną w pewnej odległości wokół Antarktydy ale maleją tuż przy niej. Ale o jednostkę używaną na wykresie pytajcie autorów artykułu (stopień? odchylenie standardowe? jednostki umowne?). Natomiast wartości 28% i 29% oznaczają część całkowitej zmienności temperatur jaką da się wyjaśnić przy pomocy tej pierwszej funkcji ortogonalnej (czyli de facto przy pomocy indeksu AAO).
Artykuł pokazuje dalej, że wokół Antarktydy wraz z wzrostem indeksu AAO zwiększają się opady (dokładniej opady odjąć parowanie czyli z angielska P-E). Taki efekt widziany jest miedzy innymi w danych z pływaków Argo (o których pisałem we wpisie o ogrzewaniu się oceanów). Lżejsza słodsza woda na powierzchni oceanu utrudnia jego pionowe mieszanie izolując termiczne lód morski od cieplejszej wody poniżej. Może to również być jedną z przyczyn dlaczego dotychczas nie ubywa lodu morskiego wokół Antarktydy. Inną może być to, że większość tego dodatkowego opadu to śnieg o wysokim albedo, sprawiający, że lód morski mniej nagrzewa się od promieniowania słonecznego. Przypominam, że wszystkie trzy wspomniane tu i wyżej czynniki “ratujące” lód morski związane są z wysokimi wartościami indeksu AAO.
Dlatego istotny jest fakt, że wartości tego indeksu mogą spaść w wyniku przybywaniu koncentracji ozonu w stratosferze nad Antarktydą, w miarę zanikania spowodowanej przez nas Dziury Ozonowej. Jej odbudowa przewidywana jest na drugą połowę obecnego stulecia. Przejście AAO do wartości ujemnych spowoduje zatem silniejsze ocieplenie Antarktydy. Co gorsza autorzy artykułu twierdzą, że ich wyniki modelowania klimatu Antarktydy w XXI wieku pokazują, że efekt cieplarniany przewyższy działanie AAO. Poniżej pokazane są wymodelowane (model CCSM3, po lewej z wymuszeniami XX-wiecznymi, po prawej wymuszenia ze scenariusza A1B zmian wymuszeń w XXI wieku) zmiany temperatury – tym razem na pewno w stopniach Celsjusza – pomiędzy latami 1990-mi a 1950-mi (po lewej) i 2090-mi a 2000-mi (po prawej).
To znaczy jeszcze w tym wieku Antarktyda będzie cieplejsza niezależnie od wartości AAO dzięki działaniu gazów cieplarnianych. Ocean pod spodem może być nawet do 1,5 °C cieplejszy niż obecnie. Opady śniegu zaczną zamieniać się w opady deszczu nad oceanem wokół Antarktydy. Uważny czytelnik notatki w Wyborczej zauważy, że ten wniosek z artykułu stanowi jej najważniejszy (i względnie najlepiej przedstawiony) punkt.
Czy to jakaś sensacja? Raczej potwierdzenie tego co już podejrzewaliśmy. Ale sprawdzać takie rzeczy zawsze trzeba. Raporty IPCC nie biorą się z wyobraźni ich autorów, a z przeczytania setek artykułów takich jak Liu i Curry 2010.
[1] Liu J, & Curry JA (2010). Accelerated warming of the Southern Ocean and its impacts on the hydrological cycle and sea ice. Proceedings of the National Academy of Sciences of the United States of America, 107 (34), 14987-92 PMID: 20713736
[2] Przypominam, że poziom istotności jest prawdopodobieństwem, że trend jest “istotnie” (tzn. nie tylko w wyniku błędu statystycznego) różny od zera (dopisek: i oczywiście nie ma przeciwnego znaku). Jak zobaczymy dalej niektórzy stosują tu wartość dopełniającą się do 100% (np. 5% zamiast 95%).
Dopisek z 31.08.2010: Zwrócono mi uwagę, że powyższa definicja poziomu istotności nie jest dokładna, ale nie bardzo widzę jak ją napisać lepiej aby zachować charakter popularnonaukowy. Jeśli ktoś chce wiedzieć więcej na ten temat, radzę przeczytać poniżej komentarze użytkownika ztrewq i/albo następujące hasło angielskojęzycznej Wikipedii: http://en.wikipedia.org/wiki/P-value.
Dopisek z 2.09.2010: Ponieważ podręcznik Hans von Storch and Francis W. Zwiers “Statistical analysis in climatic research” podaje definicję praktycznie identyczna z moją, dodaję powyżej jedynie drobne wyjaśnienie w nawiasie (od początku chodziło mi o prawdopodobieństwo, że zmienna na wartość po swojej stronie wartości zero ale nie wiedziałem jak to krótko wyrazić).
Dopisek 5.09.2010: Po dogłębnym przejrzeniu literatury widzę że moja definicja istotności (significance) jest poprawna. Nie jest ona jednak oparta na koncepcji wartości-p (p-value) i testowaniu hipotezy zerowej (null hypothesis), a po prostu na zakresach ufności (confidence intervals). Identycznie jak ja definiują ją von Storch i Zwiers w swoim podręczniku dla klimatologów. Wcześniej jako (lepszą) alternatywę dla p-wartości i hipotez zerowych proponował ją Gill w 1999 roku w artykule “The insignificance of null hypothesis significance testing”, a idea pochodzi chyba z Gardner i Altman 1986 “Confidence intervals rather thanp-values: estimation rather than confidence testing” (to znaczy nic wcześniejszego nie znalazłem).
Autorzy ci (i wielu innych – patrz komentarze poniżej) uważają wartości-p za bardzo ułomny test czegokolwiek. Zakresy ufności w przeciwieństwie do wartości-p dają jakąś sensowna informację (prawdopodobieństwo że uzyskaliśmy daną wartość zamiast innej, na przykład zera nie jedynie w wyniku ślepego losu). W ogólnym przypadku wartość-p nie daje rzeczywiście tej wiedzy. Ale żeby było śmieszniej w prostym przypadku tu omawianym (prawdopodobieństwo że trend różni się od zera) oba podejścia są tożsame czyli ztrewq i doskonaleszare nie mieli racji podwójnie czepiając się mojej powyższej definicji nie dość, ze moja jest w ogólności lepsza to akurat w tym przypadku dają one te same wartości istotności). A jeśli co do tej równoważności nie wierzycie mi to posłuchajcie Gilla z w/w artykułu:
“In one sense confidence intervals and null hypothesis significance tests present the same information: a linear regression coefficient with a 1-α confidence interval bounded away from zero is functionally identical to a null hypothesis significance test rejecting as p≤α the hypothesis that the coefficient equals zero.”
Określenie “functionally identical” oznacza ni mniej ni więcej, że to w obu podejściach otrzymamy samą wartość istotności. A przecież to coś, co ma dla regresji liniowej wartość identyczna z wartością-p to dokładnie moja definicja istotności z przypisu [2]!
Hits: 354
“Przypominam, że poziom istotności jest prawdopodobieństwem, że trend jest „istotnie” (tzn. nie tylko w wyniku błędu statystycznego) różny od zera.”
Jak już się czepiać, to… Nope. Nie jest.
To, co napisałeś powyżej, to jeden z najczęstszych błędów w interpretacji wyników statystycznych. Poziom istotności nie jest prawdopodobieństwem, że hipoteza jest prawdziwa. Upraszczając, p jest prawdopodobieństwem, że obserwacja może wynikać z czystego przypadku. Ale nie jest prawdopodobieństem, że w rzeczywistości jest tak albo inaczej.
Wartość p to prawdopodobieństwo, że uzyskalibyśmy pewne wyniki przy założeniu hipotezy zerowej (a więc, np., braku wpływu pewnego czynnika). 1 – p (“95%”) to prawdopodobieństwo, że *nie uzyskalibyśmy* takich wyników gdyby trend tak naprawdę równy zero. Innymi słowy, p to prawdopodobieństwo popełnienia błędu I rodzaju (przyjęcia hipotezy alternatywnej “trend jest różny od zera”, gdy tymczasem prawdziwa jest hipoteza zerowa “trend nie jest różny od zera”).
Sformułowanie “prawdopodobieństwo, że trend jest istotny” sugeruje natomiast, że chodzi o błąd innego rodzaju — jakie jest prawdopodobieństwo, że mamy rację sądząc, że trend jest istotnie różny od zera. Niestety, w większości wypadków tego prawdopodobieństwa policzyć się łatwo nie da, ponieważ żeby to policzyć, musimy znać prawdopodobieństwo błędu II rodzaju: zakładając, że trend jest istotnie różny od zera, jakie jest prawdopodobieństwo, że otrzymamy takie, a nie inne wyniki. Ale żeby to policzyć, musielibyśmy wiedzieć (lub założyć), o ile (dokładnie) trend się w rzeczywistości różni od zera — a tego nie wiemy!
A tak już czepiając się na całego, to sformułowanie “prawdopodobieństwo że (coś, trend) jest istotnie różny od zera” dosłownie rzecz biorąc nie ma sensu, bo albo jest różny od zera, albo nie (albo hipoteza alternatywna jest prawdziwa, albo nie); prawdopodobieństwo jest albo 0, albo 1 (tyle że nie wiemy, i pozostaje nam oceniać prawdopodobieństwo naszych omyłek).
@ztrewq
Czy jesteś tym samym metrologiem, który zawsze się czepia terminologii czy innym?
A co do prawdopodobieństwa to może popraw hasło z polskiej Wikipedii, które od niego zaczyna definicje poziomu istotności:
http://pl.wikipedia.org/wiki/Poziom_istotno%C5%9Bci
Definicja ta powołuje się na podręcznik Mieczysława Sobczyka. A na co Ty się powołujesz?
Hurra, flejm na temat p-wartości 😉
“Czy jesteś tym samym metrologiem, który zawsze się czepia terminologii czy innym?”
Oj, January to zupełnie inne zwierzę, niż metrolog wymagający by wszyscy przyrodnicy stosowali się do stanardów NIST 😉
Ale ma rację, bo jeśli Turner pokazuje p-wartości (w procentach), to nie oznacza to że z prawdopodobieństwem (1-p) trend jest niezerowy (bo tego nie wiemy), tylko że gdyby hipoteza zerowa była prawdziwa (a zwyczajowo w trendologii H_0 to “trend wynosi 0”), to z prawdopodobieństwem p moglibyśmy otrzymać taki wynik (bo to możemy wyliczyć).
Tutaj jest dobra przeglądówka na temat “kontrowersji” związanych z testowaniem hipotez:
http://library.mpib-berlin.mpg.de/ft/gg/GG_Null_2004.pdf
Nie mam tu żadnego dobrego podręcznika statystyki (jestem na wakacjach) ale angielska wersja Wikipedii też nazywa p-wartość prawdopodobieństwem:
“The amount of evidence required to accept that an event is unlikely to have arisen by chance is known as the significance level or critical p-value: in traditional Fisherian statistical hypothesis testing, the p-value is the probability conditional on the null hypothesis of the observed data or more extreme data. If the obtained p-value is small then it can be said either the null hypothesis is false or an unusual event has occurred. It is worth stressing that p-values do not have any repeat sampling interpretation.“
OK. To hasło opisuje p-wartość lepiej:
http://en.wikipedia.org/wiki/P-value
Wygląda, że macie racje. Mogę poprawić przypis 2 ale nie bardzo wiem, jak to zrobić aby ktokolwiek poniżej doktoratu to zrozumiał.
Any ideas?
“angielska wersja Wikipedii też nazywa p-wartość prawdopodobieństwem”
No popatrz, zupełnie jak ja. Tylko że jest to prawdopodobieństwo czego innego, niż napisałeś.
“nie bardzo wiem, jak to zrobić aby ktokolwiek poniżej doktoratu to zrozumiał”
Napisać: “poziom istotności oznacza prawdopodobieństwo otrzymania takich wyników jeśli trend jest w rzeczywistości równy zeru”.
Piszę “oznacza”, ponieważ poziom istotności jest pewną arbitralną granicą wartości p, poniżej której uznajemy (arbitralnie) p za istotne statystycznie. Można też napisać:
“Wartość p jest równa prawdopodobieństwu otrzymania takich wyników jeśli trend jest w rzeczywistości równy zeru; jeśli p jest mniejsze niż 0.05, to mówimy, że wyniki są statystycznie istotne na poziomie 0.05”.
Albo:
“Jeśli wyniki są statystycznie istotne na poziomie 0.05, to znaczy, że uzyskanie ich jeśli trendu nie ma jest mało prawdopodobne — to prawdopodobieństwo jest mniejsze niż jeden na dwadzieścia”.
Ja wiem, że to jest brain-boggling, bo tak naprawdę mowa o prawdopodobieństwach warunkowych (p = P(O|H_0), gdzie O to obserwacje, a H_0 to hipoteza zerowa), a one są nieintuicyjne.
A czepialstwo niekoniecznie musi oznaczać krytykę całego artykułu — przeczytałem go z przyjemnością i wiele się z niego dowiedziałem, skomentowałem go też na swoim blogu. Ale mam emo na punkcie statystyki (i dobrze, bo mi za to płacą).
OK. Ale co zrobić z autorami (także omawianego artykułu), którzy dla określenia istotności używaja wartość 1-p, a dokładniej (1-p)*100%?
To znaczy jak taką wartość opisać popularnie? Chyba nie „tak zdefiniowany poziom istotności oznacza prawdopodobieństwo nieotrzymania takich wyników jeśli trend jest w rzeczywistości równy zeru”.
Chyba po prostu dodam tam odniesienie do Twoich komentarzy.
Tak też zrobiłem.
[…] anomaliaklimatyczna.com/2010/08/28/czy-antarktyda-zaprzecza-globalnemu-ociepleniu/ […]
Melduję, że przeczytałem zlinkowany przez doskonaleszare artykuł Gigerenzera i innych 2004, na 6 pytań ze strony 3 prawidłowo odpowiedziałem i ogólnie zgadzam się z konkluzjami (w skrócie, że testowanie istotności to zabobonny rytuał).
Ja sam w artykule naukowym liczyłem istotności tylko raz na wyraźnie żądanie recenzenta (było to w jednym ze sztandarowych czasopism AGU). W odpowiedzi na recenzje napisałem, że istotności mamy mniejsze niż 95% (czyli p>.5) ale to nie ma znaczenia gdyż przedstawiamy dane pomiarowe zmierzone in situ podczas gdy poprzednicy mieli tylko wyniki laboratoryjne przeniesione na prawdziwe środowisko przy pomocy wzorów o nieznanych błędach.
Artykuł przeszedł, a ja nabrałem niechęci do testowania hipotez zerowych, która jak widzę nie jest odosobniona. Cieszę się, że teraz dowiedziałem się o tym nieco więcej ale pozostaję przy swojej opinii (którą mogę teraz podbudować dobrym cytatem).
“Jedynie w stratosferze, która w obszarach polarnych zaczyna się niżej niż w naszych szerokościach, zanotowano ocieplenie.”
Litrówka?
@pdjakow
Literówka? Gdzie?
Ten wtręt (de facto o wysokości tropopauzy ale nie chciałem wprowadzać niepotrzebnie jeszcze jednego terminu) jest może niepotrzebny ale błędu merytorycznego nie ma, a literówki nie widzę.
http://www-das.uwyo.edu/~geerts/cwx/notes/chap01/tropo.html
Tak, masz rację, doczytałem dalej o co chodzi, ale nie miałem czasu napisać komentarza.
Wrócę jeszcze do poziomów istotności. Kiedy już mnie ztrewq i dokskonaleszare nawrócili na temat czego prawdopodobieństwem jest poziom istotności, wykoleił mnie na nowo mój ulubiony podręcznik z tej dziedziny, a mianowicie Hans von Storch and Francis W. Zwiers “Statistical analysis in climatic research”. Oto co piszą oni zaraz przy początku rozdziału o testowaniu hipotez zerowych (oznaczenia zmiennych zastąpiłem słowami aby nie musieć walczyć z greckimi literami i indeksami):
“Suppose we wish to test the null hypothesis that the mean of two random variables are equal. […] The null hypothesis is rejected at the 5% significance level when hypothesized value [for the mean difference] 0 is not covered by the 95% confidence interval”.
OK. Ale to przecież prawie dokładnie to co ja napisałem w tak krytykowanym przypisie [2]. Poziom istotności 5% (czyli dla autorów omawianego w tamtym przypisie artykułu 95%) oznacza, że wartość zero leży poza zakresem niepewności pomiaru z prawdopodobieństwem co najmniej 95%, inaczej mówiąc z ufnością 95%.
Nie będę zatem wnikał kto ma rację i czy Gigerenzer i inni oraz von Storch i Zwiers maja na pewno to samo na myśli używając tego pojęcia. W każdym razie jeśli te definicje dają wartości liczbowo tożsame to nie ma o czym dyskutować, a jeśli nie to ja używałem dotychczas definicji identycznej jak z podręcznika von Storcha i Zwiersa (bo przynajmniej wiem jak taka wartość wyliczyć).
Mam nadzieje, że kończy to ten temat. Ale nie bardzo dużą…
Wpis bardzo ciekawy, szkoda, że aż tak późno po poprzednim. Trochę to zniechęca do zaglądania.
@pohjois
Bylem dość zajęty w te wakacje. Ale obiecuję poprawę!
Sam ruszę jeszcze raz te nieszczęsne wartości-p (p-values) i testowanie hipotez zerowych (null hypothesis). Moja niechęć do nich była czysto intuicyjna ale im głębiej wkopuję się w literaturę tym bardziej widzę, że wielu statystyków ma podobne poglądy (chociaż znacznie lepiej podbudowane teoretycznie).
Oprócz artykułu zlinkowanego przez doskonaleszare mamy jeszcze dla przykładu Senn 2001 “Two cheers for p-values?“. Tytuł jest ironiczny co widać po samym już tylko abstrakcie:
“P-values are a practical success but a critical failure. Scientists the world over use them, but scarcely a statistician can be found to defend them. Bayesians in
particular find them ridiculous, but even the modern frequentist has little time for them. In this essay, I consider what, if anything, might be said in their favour.”
Mało? Jest jeszcze Hubbard & Lindsay 2008 “Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing“. Już sam tytuł wiele mówi ale oto abstrakt:
“Reporting p values from statistical significance tests is common in
psychology’s empirical literature. Sir Ronald Fisher saw the p value as playing
a useful role in knowledge development by acting as an ‘objective’measure of
inductive evidence against the null hypothesis. We review several reasons why
the p value is an unobjective and inadequate measure of evidence when statis-
tically testing hypotheses. A common theme throughout many of these reasons
is that p values exaggerate the evidence against H0. This, in turn, calls into
question the validity of much published work based on comparatively small,
including .05, p values. Indeed, if researchers were fully informed about the
limitations of the p value as a measure of evidence, this inferential index could
not possibly enjoy its ongoing ubiquity. Replication with extension research
focusing on sample statistics, effect sizes, and their confidence intervals is a
better vehicle for reliable knowledge development than using p values. Fisher
would also have agreed with the need for replication research”.
Ale jeszcze lepsze są dwa cytaty od których Hubbart i Lindsay zaczynają swój artykuł:
“The most important task before us in developing statistical science is to demolish the P-value culture, which has taken root to a frightening extent in many areas of both pure and applied science, and technology.”
(Nelder, 1999, p. 261)
“My personal view is that p-values should be relegated to the scrap heap and not considered by those who wish to think and act coherently.”
(Lindley, 1999, p. 75)
Zauważyłem, że oszczędziłem powyżej hipotezy zerowe. No to jeszcze cytat z Gill 1999 “The insignificance of null hypothesis significance testing“:
“The null hypothesis significance test should not even exist, much less thrive as the dominant method for presenting statistical evidence . . . It is intellectually bankrupt and deeply flawed on logical and practical grounds”
Chyba tym razem już naprawdę nie mam nic więcej do dodania.
Jednak mam. Gill 1999 we wspomnianym powyżej artykule – dostępnym zresztą w sieci http://www.artsci.wustl.edu/~jgill/papers/hypo.pdf – proponuje zastąpienie hipotez zerowych zakresami ufności (str. 17-18 pliku PDF czyli 662-663 w numeracji oryginalnej). Radzę przeczytać.
A to jest dokładnie to co stosują von Storch i Zwiers w ich podręczniku i co ja napisałem w moim wpisie (znów czysto intuicyjnie). I ja nie używałem w ogóle nazw “p-value” ani “null hypothesis”, a zostałem w nie niepotrzebnie wkręcony.
Czyli może błądziłem jak dziecko we mgle ale chyba jednak nie popełniłem błędu. Po prostu używałem innego podejścia do ustalania istotności 😉
[Skomentowałem to też w samym artykule]
Ciągle wydaje mi się, że nie masz racji, choć wynika to z tego, że wyrażamy się mało precyzyjnie.
Umówmy się, że gdy mówimy o “poziomie istotności”, mamy na myśli graniczną p-wartość, a “poziom ufności” oznacza graniczne prawdopodobieństwo dla którego liczymy przedziały ufności. Dodatkowo, umówmy się że będziemy tak wyliczać graniczny poziom ufności, by hipoteza zerowa znalazła się na granicy przedziału ufności.
Zdanie do którego się przyczepiliśmy brzmiało
“poziom istotności jest prawdopodobieństwem, że trend jest „istotnie” (tzn. nie tylko w wyniku błędu statystycznego) różny od zera”
Zgodnie z definicją poziom ufności mówi nam, jakie jest prawdopodobieństwo że prawdziwa wartość estymowanego parametru znajdzie się w wyliczonych przedziałach ufności. (Albo, żeby użyć definicji częstościowców – jeśli będziemy losować próbki z populacji i liczyć dla nich CI dla poziomu ufności P, to w P % przypadków obejmować one będą prawdziwą wartość parametru.)
Ale z tego, że prawdziwa wartość parametru leży, z 95% prawdopodobieństwem, wewnątrz CI, nie wynika że wartości które pozostają poza CI (w tym hipoteza zerowa), pozostają tam także z 95% prawdopodobieństwem, jeśli będziemy powtarzać konstrukcję CI. To prawdopodobieństwo, jeśli będziemy powtarzać cały proces wielokrotnie, wynosi około 50%, tzn. średnio taka sama liczba innych przedziałów ufności będzie się rozciągać nad i pod H_0 wyliczoną dla jednego przypadku.
Dlatego ja bym napisał, w przypisie do pracy Vaughana, że “poziom ufności jest prawdopodobieństwem, że trend ma wartość mieszczącą się pomiędzy górnymi i dolnymi widełkami przedziałów ufności”.
Turner natomiast na pewno podawał poziomy istotności, czyli p-wartości dla trendów, więc tutaj Januarego i moje oryginalne zastrzeżenia pozostają w mocy.
@doskonaleszare
Otóż absolutnie nie możemy się umówić, że gdy mówimy o istotności to mówimy jakiejkolwiek p-wartości.
Przytoczyłem dość literatury, żeby pokazać, ze nie wszyscy stosują tę definicję. W dodatku wielu twierdzi, że definicja oparta o wartość ufności jest lepsza. Chociażby dlatego, że z niej można powiedzieć z jakim prawdopodobieństwem hipoteza zerowa jest nieprawdziwa (o ile to jest w ogóle potrzebne – bo to też jest kwestionowane, np. przez Gilla).
Najwyraźniej w klimatologii wielu musi używać podejścia “ufnościowego”. W końcu podręcznik statystyki dla klimatologów jaki cytowałem (von Storch i Zwiers) właśnie taka metodę liczenia poziomu istotności podaje (na przykład całe rozważanie o zależności istotności od ilości danych str. 102-103 oparte jest o przedziały zaufania), chociaż używa też pojęcia hipotezy zerowej i alternatywnej. I ja go używałem nieświadom w ogóle, że nie jest to jedyna definicja, a zapewniam Cię że sam jej nie wymyśliłem.
Mówiąc krótko ten spór polega na nieporozumieniu. Stosujemy różne definicje “istotności” i mam wrażenie że w literaturze też są obie stosowane bez wyjaśnienia jak liczono istotność. W artykule, którego dotyczy mój przypis [2] (czyli Vaughan i inni) nie ma na ten temat ani słowa.
Z tym, że przypomnę iż dla liczenia trendu (czyli korelacji liniowej) obie definicje dają tę samą wartość istotności (cytat na to z Gilla podałem pod przypisem [2]) co może zwiększać błędne przekonanie (które i ja podzielałem), że istnieje tylko jedna definicja istotności.
Dodam jeszcze jedno ładne źródło mówiące, że testowanie istotności jest w ogóle szkodliwe i polecające przedziały ufności wśród innych metod, jakim powinny być zastąpione. Jest to J. Scott Armstrong, 2007, “Significance tests harm progress in forecasting“, International Journal of Forecasting 23 (2007) 321–327
Dla zachęty fragment abstraktu:
“I briefly summarize prior research showing that tests of statistical significance are improperly used even in leading scholarly journals. Attempts to educate researchers to avoid pitfalls have had little success. Even when done properly, however, statistical significance tests are of no value. Other researchers have discussed reasons for these failures. I was unable to find empirical evidence to support the use of significance tests under any conditions. I then show that tests of statistical significance are harmful to the development of scientific knowledge because they distract the researcher from the use of proper methods.”
I jeszcze dłuższy fragment z konkluzji:
“Tests of statistical significance carry dangers when
one is doing research related to the advancement of
scientific knowledge about forecasting. I demonstrated
that this was true for two areas in which I have sum-
marized knowledge: forecasting and persuasion. The use
of statistical significance would only have led to con-
fusion. These findings are in agreement with Schmidt
and Hunter’s (1997, p. 37) conclusion that, “Statistical
significance testing retards the growth of scientific
knowledge; it never makes a scientific contribution.”
Practitioners can take immediate action. They should
ignore tests of statistical significance. For in-house
reports, they should delete tests of statistical significance.
When writing for books and research reports,
researchers should omit mention of tests of statistical
significance. When writing for journals, researchers
should seek ways to reduce the potential harm of
reporting significance tests. They should also omit the
word significance because findings that reject the null
hypothesis are not significant in the everyday use of
the term, and those that reject it are not insignificant.
To analyze and communicate findings from empirical
studies, researchers should use effect sizes, confidence
intervals, replications/extensions, and meta-analyses.”
To chyba najbardziej radykalny z cytowanych przeze mnie artykułów.
Jeśli ktoś chce cały artykuł (lub inne które cytuję w tym wątku), proszę do mnie napisać na adres ze strony “Kontakt” tego blogu.
“Przytoczyłem dość literatury, żeby pokazać, ze nie wszyscy stosują tę definicję.”
Wiem, ale nawet von Storch pisze (4.1.10):
The term significance level sometimes causes confusion. Some people, particularly climatologists, interpret the ‘significance level’ as ‘one minus the probability of rejecting a correct null hypothesis.’With this convention large probabilities, for example, 99%, are associated with statistical significance. This usage is contrary to the convention used in the statistical literature.
Here we follow the statistical convention and define the ‘significance level’ as the probability of incorrectly rejecting the null hypothesis. A smaller significance level implies more evidence that H0 is false. If H0 is rejected with a significance level of 1%, then there is 1 chance in 100 of obtaining the result by accident when the null hypothesis is true.
I jeszcze na koniec bezpośredni dowód na istnienie dwóch definicji istotności:
http://www.sportsci.org/resource/stats/pvalues.html
“What is a P Value? It’s difficult, this one. P is short for probability: the probability of getting something more extreme than your result, when there is no effect in the population. Bizarre! And what’s this got to do with statistical significance? Let’s see.
I’ve already defined statistical significance in terms of confidence intervals. The other approach to statistical significance–the one that involves p values–is a bit convoluted. First you assume there is no effect in the population. Then you see if the value you get for the effect in your sample is the sort of value you would expect for no effect in the population. If the value you get is unlikely for no effect, you conclude there is an effect, and you say the result is “statistically significant”.”
Mogę też przytoczyć parę statystycznych hanbooków, które istotność definiują wyłącznie za pomocą przedziałów ufności. Np.
http://onlinestatbook.com/chapter9/sign_conf.html
czy
http://www.itl.nist.gov/div898/handbook/eda/section3/eda352.htm
albo
http://www.dimensionresearch.com/resources/calculators/conf_prop.html
Oczywiście możecie jeszcze raz powiedzieć, że liczenie poziomu istotności z przedziału ufności to błędne podejście, a ja na to odpowiem po raz kolejny, że to oraz wartość-p dwie różne definicje. I w ten sposób wyczerpiemy dyskusję bo dżentelmeni o definicjach nie dyskutują.
@doskonaleszare
Re: von Storch.
Tu Ci muszę przyznać trochę racji. Wydaje się, że on też jest w tej kwestii lekko skonfundowany. Gdy opisuje testowanie hipotez zerowych (6.2.1, str. 100) używa wyraźnie terminologii związanej z wartością-p (chociaż nigdy nie używa tej nazwy). Ale zaraz po tym daje przykłady, z których wynika, że liczy istotność bezpośrednio z ufności. A nawet ja już wiem, ze to w ogólnym przypadku nie to samo.
Ale właśnie o to mi chodzi: są dwie definicje istotności ale ludzie je stosujący nie zdają sobie z tego sprawy.
@pdjakow
“Litrówka?”
Żeby grzać z litrówki, trzeba być prawdziwym twardzielem.
@pohjois
“Wpis bardzo ciekawy, szkoda, że aż tak późno po poprzednim. Trochę to zniechęca do zaglądania”
Korzystaj z RSS readera, wygodne rozwiązanie – nie trzeba zaglądać do każdego blogu z osobna, tylko samo melduje, na którym są nowe wpisy.
Jeżeli po tych wszystkich dyskusjach i lekturach nadal uważasz, że przedział ufności daje informację typu “prawdopodobieństwo że uzyskaliśmy daną wartość zamiast innej, na przykład zera nie jedynie w wyniku ślepego losu”, no to sorry, ale ja daję za wygraną. Z tekstem Gilla i cytowanymi przez Ciebie materiałami się oczywiście zgadzam. Sam przed chwilą zacytowałem Gardnera i Altmana na blogu doskonaleszare, i jeszcze dorzuciłem innych cytatów.
A to, czego nie rozumiesz, i czego ja się czepiałem, to jest różnica między “prawdopodobieństwo, że prawdziwa wartość leży w przedziale ufności, wynosi mniej niż 0.05” (bo to możesz obliczyć tylko w statystyce bajezjańskiej), a między “zakładając pewną wartość parametru, prawdopodobieństwo uzyskania takich a nie innych wyników wynosi mniej niż 0.05”. Zacytuję tu słynny podręcznik Sokala i Rohlfa:
To jest to, czego się czepiam; a nie to, czy frejmwork Neumanna-Pearsona jest dobry, czy nie, i czy lepiej używać CI, czy wartości p z testu statystycznego. Weź jeszcze sprawdź dyskusję pod tą notką.
Oczywiście, z poprawką na CI liczone Bayesem (w bajezjańskiej statystyce używa się tricku, żeby potraktować parametry jako zmienne losowe). Tak czy owak, moim zdaniem mylisz co jest zmienną losową, a co parametrem.
Nope, gdybyś tak napisał, to bym się nie czepiał. W powyższym tekście odrzucamy hipotezę zerową, ponieważ uzyskany CI jest mało prawdopodobny, jeśli ją założymy. Ale to nie znaczy, że hipoteza zerowa jest mało prawdopodobna przy uzyskanym CI.
Ktoś daje Ci do ręki kostkę. Mówi: “kostka jest uczciwa albo sfałszowana tak, żeby rzucać same szóstki; ale Ci nie powiem, jak jest, musisz sam się przekonać”. Rzucasz dziesięć razy. Otrzymujesz dziesięć szóstek. Wynik jest mało prawdopodobny przy założeniu, że kostka jest uczciwa, zatem uznajesz, że jest sfałszowana.
Ale: to nie znaczy, że kostka jest uczciwa z małym prawdopodobieństwem, bo albo jest uczciwa, albo nie. Osoba, która dała Ci kostkę, wie jak jest naprawdę, więc mówienie o tym, jakie jest prawdopodobieństwo tego, czy kostka jest uczciwa, nie ma sensu. A właśnie coś takiego napisałeś w przypisie [2], i tego się czepiałem.
Hipoteza zerowa ma prawdopodobieństwo jeden albo zero, albo jest prawdziwa, albo nie. Nie ma “pomiędzy”, nie ma “0.05”. Zmienną losową jest przedział ufności, a nie hipotetyczny parametr wynikający z hipotezy zerowej.
Co prawda, jest tak gdy mówimy o klasycznej statystyce (czyli statystyce frekwentystów, albo, jak pisze doskonaleszare, częstościowców). Bajezjanie odwracają sprawę, mówiąc: to wyniki są dane i niezmienne, a parametr rozkładu jest zmienną losową. Ale to trochę inna sprawa, i nie dotyczy przypisu [2].
@ztrewq
Jeżeli po tych wszystkich dyskusjach i lekturach nadal uważasz, że przedział ufności daje informację typu „prawdopodobieństwo że uzyskaliśmy daną wartość zamiast innej, na przykład zera nie jedynie w wyniku ślepego losu”, no to sorry, ale ja daję za wygraną.
Dla korelacji liniowej? Bo o tym przypadku tak naprawdę dyskutujemy. Myślę, że jest przynajmniej dobre przybliżenie.
A jeśli jest błąd to przynajmniej (jak w przypadku Cloppera-Pearsona) w dobrą stronę (patrz np. Agresti Coull 1998 “Approximate is Better than Exact”)
Zacznę od tego: zgadzam się (i nie było to z mojej strony nigdy przedmiotem dyskusji), z cytowanymi przez Ciebie pracami; zgadzam się, że lepiej podać CI niż tylko robić test na to, czy r jest istotnie różna od zera, ponieważ dostarcza on lepszej informacji o wielkości efektu i poza-statystycznej istotności wyniku; wartości p są niewystarczające w ostatecznej ocenie wyników.
Zgadzam się więc (i od dawna propaguję ten pogląd u studentów), że sama pearsonowsko-neumannowska metodologia testowania hipotez ma pewne ograniczenia, z których sobie trzeba zdawać sprawę, i w zwiazku z tym należy wychodzić poza proste podanie wartości p.
Równie dobrze możesz się więc powoływać na Coulla co na prace o mączniakach, bo w równym stopniu dotyczą tego, czego ja się czepiam. Racz proszę przeczytać następujący komentarz.
Zatem jeszcze jedna próba. Może ja po prostu nie rozumiem Twojej definicji (?) bo jest za bardzo “popularnonaukowa”, operująca rozmytymi pojęciami typu “wartość” (parametr? zmienna losowa? próbka? szacowanie?) albo “ślepy los” (hipoteza zerowa?).
Przyznając więc Ci the benefit of the doubt, proszę, byś krótko, ale w ścisły sposób napisał,
1) jak brzmi “Twoja definicja”
2) czym się różni od mojej definicji
3) wskazać ściśle gdzie konkretnie się według Ciebie mylę — i wyjaśnić dlaczego.
Bardzo proszę, żebyś w punkcie (3) wskazał jakieś cytaty, bo za cholerę nie mogę się dopatrzeć, gdzie to, co piszę, stoi w najmniejszej sprzeczności z tym, co piszą cytowani przez Ciebie autorzy (w końcu sam te prace znam i cytuję od lat).
OK. Wycofuję się z nazywania tego “poziomem istotności, ani nadawać temu wartość nazywana liczbą p bo po co się kłócić?
Ale nadal będę stosował poziomy ufności zamiast poziomów istotności, hipotez zerowych itp. I nie bedę samotny.
Jestem w końcu z wykształcenia fizykiem. Moja metoda to przecież znana w szczególności fizykom metoda “sigm”.
Jeśli mówię, że moja zmierzona czy wyliczona wartość jest o trzy odchylenia standardowe (sigmy) od jakiejś innej wartości to nie testuję żadnej hipotezy zerowej, nie podaję żadnego prawdopodobieństwa, bo przecież tak naprawdę nie wiem jak daleko mój rozkład – jeśli w ogóle mamy jakiś rozkład czegokolwiek [1] – jest od rozkładu normalnego.
[1] Ta uwaga pochodzi z czytania artykułu, o którym jest mój dzisiejszy wpis. Oni używają wartości niepewności, o których raz od niechcenia wspominają (i to poza artykułem w suplemencie), że to σ. I czytelnik nie ma pojęcia co oni rozumieją przez odchylenie standardowe tak skomplikowanej metody opartej o danych z dwóch rodzajów przyrządów. Moim zdaniem wcale nie jest to oczywiste.
Dodam, że powyższe oznacza, że nie będę używał aż tak radykalnej definicji istotności, o której piszą w Wikipedii w haśle hmmm… Statistical significance:
In some fields, for example nuclear and particle physics, it is common to express statistical significance in units of “σ” (sigma), the standard deviation of a Gaussian distribution. A statistical significance of “nσ” can be converted into a value of α via use of the error function:

chociaż mniej więcej o to mi poprzednio chodziło.
No i git (zakładając, że pisząc “poziomy ufności” masz na myśli “przedziały ufności”), będziesz robił to, do czego ja namawiam swoich kolegów w pracy i studentów. Nie poprzestawać na testach, podawać CI i wielkość efektu.
Z tym, że pozwolę sobie przypomnieć jedno pytanie: jeśli CI, to jakie? Centrowane? Symetryczne? Minimalne? Jednostronne? Neymannowskie MSU? Że nie wspomnę o bajezjańskich? A dlaczego takie, a nie siakie?
A tak prosto to już nie ma, niestety, dlatego że zazwyczaj nie masz szans na bezpośrednie zmierzenie odchylenia standardowego (σ), i musisz korzystać z metod szacowania, żeby policzyć oszacowane, znane też jako “s”. A tutaj już dochodzimy do sporych rozmiarów półki z literaturą dotyczącą estymacji… i założeń, które się przy tej estymacji robi.
Natomiast jeśli chodzi o testy statystyczne w ogólności — czasem, uwierz mi, nie ma dla nich alternatywy. Konkretnie np. tam, gdzie analiza statystyczna jest częścią procesu decyzyjnego i nie stanowi ostatniego etapu obliczeń w pracy naukowej. Można wówczas ratować się dodając oprócz wartości p np. inne kryteria, ale zazwyczaj bez testu się nie obejdzie.
To ja dodam jeszcze swoje 3gr. Rozumiem “krucjatę” ztrewq`a w temacie prawidłowego definiowania pojęć z zakresu statystyki. Wg mnie są one systematycznie zniekształcane przez pewnego rodzaju lenistwo myślowe związane z określeniem czego to dotyczy definiowane prawdopodobieństwo. Weźmy definicję przedziału ufności z polskiej Wikipedii:
jest to prawdopodobieństwo, że rzeczywista wartość parametru θ w populacji znajduje się w wyznaczonym przez nas przedziale ufności
Takie rozumienie można uznać albo za nieprecyzyjne, albo błędne, może bowiem oznaczać co: prawdopodobieństwo, że rzeczywista wartość przyjmie pewna wartość?
Tymczasem prawidłowe tłumaczenie powinno jasno określać, że prawdopodobieństwo dotyczy wyznaczonego przez nas przedziału ufności a nie tej nieznanej, ale istniejącej obiektywnie rzeczywistej wartości.
Oto moim zdaniem prawidłowe tłumaczenie z bardzo dobrego poradnika komercyjnego firny StatSoft :
Przedział ufności określa zakres wartości co do którego spodziewamy się, że zawiera on z pewnym prawdopodobieństwem “prawdziwą” (tzn. w populacji) wartość .
Masz rację — ja dla porządku zacytuje jeszcze następne zdanie:
To jest typowe — w fizyce zdaje mi się często próbuje się zmierzyć jakąś konkretną, niezmienną wartość (bo ja wiem, stałą grawitacji), i pomiar obciążony jest błędem pomiarowym. Dlatego można tak łatwo zakładać normalność i na przemian używać σ oraz s (parametr vs oszacowanie parametru).
W biologii taka idealna wartość rzadko istnieje, za to bardzo często są sytuacje, że jest zmienność biologiczna (o najprzeróżniejszych rozkładach, czasem normalnych, czasem nie), na którą mogą się nakładać błędy pomiaru. Rutynowo mówi się o “biological replicates” (np. różne osobniki) i “technical replicates” (powtórne pomiary). Rozróżnienie między “sigma” a “es” jest fundamentalne, takoż zdawanie sobie sprawy z założenia normalności (średnie zawsze dążą do rozkładu normalnego, na szczęście).
@zrtewq
No i git (zakładając, że pisząc „poziomy ufności” masz na myśli „przedziały ufności”)
Za to przepraszam, ale ja to sobie za każdym razem i tak muszę tłumaczyć z angielskiego. Jeden z przypisów parę wpisów temu był po prostu ściągawką dla mnie samego jak jest po polsku significance & confidence. Nigdy się tego nie uczyłem po polsku (o czym już tu pisałem).
Poza tym wiem, że nie raz nie da się tej “sigmy” policzyć. Przecież wspomniałem o “sigmach” z Wu et al. Oni liczyli kumulatywny ubytek masy dla każdego rejonu tylko raz. Jaki rozkład zatem mieli? Nie da się do tego podejść z klasyczną definicją wariancji czy odchylenia standardowego. (Ostrzegam po fakcie, że trochę było w moich dwóch ostatnich komentarzach ironii).
A czy będę musiał liczyć p? Powyżej opisałem jedyny raz gdy to robiłem, zresztą z dość zabawnym skutkiem (artykuł wyszedł mimo, że p było ponad 0,1). Jeśli mnie nie przymuszą, nie zamierzam tego doświadczenia powtarzać. Teraz dzięki Wam mam niezły zbiór cytatów do odpowiedzi na podobną recenzję. Już same tytuły artykułów, jakie mogę zacytować po prostu powalają.
Jeszcze do ztrwq:
The use of σ implicitly assumes a Gaussian distribution of measurement values.
Dalibóg, wiem. Przecież właśnie dlatego pisałem, że nie będę wyliczał z sigm prawdopodobieństwa. I fizycy wysokich energii tez tego nie robią (wreszcie dzieki tej dyskusji rozumiem dlaczego).
Poprawka: wiem, że wyliczanie z sigmy prawdopodobieństwa zakłada rozkład normalny. Nie zgodzę się natomiast, że istnienie odchylenia standardowego jest zależne od zaistnienia rozkładu normalnego. Można go policzyć przecież nawet dla wartości binarnych (0 lub 1) gdzie w ogóle raczej trudno mówić o rozkładzie.
@globalnysmietnik
Zgadzam się. Jako praktyk dodam jeszcze, że wszystko o czym mówimy dotyczy błędów przypadkowych. W praktyce mamy jeszcze nieznane błędy systematyczne, które powodują, że wartość zmierzona może być oddalona od prawdziwej o nieprzyzwoicie dużą liczbę sigm. Myślę, że to się zdarzyło Wu i kompanom przez nieszczęśliwe dla ich metody rozmieszczenie stacji GPS na obrzeżach badanych obszarów.
PS. I niech nikt mi tu nie wyskakuje z twierdzeniami, że nie istnieje nic takiego jak prawdziwa wartość. Ja jestem fizykiem, a nie filozofem i na żadną dekonstrukcję obiektywnej rzeczywistości nie pozwolę!
No oczywiście że nie, bo odchylenie standardowe to po prostu nieujemny pierwiastek z drugiego momentu rozkładu losowego, znanego też pod nazwą wariancji (czyli E( (E(X) – X)² ) . Istnienie tego momentu wynika z definicji wartości oczekiwanej oraz definicji n-tego momentu.
To Ty napisałeś, że sigmy często nie da się policzyć. Ja nic takiego nie twierdzę, przypomniałem tylko, że errf() zakłada normalność, to wszystko. CI można liczyć (z definicji) dla najróżniejszych rozkładów.
Właśnie, że prosto — bo wtedy masz po prostu rozkład dwumianowy, który ma całe mnóstwo przesympatycznych właściwości, na przykład można łatwo w głowie policzyć średnią (n razy p, duh) i wariancję (np(1-p)).
Marchewie słowo “ironia” kojarzyło się wyłącznie z aronią.
Jaka jest prawdziwa wartość długości ciała (w centymentrach) w populacji ludzkiej?
P.S. Poprawka: to prawda, że czasami nie da się policzyć sigma; tak jest w przypadku rozkładu Cauchy’ego, który nie ma średniej, nie ma wariancji ani żadnych wyższych momentów i ogólnie jest chorym tworem opętanego umysłu, co jest o tyle denerwujące, że iloraz dwóch zmiennych o rozkładzie normalnym ma właśnie rozkład Cauchy’ego. Ale tu jakby opuszczamy nauki eksperymentalne i zagłębiamy się w matematykę.
Gorzej: tak jest też w części przypadków statystyki t Studenta. Nie ma lekko!
@ arctic
“I niech nikt mi tu nie wyskakuje z twierdzeniami, że nie istnieje nic takiego jak prawdziwa wartość. Ja jestem fizykiem, a nie filozofem i na żadną dekonstrukcję obiektywnej rzeczywistości nie pozwolę!.
Przeciez globalnysmietnik napisal: ” … a nie tej nieznanej, ale istniejącej obiektywnie rzeczywistej wartości.”
Prawda jest, ze istnieje prawdziwa wartosc wielkoscie mierzonej, ale i prawda jest, ze jej wartosci dokladnie nie mozna wyznaczyc.
@ztrewq & zosiasamosia
To, że nie wiemy jaka jest prawdziwa wartość nie oznacza, że ona nie istnieje.
@ztrewq
Tak. Ja pisałem, że odchylenia standardowego nie zawsze da się wyznaczyć. Ale też wyraźnie napisałem o jaki kontekst mi chodzi: przypadek, gdy ma się tylko jedną wartość, pochodząca w dodatku nie z pomiaru a z modelu. Ja nie wiem jak w tym wypadku wyznaczyć odchylenie standardowe (w przeciwieństwie do np. błędu maksymalnego) i szczerze mówiąc chętnie się dowiem.
Po przemyśleniu i przeszukaniu Internetu chyba wiem jak to się robi. Trzeba potraktować to co mnie nauczono nazywać błędem maksymalnym pomiaru, a co teraz jest wg. ISO niepewnością typu B tak jakby to był błąd przypadkowy (niepewność typu A) i ewentualnie przeliczyć zakładany przedział zaufania na odpowiednia ilość odchyleń standardowych (jak nie podany to traktujemy błąd maksymalny jako poziom ufności 98% – czyli błąd maksymalny to dokładnie trzy sigmy) .
Kto nie wierzy niech poczyta na przykład tutaj:
http://pml.nist.gov/cuu/Uncertainty/typeb.html
oraz w wersji polskiej tutaj:
http://www.if.pw.edu.pl/~labfiz1p/cmsimple2_4/1instrukcje_pdf/RB.pdf
Jak to się ma do precyzyjnej teorii statystycznej? Oczywiście nijak ale “pomiarowcy” też ludzie i do sigmy mają prawo nawet gdy mają tylko pojedynczy pomiar (albo co gorsza pojedynczą wartość wyznaczoną pośrednią metodą zawierającą i pomiary i modelowanie).
Konkluzja: Wartości sigm z Wu et al musiały być wyznaczone równie wątpliwą metodą.
@ztrewq
“Jaka jest prawdziwa wartość długości ciała (w centymentrach) w populacji ludzkiej?”
Problem w tym, ze po pierwsze nie mozna zmierzyc prawdziwej długości ciała pojedynczego czlowieka.
@ arctic
“a nie wiem jak w tym wypadku wyznaczyć odchylenie standardowe (w przeciwieństwie do np. błędu maksymalnego) i szczerze mówiąc chętnie się dowiem.”
W przypadku pojedynczego pomiaru trudno mowic o niepewnosci typu a (przypadkowej), ale pozostaje (jak zawsze ) niepewnoscc typu b (przyrzadowa).
Czy dziedzine Pana dzialalnosci badawczej mozna zaliczyc do zwiazanej zakresem z IUPAP- International Union of Pure and Applied Physics?
@zosiasamosia
Droga Zosiu, jak łatwo zauważyć powyżej, sam już do tego doszedłem.
@ arctic
“Trzeba potraktować to co mnie nauczono nazywać błędem maksymalnym pomiaru, a co teraz jest wg. ISO niepewnością typu B tak jakby to był błąd przypadkowy (niepewność typu A)”
Wtedy kiedy Pana uczona to jak zrozumialem sredni Gierek. Od tego czasu swiat sie nieco zmienil. Od lat 90, a wiec to juz od pewnego czasu , wprowadzono niepewnosci a i b. One wystepuja w kazdym procesie pomiarowym.
Elementarnym bledem jest Pana stwierdzenie : “niepewnością typu B tak jakby to był błąd przypadkowy (niepewność typu A)”.
Nie wiem jak Pan mogl dojsc, po tak dlugich deliberacjach, do tak idiotycznego wniosku.
Jedne jest pewne. Przy takim braku wiedzy, nie zaliczyl by Pan zadnego laboratorium z fizyki, mim, ze to Pan je obecznie zalicza.
Droga Zosiu. Gdybyś czytała linki, które zamieściłam, widziałabyś, że przynajmniej na Politechnice Warszawskiej bym zaliczył.
Cytat z końca strony 2:
“W ostatnich latach coraz częściej do definiowania, oceny i zapisu niepewności pomiarowych stosuje się normy zalecane przez ISO (International Organization for Standarization). Jednakże w Laboratorium Fizyki 1 pozostajemy przy tradycyjnych nazwach niepewności pomiarowych stosowanych przez dziesięciolecia i oddających sens opisywanych pojęć: błąd nazywany w standardzie ISO niepewnością typu A będziemy określać jako błąd średni kwadratowy wartości średniej, natomiast niepewność typu B jako błąd maksymalny pojedynczego pomiaru.”
Ostatnie zdanie jest podkreślone w oryginale.
@ arctic
“Droga Zosiu, jak łatwo zauważyć powyżej, sam już do tego doszedłem.”
Po pierwsze: w momencie pisania nie bylo jeszcze tego tekstu.
po drugie: to do czego Pan doszedl ma sie do prawdy, tak jak wyzej napisano.
Naprawde prosze. Zanim, nastepnym razem, zabierzesz glos w sprawie bledow i niepewnosci przeczytaj ze zrozumieniem: International Standard Organisation.: Guide to Expression of Uncertainty in Measurement.
Dostepne jest juz od 15 lat.
Elementarnym bledem jest Pana stwierdzenie : „niepewnością typu B tak jakby to był błąd przypadkowy (niepewność typu A)”.
To z drugiego linku, jaki załączyłem. Cała zlinkowana strona jest dokładnie o tym. Parę stron tej instrukcji I pracowni z PW zresztą też (o stosowaniu poziomu ufności 98% przy małej ilości pomiarów jest na stronie 15).
Jeśli zamierza Pan/Pani mnie dalej obrażać bezpodstawnie, nawet nie zapoznając się z tym co linkuję, proszę się liczyć z kasowaniem Pana/Pani komentarzy.
To już druga żółta kartka dla Pana/Pani bo zakładam na podstawie powyższego, że jest Pan/Pani tym samym metrologiem, którego już raz ostrzegałem.
PS. Jeden Pana/Pani komentarz obrażający pracowników PW już skasowałem
Po pierwsze: w momencie pisania nie bylo jeszcze tego tekstu.
Nieprawda. Niech Pan/Pani przynajmniej nie zaprzecza faktom, kóre łatwo sprawdzić przy pomocy porównania czasów wysłania komentarzy. (Dopisek: a w dodatku pisał to pan/Pani w odpowiedzi na mój komentarz zawierający te właśnie linki)
po drugie: to do czego Pan doszedl ma sie do prawdy, tak jak wyzej napisano.
Naprawde prosze. Zanim, nastepnym razem, zabierzesz glos w sprawie bledow i niepewnosci przeczytaj ze zrozumieniem: International Standard Organisation.: Guide to Expression of Uncertainty in Measurement.
Dostepne jest juz od 15 lat.
Abstrahując od faktu, że moim zdaniem dobrze streściłem to co załączyłem, do w/w dokumentu nie mam dostępu. Jak wszystkie normy ISO jest on płatny i w dodatku dość drogi.