Czy Antarktyda zaprzecza globalnemu ociepleniu?

Często słyszymy, że naukowcy lubią dobierać sobie te tematy, które im pasują. Piszą więc o Arktyce, gdzie temperatury są coraz większe, a lodu morskiego jest coraz mniej. Natomiast przemilczają Antarktydę, gdzie jest dokładnie na odwrót. Ale czy naprawdę? Przyjrzyjmy się zatem temu co dzieje się na Antarktydzie.

Pretekstem niech będzie nowy artykuł naukowy (znów z nielubianego przeze mnie PNAS): Liu i Curry 2010 [1]. O artykule tym napisała nawet Gazeta Wyborcza, chociaż autor notatki o nim chyba niezbyt uważnie go czytał (a może nie znał jego tła). Ale o tym niżej. O Antarktydzie rzeczywiście do niedawna sądzono, że większość jej się oziębia. Uważano też że przybywa na niej masy lądolodu (tak pisał jeszcze w 1972 Jacobs w czasopiśmie Science). Ponieważ obszary polarne powinny się ogrzewać szybciej niż przeciętnie cała Ziemia, wyglądało to na problem dla klimatologii. Słowem kluczowym jest tu jednak “do niedawna” bo nasza wiedza o tych problemach ostatnio znacznie się zwiększyła. W dodatku to “niedawno” to już dobrych parę lat. Przede wszystkim są części Antarktydy, które ogrzewają się i to szybciej niż przeciętna dla naszej planety (dokładnie tak jak przewiduje teoria). Jest to przede wszystkim “najbardziej wystająca” część Antarktydy, czyli Półwysep Antarktyczny. Powyższy rysunek z artykułu Vaughan i inni 2001 (też z Science) przedstawia wartości trendów zmian temperatury na dekadę czyli 10 lat (wraz z niepewnościami i poziomem istotności [2] trendu) dla stacji pomiarowych na Półwyspie Antarktycznym (podana jest także ilość lat  pomiarów). Widać, że mimo dużych błędów statystycznych, mierzony wzrost temperatury powietrza jest znacznie szybszy niż średnia dla całej Ziemi (czyli w ostatnich dekadach ok. 1,5 C/stulecie). Ten szybki wzrost temperatury jest przyczyną głośnego w mediach (a nawet filmach fabularnych)  rozpadu barier lodowych wokół Półwyspu, a zarazem jest on spodziewanym skutek znanej od dziesięcioleci “polarnej akceleracji” ocieplenia, czyli dodatnich sprzężeń zwrotnych (patrz wpis “Czy rozumiemy ocieplanie się Arktyki?“).

Czy jednak podobnie ociepla się reszta Antarktydy. Otóż nie. Do niedawna sądzono nawet, że wnętrze kontynentu się oziębia. Dopiero od około 5 lat (a nie od roku jak napisano we wspomnianej notatce z Wyborczej) wiemy, że wnętrze to się także ociepla, jednak znacznie wolniej niż większość planety.

W artykule Turnera i innych z marca 2006 roku (też Science) porównano dane z sondowań atmosfery balonami meteorologicznymi na stacjach polarnych.  Wskazywały one (jak widać powyżej), że praktycznie na wszystkich stacjach, z których mamy dane zanotowano ocieplenie w okresie od 1971 ro 2003 r. Słupki oznaczają wartość średnioroczna i dla czterech pór roku zaczynając od jesieni (czyli okresu marzec-maj bo to półkula południowa). Kolory słupków oznaczają poziom istotności (Turner stosuje odwrotną terminologię niż Vaughan, tzn 1% u niego to szansa 99% że trend jest istotnie niezerowy).

Dolna część wykresu to wyliczony średni profil zmiany temperatury (stopnie na 10 lat) w funkcji wysokości nad  powierzchnia morza – wyrażoną jak przystało na meteorologów wartością ciśnienia powietrza (średnio ok. 1013 hPa to powierzchnia morza a wartość zero to szczyt atmosfery). Wykres ten wskazuje na ocieplanie się nie tylko w pobliżu powierzchni lodu ale w całej troposferze.

Jedynie w stratosferze, która nawiasem mówiąc w obszarach polarnych zaczyna się niżej niż w naszych szerokościach,  zanotowano ocieplenie. I w dodatku dokładnie wiemy dlaczego. To też nasza robota ale w tym wypadku nie chodzi o gazy cieplarniane. W stratosferze silnym czynnikiem grzejącym jest absorpcja ultrafioletu przez molekuły ozonu. A ponieważ pod koniec okresu, z którego posiadamy dane koncentracja ozonu zaczęła ponownie rosnąć po zakazaniu używania freonów, stratosfera też zaczęła się ogrzewać (i to jedynie w rejonach polarnych ale tam zmiany koncentracji ozonu są największe – słynna Dziura Ozonowa; gdzie indziej dominuje oziębianie stratosfery – efekt uboczny efektu cieplarnianego, o którym tu jeszcze napiszę).

Wspomniany w notatce z Wyborczej artykuł Steiga i innych z 2009 r. (tym razem Nature) zastosował model klimatyczny aby uzupełnić dziury w pomiarach (mamy dane jedynie z kilku stacji pomiarowych na kontynencie większym niż Europa). Wynika z niego, że Zachodnia Antarktyda (czyli ta od strony Półwyspu Antarktycznego) ogrzewa się szybciej niż wynika z pracy Turner i inni a Wschodnia nieco wolniej (a jesienią nawet minimalnie się ochładza). Oczywiście tu i zawsze należy pamiętać, że reanaliza modelem klimatyczny to jednak nie to samo co wartości pochodzące bezpośrednio z obserwacji. Jest to jednak najlepsze czym dysponujemy tam gdzie są luki w danych pomiarowych.

Jak jest zatem z przyrostem lub ubytkiem masy lądolodu Antarktydy i z lodem morskim? Z lądolodem nie najlepiej. Pomimo, że w części Antarktydy Wschodniej większe opady śniegu (o czym więcej niżej) i niezmienna temperatura powodują łącznie przyrost masy lodu, na kontynencie jako całości jest coraz gorzej. Wiemy to z kilku niezależnych metod pomiarowych (pisałem o nich we wpisie o Grenlandii), że lodu na Antarktydzie coraz szybciej ubywa.

Powyższy rysunek pochodzi z Diagnozy Kopenhaskiej 2009 (raportu podsumowującego postęp w badaniach od ostatniego raportu IPCC) i przedstawia wartości szacowanych prędkości zmian masy lądolodu Antarktydy w funkcji czasu. Widać, że nie dość, że ubywa (w tempie zwiększającym światowy poziom morz o ponad pół milimetra rocznie), ale ubywa coraz szybciej.

A lód morski? Lodu morskiego (w sensie powierzchni bo o jego grubości niewiele wiemy) nieco przybywa. Problem w tym, że w przeciwieństwie do Arktyki, na południowej półkuli nie ma praktycznie wieloletniego lodu morskiego (nie mylić z przyczepionymi do lądu barierami lodowymi!).  Wiatry rozpraszają go na wielkich obszarach trzech oceanów i w ciągu roku topnieje on prawie w 100%.  Tak wiec jego powierzchnia jest raczej wskaźnikiem siły wiatrów (jak mocno go rozproszą zanim stopnieje) niż temperatury.

A wiatry zachodnie wokół Antarktydy są od kilkudziesięciu lat średnio coraz silniejsze. Te wiatry to dobrze znane żeglarzom ryczące czterdziestki oraz wyjące pięćdziesiątki. Miarą ich jest wskaźnik meteorologiczny SAM (Southern Annular Mode) czy jak niektórzy wolą AAO (Antarctic Oscillation) (odpowiednik AO czyli  Arctic Oscillation na półkuli północnej).  Wzrost siły cyrkulacji zachodniej wokół Antarktydy wiązany jest najczęściej, chociaż nie jest to pewne, z malejącą koncentracja ozonu w stratosferze. Jeśli to prawda, to można spodziewać się w najbliższych dekadach odwrócenia się tego trendu i słabszych wiatrów.

Dlaczego jest to istotne? Ponieważ coraz większa izolacja termiczna mas powietrza nad Antarktydą przez tę coraz silniejszą cyrkulację zachodnią uważana jest za przyczynę ochładzania się (a przynajmniej wolniejszego ocieplania się) tego kontynentu. I wbrew wspomnianej notce z Wyborczej nie jest to nowa idea. Pisali o tym Thompson i Solomon już w 2002 roku (znów w Science).

Na czym polega zatem nowość wspomnianego artykułu Liu i Curry 2010? Otóż potwierdza on przy pomocy wyników modelowania i metod statystycznych, że AAO jest dominującym czynnikiem determinującym rozkład temperatur w rejonie Antarktydy. Poniżej przedstawiony pierwsza empiryczna funkcja ortogonalna (EOF) związana właśnie z tym indeksem wyliczona z danych historycznych temperatur wody morskiej: po lewej z HadISST, po prawej z  ERSST.  Mówiąc bardziej  popularnie, wykresy pokazują jak zmieniają się temperatury przy wzroście indeksu AAO: rosną w pewnej odległości wokół Antarktydy ale maleją tuż przy niej. Ale o jednostkę używaną na wykresie pytajcie autorów artykułu (stopień? odchylenie standardowe? jednostki umowne?). Natomiast wartości 28% i 29% oznaczają część całkowitej zmienności temperatur jaką da się wyjaśnić przy pomocy tej pierwszej funkcji ortogonalnej (czyli de facto przy pomocy indeksu AAO).

Artykuł pokazuje dalej, że wokół Antarktydy wraz z wzrostem indeksu AAO zwiększają się opady (dokładniej opady odjąć parowanie czyli z angielska  P-E). Taki efekt widziany jest miedzy innymi w danych z pływaków Argo (o których pisałem we wpisie o ogrzewaniu się oceanów). Lżejsza słodsza woda na powierzchni oceanu utrudnia jego pionowe mieszanie izolując termiczne lód morski od cieplejszej wody poniżej. Może to również być jedną z przyczyn dlaczego dotychczas nie ubywa lodu morskiego wokół Antarktydy. Inną może być to, że większość tego dodatkowego opadu to śnieg o wysokim albedo, sprawiający, że lód morski mniej nagrzewa się od promieniowania słonecznego.  Przypominam, że wszystkie trzy wspomniane tu i wyżej czynniki “ratujące” lód morski związane są z wysokimi wartościami indeksu AAO.

Dlatego istotny jest fakt, że wartości tego indeksu mogą spaść w wyniku przybywaniu koncentracji ozonu w stratosferze nad Antarktydą, w miarę zanikania spowodowanej przez nas Dziury Ozonowej. Jej odbudowa przewidywana jest na drugą połowę obecnego stulecia. Przejście AAO do wartości ujemnych spowoduje zatem silniejsze ocieplenie Antarktydy. Co gorsza autorzy artykułu twierdzą, że ich wyniki modelowania klimatu Antarktydy w XXI wieku pokazują, że efekt cieplarniany przewyższy działanie AAO. Poniżej pokazane są wymodelowane (model CCSM3, po lewej z wymuszeniami XX-wiecznymi, po prawej wymuszenia ze scenariusza A1B zmian wymuszeń w XXI wieku) zmiany temperatury – tym razem na pewno w stopniach Celsjusza –  pomiędzy latami 1990-mi a 1950-mi (po lewej) i 2090-mi a 2000-mi (po prawej).

To znaczy jeszcze w tym wieku Antarktyda będzie cieplejsza niezależnie od wartości AAO dzięki działaniu gazów cieplarnianych. Ocean pod spodem może być nawet do 1,5 °C cieplejszy niż obecnie. Opady  śniegu zaczną zamieniać się w opady deszczu nad oceanem wokół Antarktydy. Uważny czytelnik notatki w Wyborczej zauważy, że ten wniosek z artykułu stanowi jej najważniejszy (i względnie najlepiej przedstawiony) punkt.

Czy to jakaś sensacja? Raczej potwierdzenie tego co już podejrzewaliśmy. Ale sprawdzać takie rzeczy zawsze trzeba. Raporty IPCC nie biorą się z wyobraźni ich autorów,  a z przeczytania setek artykułów takich jak Liu i Curry 2010.

[1] Liu J, & Curry JA (2010). Accelerated warming of the Southern Ocean and its impacts on the hydrological cycle and sea ice. Proceedings of the National Academy of Sciences of the United States of America, 107 (34), 14987-92 PMID: 20713736

[2] Przypominam, że poziom istotności jest prawdopodobieństwem, że trend jest “istotnie” (tzn. nie tylko w wyniku błędu statystycznego) różny od zera (dopisek: i oczywiście nie ma przeciwnego znaku). Jak zobaczymy dalej niektórzy stosują tu wartość dopełniającą się do 100% (np. 5% zamiast 95%).

Dopisek z 31.08.2010: Zwrócono mi uwagę, że powyższa definicja poziomu istotności nie jest dokładna, ale nie bardzo widzę jak ją napisać lepiej aby zachować charakter popularnonaukowy. Jeśli ktoś chce wiedzieć więcej na ten temat, radzę przeczytać poniżej komentarze użytkownika ztrewq i/albo następujące hasło angielskojęzycznej Wikipedii: http://en.wikipedia.org/wiki/P-value.

Dopisek z 2.09.2010: Ponieważ podręcznik Hans von Storch and Francis W. Zwiers “Statistical analysis in climatic research” podaje definicję praktycznie identyczna z moją, dodaję powyżej jedynie drobne wyjaśnienie w nawiasie (od początku chodziło mi o prawdopodobieństwo, że zmienna na wartość po swojej stronie wartości zero ale nie wiedziałem jak to krótko wyrazić).

Dopisek 5.09.2010: Po dogłębnym przejrzeniu literatury widzę że moja definicja istotności (significance) jest poprawna. Nie jest ona jednak oparta na koncepcji wartości-p (p-value) i testowaniu hipotezy zerowej (null hypothesis), a po prostu na zakresach ufności (confidence intervals). Identycznie jak ja definiują ją von Storch i Zwiers w swoim podręczniku dla klimatologów. Wcześniej jako (lepszą) alternatywę dla p-wartości i hipotez zerowych proponował ją Gill w 1999 roku w artykule “The insignificance of null hypothesis significance testing”, a idea pochodzi chyba z Gardner i Altman 1986 “Confidence intervals rather thanp-values: estimation rather than confidence testing” (to znaczy nic wcześniejszego nie znalazłem).

Autorzy ci (i wielu innych – patrz komentarze poniżej) uważają wartości-p za bardzo ułomny test czegokolwiek. Zakresy ufności w przeciwieństwie do wartości-p dają jakąś sensowna informację (prawdopodobieństwo że uzyskaliśmy daną wartość zamiast innej, na przykład zera nie jedynie w wyniku ślepego losu). W ogólnym przypadku wartość-p nie daje rzeczywiście tej wiedzy. Ale żeby było śmieszniej w prostym przypadku tu omawianym (prawdopodobieństwo że trend różni się od zera) oba podejścia są tożsame czyli ztrewq i doskonaleszare nie mieli racji podwójnie czepiając się mojej powyższej definicji nie dość, ze moja jest w ogólności lepsza to akurat w tym przypadku dają one te same wartości istotności). A jeśli co do tej równoważności nie wierzycie mi to posłuchajcie Gilla z w/w artykułu:

“In one sense confidence intervals and null hypothesis significance tests present the same information: a linear regression coefficient with a 1-α confidence interval bounded away from zero is functionally identical to a null hypothesis significance test rejecting as p≤α the hypothesis that the coefficient equals zero.”

Określenie “functionally identical” oznacza ni mniej ni więcej, że to w obu podejściach otrzymamy samą wartość istotności. A przecież to coś,  co ma dla regresji liniowej wartość identyczna z wartością-p to dokładnie moja definicja istotności z przypisu [2]!

Hits: 354

Subscribe
Notify of
guest

This site uses Akismet to reduce spam. Learn how your comment data is processed.

101 Comments
Inline Feedbacks
View all comments
ztrewq
13 years ago

“Przypominam, że poziom istotności jest prawdopodobieństwem, że trend jest „istotnie” (tzn. nie tylko w wyniku błędu statystycznego) różny od zera.”

Jak już się czepiać, to… Nope. Nie jest.

To, co napisałeś powyżej, to jeden z najczęstszych błędów w interpretacji wyników statystycznych. Poziom istotności nie jest prawdopodobieństwem, że hipoteza jest prawdziwa. Upraszczając, p jest prawdopodobieństwem, że obserwacja może wynikać z czystego przypadku. Ale nie jest prawdopodobieństem, że w rzeczywistości jest tak albo inaczej.

Wartość p to prawdopodobieństwo, że uzyskalibyśmy pewne wyniki przy założeniu hipotezy zerowej (a więc, np., braku wpływu pewnego czynnika). 1 – p (“95%”) to prawdopodobieństwo, że *nie uzyskalibyśmy* takich wyników gdyby trend tak naprawdę równy zero. Innymi słowy, p to prawdopodobieństwo popełnienia błędu I rodzaju (przyjęcia hipotezy alternatywnej “trend jest różny od zera”, gdy tymczasem prawdziwa jest hipoteza zerowa “trend nie jest różny od zera”).

Sformułowanie “prawdopodobieństwo, że trend jest istotny” sugeruje natomiast, że chodzi o błąd innego rodzaju — jakie jest prawdopodobieństwo, że mamy rację sądząc, że trend jest istotnie różny od zera. Niestety, w większości wypadków tego prawdopodobieństwa policzyć się łatwo nie da, ponieważ żeby to policzyć, musimy znać prawdopodobieństwo błędu II rodzaju: zakładając, że trend jest istotnie różny od zera, jakie jest prawdopodobieństwo, że otrzymamy takie, a nie inne wyniki. Ale żeby to policzyć, musielibyśmy wiedzieć (lub założyć), o ile (dokładnie) trend się w rzeczywistości różni od zera — a tego nie wiemy!

A tak już czepiając się na całego, to sformułowanie “prawdopodobieństwo że (coś, trend) jest istotnie różny od zera” dosłownie rzecz biorąc nie ma sensu, bo albo jest różny od zera, albo nie (albo hipoteza alternatywna jest prawdziwa, albo nie); prawdopodobieństwo jest albo 0, albo 1 (tyle że nie wiemy, i pozostaje nam oceniać prawdopodobieństwo naszych omyłek).

doskonaleszare
13 years ago

Hurra, flejm na temat p-wartości 😉

“Czy jesteś tym samym metrologiem, który zawsze się czepia terminologii czy innym?”

Oj, January to zupełnie inne zwierzę, niż metrolog wymagający by wszyscy przyrodnicy stosowali się do stanardów NIST 😉

Ale ma rację, bo jeśli Turner pokazuje p-wartości (w procentach), to nie oznacza to że z prawdopodobieństwem (1-p) trend jest niezerowy (bo tego nie wiemy), tylko że gdyby hipoteza zerowa była prawdziwa (a zwyczajowo w trendologii H_0 to “trend wynosi 0”), to z prawdopodobieństwem p moglibyśmy otrzymać taki wynik (bo to możemy wyliczyć).

Tutaj jest dobra przeglądówka na temat “kontrowersji” związanych z testowaniem hipotez:

http://library.mpib-berlin.mpg.de/ft/gg/GG_Null_2004.pdf

ztrewq
13 years ago

“angielska wersja Wikipedii też nazywa p-wartość prawdopodobieństwem”

No popatrz, zupełnie jak ja. Tylko że jest to prawdopodobieństwo czego innego, niż napisałeś.

“nie bardzo wiem, jak to zrobić aby ktokolwiek poniżej doktoratu to zrozumiał”

Napisać: “poziom istotności oznacza prawdopodobieństwo otrzymania takich wyników jeśli trend jest w rzeczywistości równy zeru”.

Piszę “oznacza”, ponieważ poziom istotności jest pewną arbitralną granicą wartości p, poniżej której uznajemy (arbitralnie) p za istotne statystycznie. Można też napisać:

“Wartość p jest równa prawdopodobieństwu otrzymania takich wyników jeśli trend jest w rzeczywistości równy zeru; jeśli p jest mniejsze niż 0.05, to mówimy, że wyniki są statystycznie istotne na poziomie 0.05”.

Albo:

“Jeśli wyniki są statystycznie istotne na poziomie 0.05, to znaczy, że uzyskanie ich jeśli trendu nie ma jest mało prawdopodobne — to prawdopodobieństwo jest mniejsze niż jeden na dwadzieścia”.

Ja wiem, że to jest brain-boggling, bo tak naprawdę mowa o prawdopodobieństwach warunkowych (p = P(O|H_0), gdzie O to obserwacje, a H_0 to hipoteza zerowa), a one są nieintuicyjne.

A czepialstwo niekoniecznie musi oznaczać krytykę całego artykułu — przeczytałem go z przyjemnością i wiele się z niego dowiedziałem, skomentowałem go też na swoim blogu. Ale mam emo na punkcie statystyki (i dobrze, bo mi za to płacą).

trackback

[…] anomaliaklimatyczna.com/2010/08/28/czy-antarktyda-zaprzecza-globalnemu-ociepleniu/ […]

pdjakow
13 years ago

“Jedynie w stratosferze, która w obszarach polarnych zaczyna się niżej niż w naszych szerokościach, zanotowano ocieplenie.”

Litrówka?

pdjakow
13 years ago

Tak, masz rację, doczytałem dalej o co chodzi, ale nie miałem czasu napisać komentarza.

pohjois
pohjois
13 years ago

Wpis bardzo ciekawy, szkoda, że aż tak późno po poprzednim. Trochę to zniechęca do zaglądania.

doskonaleszare
13 years ago

Ciągle wydaje mi się, że nie masz racji, choć wynika to z tego, że wyrażamy się mało precyzyjnie.

Umówmy się, że gdy mówimy o “poziomie istotności”, mamy na myśli graniczną p-wartość, a “poziom ufności” oznacza graniczne prawdopodobieństwo dla którego liczymy przedziały ufności. Dodatkowo, umówmy się że będziemy tak wyliczać graniczny poziom ufności, by hipoteza zerowa znalazła się na granicy przedziału ufności.

Zdanie do którego się przyczepiliśmy brzmiało

“poziom istotności jest prawdopodobieństwem, że trend jest „istotnie” (tzn. nie tylko w wyniku błędu statystycznego) różny od zera”

Zgodnie z definicją poziom ufności mówi nam, jakie jest prawdopodobieństwo że prawdziwa wartość estymowanego parametru znajdzie się w wyliczonych przedziałach ufności. (Albo, żeby użyć definicji częstościowców – jeśli będziemy losować próbki z populacji i liczyć dla nich CI dla poziomu ufności P, to w P % przypadków obejmować one będą prawdziwą wartość parametru.)

Ale z tego, że prawdziwa wartość parametru leży, z 95% prawdopodobieństwem, wewnątrz CI, nie wynika że wartości które pozostają poza CI (w tym hipoteza zerowa), pozostają tam także z 95% prawdopodobieństwem, jeśli będziemy powtarzać konstrukcję CI. To prawdopodobieństwo, jeśli będziemy powtarzać cały proces wielokrotnie, wynosi około 50%, tzn. średnio taka sama liczba innych przedziałów ufności będzie się rozciągać nad i pod H_0 wyliczoną dla jednego przypadku.

Dlatego ja bym napisał, w przypisie do pracy Vaughana, że “poziom ufności jest prawdopodobieństwem, że trend ma wartość mieszczącą się pomiędzy górnymi i dolnymi widełkami przedziałów ufności”.

Turner natomiast na pewno podawał poziomy istotności, czyli p-wartości dla trendów, więc tutaj Januarego i moje oryginalne zastrzeżenia pozostają w mocy.

doskonaleszare
13 years ago

“Przytoczyłem dość literatury, żeby pokazać, ze nie wszyscy stosują tę definicję.”

Wiem, ale nawet von Storch pisze (4.1.10):

The term significance level sometimes causes confusion. Some people, particularly climatologists, interpret the ‘significance level’ as ‘one minus the probability of rejecting a correct null hypothesis.’With this convention large probabilities, for example, 99%, are associated with statistical significance. This usage is contrary to the convention used in the statistical literature.
Here we follow the statistical convention and define the ‘significance level’ as the probability of incorrectly rejecting the null hypothesis. A smaller significance level implies more evidence that H0 is false. If H0 is rejected with a significance level of 1%, then there is 1 chance in 100 of obtaining the result by accident when the null hypothesis is true.

Gammon No.82
Gammon No.82
13 years ago

@pdjakow
“Litrówka?”

Żeby grzać z litrówki, trzeba być prawdziwym twardzielem.

Semafor
Semafor
13 years ago

@pohjois

“Wpis bardzo ciekawy, szkoda, że aż tak późno po poprzednim. Trochę to zniechęca do zaglądania”

Korzystaj z RSS readera, wygodne rozwiązanie – nie trzeba zaglądać do każdego blogu z osobna, tylko samo melduje, na którym są nowe wpisy.

ztrewq
13 years ago

ztrewq i doskonaleszare nie mieli racji podwójnie czepiając się mojej powyższej definicji nie dość, ze moja jest w ogólności lepsza to akurat w tym przypadku dają one te same wartości istotności).

Jeżeli po tych wszystkich dyskusjach i lekturach nadal uważasz, że przedział ufności daje informację typu “prawdopodobieństwo że uzyskaliśmy daną wartość zamiast innej, na przykład zera nie jedynie w wyniku ślepego losu”, no to sorry, ale ja daję za wygraną. Z tekstem Gilla i cytowanymi przez Ciebie materiałami się oczywiście zgadzam. Sam przed chwilą zacytowałem Gardnera i Altmana na blogu doskonaleszare, i jeszcze dorzuciłem innych cytatów.

A to, czego nie rozumiesz, i czego ja się czepiałem, to jest różnica między “prawdopodobieństwo, że prawdziwa wartość leży w przedziale ufności, wynosi mniej niż 0.05” (bo to możesz obliczyć tylko w statystyce bajezjańskiej), a między “zakładając pewną wartość parametru, prawdopodobieństwo uzyskania takich a nie innych wyników wynosi mniej niż 0.05”. Zacytuję tu słynny podręcznik Sokala i Rohlfa:

We must guard against a common mistake in expressing the meaning of the confidence limits of a statistic. When we have set lower and upper limits (L 1 and L z , respectively) to a statistic, we imply that the probability that this interval covers the mean is, for example, 0.95, or, expressed in another way, that on the average 95 out of 100 confidence intervals similarly obtained would cover the mean. We cannot state that there is a probability of 0.95 that the true mean is contained within a given pair of confidence limits, although this may seem to be saying the same thing. The latter statement is incorrect because the true mean is a parameter; hence it is a fixed value, and it is therefore either inside the interval or outside it. It cannot be inside the given interval 95% of the time. It is important,
therefore, to learn the correct statement and meaning of confidence limits.

To jest to, czego się czepiam; a nie to, czy frejmwork Neumanna-Pearsona jest dobry, czy nie, i czy lepiej używać CI, czy wartości p z testu statystycznego. Weź jeszcze sprawdź dyskusję pod notką.

Oczywiście, z poprawką na CI liczone Bayesem (w bajezjańskiej statystyce używa się tricku, żeby potraktować parametry jako zmienne losowe). Tak czy owak, moim zdaniem mylisz co jest zmienną losową, a co parametrem.

ztrewq
13 years ago

„Suppose we wish to test the null hypothesis that the mean of two random variables are equal. […] The null hypothesis is rejected at the 5% significance level when hypothesized value [for the mean difference] 0 is not covered by the 95% confidence interval”.

OK. Ale to przecież prawie dokładnie to co ja napisałem w tak krytykowanym przypisie

Nope, gdybyś tak napisał, to bym się nie czepiał. W powyższym tekście odrzucamy hipotezę zerową, ponieważ uzyskany CI jest mało prawdopodobny, jeśli ją założymy. Ale to nie znaczy, że hipoteza zerowa jest mało prawdopodobna przy uzyskanym CI.

Ktoś daje Ci do ręki kostkę. Mówi: “kostka jest uczciwa albo sfałszowana tak, żeby rzucać same szóstki; ale Ci nie powiem, jak jest, musisz sam się przekonać”. Rzucasz dziesięć razy. Otrzymujesz dziesięć szóstek. Wynik jest mało prawdopodobny przy założeniu, że kostka jest uczciwa, zatem uznajesz, że jest sfałszowana.

Ale: to nie znaczy, że kostka jest uczciwa z małym prawdopodobieństwem, bo albo jest uczciwa, albo nie. Osoba, która dała Ci kostkę, wie jak jest naprawdę, więc mówienie o tym, jakie jest prawdopodobieństwo tego, czy kostka jest uczciwa, nie ma sensu. A właśnie coś takiego napisałeś w przypisie [2], i tego się czepiałem.

Hipoteza zerowa ma prawdopodobieństwo jeden albo zero, albo jest prawdziwa, albo nie. Nie ma “pomiędzy”, nie ma “0.05”. Zmienną losową jest przedział ufności, a nie hipotetyczny parametr wynikający z hipotezy zerowej.

Co prawda, jest tak gdy mówimy o klasycznej statystyce (czyli statystyce frekwentystów, albo, jak pisze doskonaleszare, częstościowców). Bajezjanie odwracają sprawę, mówiąc: to wyniki są dane i niezmienne, a parametr rozkładu jest zmienną losową. Ale to trochę inna sprawa, i nie dotyczy przypisu [2].

ztrewq
13 years ago

Zacznę od tego: zgadzam się (i nie było to z mojej strony nigdy przedmiotem dyskusji), z cytowanymi przez Ciebie pracami; zgadzam się, że lepiej podać CI niż tylko robić test na to, czy r jest istotnie różna od zera, ponieważ dostarcza on lepszej informacji o wielkości efektu i poza-statystycznej istotności wyniku; wartości p są niewystarczające w ostatecznej ocenie wyników.

Zgadzam się więc (i od dawna propaguję ten pogląd u studentów), że sama pearsonowsko-neumannowska metodologia testowania hipotez ma pewne ograniczenia, z których sobie trzeba zdawać sprawę, i w zwiazku z tym należy wychodzić poza proste podanie wartości p.

Równie dobrze możesz się więc powoływać na Coulla co na prace o mączniakach, bo w równym stopniu dotyczą tego, czego ja się czepiam. Racz proszę przeczytać następujący komentarz.

Zatem jeszcze jedna próba. Może ja po prostu nie rozumiem Twojej definicji (?) bo jest za bardzo “popularnonaukowa”, operująca rozmytymi pojęciami typu “wartość” (parametr? zmienna losowa? próbka? szacowanie?) albo “ślepy los” (hipoteza zerowa?).

Przyznając więc Ci the benefit of the doubt, proszę, byś krótko, ale w ścisły sposób napisał,

1) jak brzmi “Twoja definicja”
2) czym się różni od mojej definicji
3) wskazać ściśle gdzie konkretnie się według Ciebie mylę — i wyjaśnić dlaczego.

Bardzo proszę, żebyś w punkcie (3) wskazał jakieś cytaty, bo za cholerę nie mogę się dopatrzeć, gdzie to, co piszę, stoi w najmniejszej sprzeczności z tym, co piszą cytowani przez Ciebie autorzy (w końcu sam te prace znam i cytuję od lat).

ztrewq
13 years ago

Ale nadal będę stosował poziomy ufności zamiast poziomów istotności, hipotez zerowych itp. I nie bedę samotny.

No i git (zakładając, że pisząc “poziomy ufności” masz na myśli “przedziały ufności”), będziesz robił to, do czego ja namawiam swoich kolegów w pracy i studentów. Nie poprzestawać na testach, podawać CI i wielkość efektu.

Z tym, że pozwolę sobie przypomnieć jedno pytanie: jeśli CI, to jakie? Centrowane? Symetryczne? Minimalne? Jednostronne? Neymannowskie MSU? Że nie wspomnę o bajezjańskich? A dlaczego takie, a nie siakie?

Jeśli mówię, że moja zmierzona czy wyliczona wartość jest o trzy odchylenia standardowe (sigmy) od jakiejś innej wartości to nie testuję żadnej hipotezy zerowej, nie podaję żadnego prawdopodobieństwa, bo przecież tak naprawdę nie wiem jak daleko mój rozkład – jeśli w ogóle mamy jakiś rozkład czegokolwiek [1] – jest od rozkładu normalnego.

A tak prosto to już nie ma, niestety, dlatego że zazwyczaj nie masz szans na bezpośrednie zmierzenie odchylenia standardowego (σ), i musisz korzystać z metod szacowania, żeby policzyć oszacowane, znane też jako “s”. A tutaj już dochodzimy do sporych rozmiarów półki z literaturą dotyczącą estymacji… i założeń, które się przy tej estymacji robi.

Natomiast jeśli chodzi o testy statystyczne w ogólności — czasem, uwierz mi, nie ma dla nich alternatywy. Konkretnie np. tam, gdzie analiza statystyczna jest częścią procesu decyzyjnego i nie stanowi ostatniego etapu obliczeń w pracy naukowej. Można wówczas ratować się dodając oprócz wartości p np. inne kryteria, ale zazwyczaj bez testu się nie obejdzie.

globalnysmietnik
13 years ago

To ja dodam jeszcze swoje 3gr. Rozumiem “krucjatę” ztrewq`a w temacie prawidłowego definiowania pojęć z zakresu statystyki. Wg mnie są one systematycznie zniekształcane przez pewnego rodzaju lenistwo myślowe związane z określeniem czego to dotyczy definiowane prawdopodobieństwo. Weźmy definicję przedziału ufności z polskiej Wikipedii:

jest to prawdopodobieństwo, że rzeczywista wartość parametru θ w populacji znajduje się w wyznaczonym przez nas przedziale ufności

Takie rozumienie można uznać albo za nieprecyzyjne, albo błędne, może bowiem oznaczać co: prawdopodobieństwo, że rzeczywista wartość przyjmie pewna wartość?

Tymczasem prawidłowe tłumaczenie powinno jasno określać, że prawdopodobieństwo dotyczy wyznaczonego przez nas przedziału ufności a nie tej nieznanej, ale istniejącej obiektywnie rzeczywistej wartości.

Oto moim zdaniem prawidłowe tłumaczenie z bardzo dobrego poradnika komercyjnego firny StatSoft :
Przedział ufności określa zakres wartości co do którego spodziewamy się, że zawiera on z pewnym prawdopodobieństwem “prawdziwą” (tzn. w populacji) wartość .

ztrewq
13 years ago

Dodam, że powyższe oznacza, że nie będę używał aż tak radykalnej definicji istotności, o której piszą w Wikipedii w haśle hmmm… Statistical significance:
(…)
chociaż mniej więcej o to mi poprzednio chodziło.

Masz rację — ja dla porządku zacytuje jeszcze następne zdanie:

The use of σ implicitly assumes a Gaussian distribution of measurement values.

To jest typowe — w fizyce zdaje mi się często próbuje się zmierzyć jakąś konkretną, niezmienną wartość (bo ja wiem, stałą grawitacji), i pomiar obciążony jest błędem pomiarowym. Dlatego można tak łatwo zakładać normalność i na przemian używać σ oraz s (parametr vs oszacowanie parametru).

W biologii taka idealna wartość rzadko istnieje, za to bardzo często są sytuacje, że jest zmienność biologiczna (o najprzeróżniejszych rozkładach, czasem normalnych, czasem nie), na którą mogą się nakładać błędy pomiaru. Rutynowo mówi się o “biological replicates” (np. różne osobniki) i “technical replicates” (powtórne pomiary). Rozróżnienie między “sigma” a “es” jest fundamentalne, takoż zdawanie sobie sprawy z założenia normalności (średnie zawsze dążą do rozkładu normalnego, na szczęście).

ztrewq
13 years ago

Nie zgodzę się natomiast, że istnienie odchylenia standardowego jest zależne od zaistnienia rozkładu normalnego

No oczywiście że nie, bo odchylenie standardowe to po prostu nieujemny pierwiastek z drugiego momentu rozkładu losowego, znanego też pod nazwą wariancji (czyli E( (E(X) – X)² ) . Istnienie tego momentu wynika z definicji wartości oczekiwanej oraz definicji n-tego momentu.

To Ty napisałeś, że sigmy często nie da się policzyć. Ja nic takiego nie twierdzę, przypomniałem tylko, że errf() zakłada normalność, to wszystko. CI można liczyć (z definicji) dla najróżniejszych rozkładów.

Można go policzyć przecież nawet dla wartości binarnych (0 lub 1) gdzie w ogóle raczej trudno mówić o rozkładzie.

Właśnie, że prosto — bo wtedy masz po prostu rozkład dwumianowy, który ma całe mnóstwo przesympatycznych właściwości, na przykład można łatwo w głowie policzyć średnią (n razy p, duh) i wariancję (np(1-p)).

trochę było w moich dwóch ostatnich komentarzach ironii

Marchewie słowo “ironia” kojarzyło się wyłącznie z aronią.

I niech nikt mi tu nie wyskakuje z twierdzeniami, że nie istnieje nic takiego jak prawdziwa wartość.

Jaka jest prawdziwa wartość długości ciała (w centymentrach) w populacji ludzkiej?

ztrewq
13 years ago

P.S. Poprawka: to prawda, że czasami nie da się policzyć sigma; tak jest w przypadku rozkładu Cauchy’ego, który nie ma średniej, nie ma wariancji ani żadnych wyższych momentów i ogólnie jest chorym tworem opętanego umysłu, co jest o tyle denerwujące, że iloraz dwóch zmiennych o rozkładzie normalnym ma właśnie rozkład Cauchy’ego. Ale tu jakby opuszczamy nauki eksperymentalne i zagłębiamy się w matematykę.

Gorzej: tak jest też w części przypadków statystyki t Studenta. Nie ma lekko!

zosiasamosia
zosiasamosia
13 years ago

@ arctic
“I niech nikt mi tu nie wyskakuje z twierdzeniami, że nie istnieje nic takiego jak prawdziwa wartość. Ja jestem fizykiem, a nie filozofem i na żadną dekonstrukcję obiektywnej rzeczywistości nie pozwolę!.
Przeciez globalnysmietnik napisal: ” … a nie tej nieznanej, ale istniejącej obiektywnie rzeczywistej wartości.”
Prawda jest, ze istnieje prawdziwa wartosc wielkoscie mierzonej, ale i prawda jest, ze jej wartosci dokladnie nie mozna wyznaczyc.

zosiasamosia
zosiasamosia
13 years ago

@ztrewq
“Jaka jest prawdziwa wartość długości ciała (w centymentrach) w populacji ludzkiej?”
Problem w tym, ze po pierwsze nie mozna zmierzyc prawdziwej długości ciała pojedynczego czlowieka.
@ arctic
“a nie wiem jak w tym wypadku wyznaczyć odchylenie standardowe (w przeciwieństwie do np. błędu maksymalnego) i szczerze mówiąc chętnie się dowiem.”
W przypadku pojedynczego pomiaru trudno mowic o niepewnosci typu a (przypadkowej), ale pozostaje (jak zawsze ) niepewnoscc typu b (przyrzadowa).
Czy dziedzine Pana dzialalnosci badawczej mozna zaliczyc do zwiazanej zakresem z IUPAP- International Union of Pure and Applied Physics?

zosiasamosia
zosiasamosia
13 years ago

@ arctic
“Trzeba potraktować to co mnie nauczono nazywać błędem maksymalnym pomiaru, a co teraz jest wg. ISO niepewnością typu B tak jakby to był błąd przypadkowy (niepewność typu A)”
Wtedy kiedy Pana uczona to jak zrozumialem sredni Gierek. Od tego czasu swiat sie nieco zmienil. Od lat 90, a wiec to juz od pewnego czasu , wprowadzono niepewnosci a i b. One wystepuja w kazdym procesie pomiarowym.
Elementarnym bledem jest Pana stwierdzenie : “niepewnością typu B tak jakby to był błąd przypadkowy (niepewność typu A)”.
Nie wiem jak Pan mogl dojsc, po tak dlugich deliberacjach, do tak idiotycznego wniosku.
Jedne jest pewne. Przy takim braku wiedzy, nie zaliczyl by Pan zadnego laboratorium z fizyki, mim, ze to Pan je obecznie zalicza.

zosiasamosia
zosiasamosia
13 years ago

@ arctic
“Droga Zosiu, jak łatwo zauważyć powyżej, sam już do tego doszedłem.”
Po pierwsze: w momencie pisania nie bylo jeszcze tego tekstu.
po drugie: to do czego Pan doszedl ma sie do prawdy, tak jak wyzej napisano.
Naprawde prosze. Zanim, nastepnym razem, zabierzesz glos w sprawie bledow i niepewnosci przeczytaj ze zrozumieniem: International Standard Organisation.: Guide to Expression of Uncertainty in Measurement.
Dostepne jest juz od 15 lat.

1 2 3