Opcje z napompowaniem binarnym
UWAGA: Oglądasz nieaktualną wersję tej strony. Nowe treści można znaleźć w naszej nowej domenie stats. idre. ucla. edu. Możesz także wyczyścić pamięć podręczną przeglądarki i odświeżyć tę stronę, która powinna przekierować Cię bezpośrednio do zaktualizowanej zawartości. Witamy w Instytucie Cyfrowych Badań i Edukacji Przykłady analizy danych R: Zero-zawyżona negatywna regresja dwumianowa Zerowa zawyżona regresja dwumianowa służy do modelowania zmiennych zliczeniowych z nadmiernymi zerami i zwykle jest dla zmiennych wyniku zdyskredytowanych liczb obliczeniowych. Co więcej, teoria sugeruje, że nadmiarowe zera są generowane przez oddzielny proces od wartości zliczeń i że nadmiarowe zera można modelować niezależnie. Ta strona używa następujących pakietów. Upewnij się, że możesz je załadować przed próbą uruchomienia przykładów na tej stronie. Jeśli nie masz zainstalowanego pakietu, uruchom: install. packages (nazwa_pakietu). lub jeśli widzisz, że wersja jest nieaktualna, uruchom: update. packages (). Informacje o wersji: Kod tej strony został przetestowany w wersji R 3.1.1 (2017-07-10) Do: 2017-08-11 Z: boot 1.3-11 knitr 1.6 pscl 1.04.4 vcd 1.3-1 gam 1.09.1 kodek 0.16-1 mvtnorm 1.0-0 GGally 0.4.7 plyr 1.8.1 MASS 7.3-33 Hmisc 3.14-4 Formuła 1.1-2 przeżycie 2.37-7 psych 1.4.5 zmiana kształtu2 1,4 msm 1.4 phia 0.1-5 RColorBrewer 1.0-5 efekty 3.0- 0 colorspace 1.2-4 krata 0.20-29 pequod 0.0-3 car 2.0-20 ggplot2 1.0.0 Uwaga: Celem tej strony jest pokazanie, jak korzystać z różnych poleceń analizy danych. Nie obejmuje wszystkich aspektów procesu badawczego, który naukowcy mają wykonać. W szczególności nie obejmuje to czyszczenia i sprawdzania danych, weryfikacji założeń, diagnostyki modelu ani ewentualnych dalszych analiz. Przykłady zerowej zawyżonej regresji dwumianowej Przykład 1. Administratorzy szkół badają zachowania uczniów juniorek ze szkół średnich w dwóch szkołach. Predyktorami liczby dni nieobecności są płeć ucznia i wystandaryzowane wyniki testów w matematyce i języku. Przykład 2. Biolodzy stanu chcą modelować, ile ryb łowi ryby w parku stanowym. Odwiedzający są pytani, jak długo przebywali, ile osób było w grupie, czy były dzieci w grupie i ile złowiono ryb. Niektórzy odwiedzający nie łowią ryby, ale nie ma danych na temat tego, czy ktoś łowił, czy nie. Niektórzy goście, którzy robili ryby, nie złapali żadnej ryby, więc w danych są nadmiarowe z powodu ludzi, którzy nie łowili ryby. Opis danych Wykorzystaj przykład 2 powyżej. Mamy dane na temat 250 grup, które trafiły do parku. Każda grupa była pytana o liczbę złowionych ryb (liczba), ile dzieci było w grupie (dziecko), ile osób było w grupie (osób) i czy przywieźli do obozowiska kampera (samochód kempingowy) . Oprócz przewidywania liczby złowionych ryb istnieje zainteresowanie przewidywaniem istnienia nadmiernych zer, tj. Prawdopodobieństwem, że grupa złapie zero ryb. Będziemy używać zmiennych child. osoby. i kamper w naszym modelu. Przyjrzyjmy się danym. Metody analizy, które możesz rozważyć Zanim pokażemy, w jaki sposób możesz analizować to z wyliczoną zerową analizą dwumianową, rozważmy inne metody, których możesz użyć. Regresja OLS - Możesz spróbować przeanalizować te dane za pomocą regresji OLS. Jednak dane zliczeń są wysoce nienormalne i nie są dobrze oszacowane przez regresję OLS. Regresja Poissona z napompowaniem z nadciśnieniem - Zero-napompowana Regresja Poissona jest lepsza, gdy dane nie są nadmiernie rozproszone, tj. Gdy wariancja nie jest dużo większa od średniej. Modele zliczeń zwyczajnych - Poisson lub ujemne modele dwumianowe mogą być bardziej odpowiednie, jeśli nie ma nadmiarowych zer. Zero zawyżona regresja dwumianowa Zerowany model zakłada, że zerowy wynik wynika z dwóch różnych procesów. Na przykład, w przedstawionym tutaj przykładzie połowów, oba procesy polegają na tym, że badany poszedł na ryby, a nie poszedł na ryby. Jeśli nie poszedłeś na ryby, jedynym możliwym wynikiem jest zero. Jeśli poszedł połowów, to jest to proces liczenia. Dwie części modelu z nadymaniem zerowym to model binarny, zwykle model logitowy do modelowania, z którego dwóch procesów wynik zerowy jest powiązany, oraz model zliczania, w tym przypadku negatywny model dwumianowy, do modelowania liczby. proces. Oczekiwana liczba jest wyrażona jako kombinacja dwóch procesów. Ponownie na przykładzie rybołowania: Aby zrozumieć zerową zawyżoną regresję dwumianową, zacznijmy od negatywnego modelu dwumianowego. Istnieje wiele parametryzacji negatywnego modelu dwumianowego, skupiamy się na NB2. Ujemna funkcja gęstości prawdopodobieństwa dwumianowego to: gdzie (p) jest prawdopodobieństwo (r) sukcesów. Z tego możemy wyprowadzić funkcję prawdopodobieństwa, która jest podana przez: tutaj znajdujemy prawdopodobieństwo oczekiwanej wartości, (mu) biorąc pod uwagę dane i (alfa), które pozwalają na rozproszenie. Zazwyczaj będzie to wyrażane jako prawdopodobieństwo logowania, oznaczone przez skrypt L (mathcal): który można wyrazić w kategoriach naszego modelu przez zastąpienie (mui) przez (exp (xi beta)). Wracając do modelu z dwumianem ujemnym, wyrażenie funkcji prawdopodobieństwa zależy od tego, czy obserwowana wartość jest równa zeru, czy większa od zera. Z logistycznego modelu (yi 1) versus (y 0): Na koniec zauważ, że R nie szacuje (alfa), ale (theta), odwrotność (alfa). Teraz budujmy nasz model. Zamierzamy użyć zmiennych child i camper do modelowania liczby w części negatywnego modelu dwumianowego i zmiennych osób w części logitowej modelu. Używamy pslla do uruchomienia zerowej zawyżonej regresji dwumianowej. Zaczynamy od oszacowania modelu za pomocą zmiennych będących przedmiotem zainteresowania. Dane wyjściowe wyglądają bardzo podobnie do danych wyjściowych z dwóch regresji OLS w R. Poniżej wywołania modelu znajduje się blok danych wyjściowych zawierający ujemne współczynniki regresji dwumianowej dla każdej zmiennej wraz z błędami standardowymi, z-score i wartościami p dla współczynników. Drugi blok odpowiada następującemu modelowi inflacji. Obejmuje to współczynniki logitów do przewidywania nadmiarowych zer wraz z ich standardowymi błędami, z-score i wartościami p. Wszystkie predyktory zarówno w części licznika, jak i inflacji modelu są statystycznie istotne. Model ten pasuje do danych znacznie lepiej niż model zerowy, tj. Model tylko przechwytujący. Aby pokazać, że tak jest, możemy porównać z bieżącym modelem model zerowy bez predyktorów przy użyciu testu chi-kwadrat na różnicę prawdopodobieństw logów. Z powyższego wyniku widać, że nasz ogólny model jest statystycznie istotny. Zauważ, że powyższy wynik modelu nie wskazuje w żaden sposób, że nasz model z nadmuchiwaniem zerowym jest poprawą w stosunku do standardowej regresji dwumianowej. Możemy to ustalić, uruchamiając odpowiedni standardowy negatywny model dwumianowy, a następnie wykonując test Vuonga dwóch modeli. Używamy pakietu MASS do uruchomienia standardowej negatywnej regresji dwumianowej. Dziecko predyktorów i kamper w części modelu negatywnej regresji dwumianowej przewidującej liczbę złowionych ryb (liczba) są znaczącymi predyktorami. Osoba przewidująca w części modelu logitowego przewidującej nadmierne zera jest statystycznie istotna. Dla tych danych spodziewana zmiana logu (licznika) dla jednostkowego wzrostu dziecka wynosi -1,515255, przy czym inne zmienne są stałe. Kamper (kamper 1) ma oczekiwany dziennik (zliczenie) o wartości 0,879051 wyższy niż w przypadku pojazdu nieposiadającego kampera (kampera 0) utrzymującego stałe inne zmienne. Logarytm prawdopodobieństwa przekroczenia zera zmniejszyłby się o 1,67 dla każdej dodatkowej osoby w grupie. Innymi słowy, im więcej osób w grupie, tym mniej prawdopodobne jest, że zero będzie wynikiem braku połowów. Mówiąc wyraźnie, im większa grupa, w której ta osoba była, tym bardziej prawdopodobne, że ta osoba poszedł na ryby. Test Vuonga sugeruje, że model dwumianowy ujemnie napełniony jest znaczącą poprawą w stosunku do standardowego negatywnego modelu dwumianowego. Możemy uzyskać przedziały ufności dla parametrów i potęgowanych parametrów za pomocą ładowania początkowego. Dla ujemnego modelu dwumianowego byłyby to współczynniki ryzyka incydentów, dla modelu zerowej inflacji, iloraz szans. Używamy pakietu rozruchowego. Najpierw uzyskujemy współczynniki z naszego oryginalnego modelu, aby wykorzystać je jako wartości początkowe dla modelu, aby przyspieszyć czas potrzebny do oszacowania. Następnie piszemy krótką funkcję, która pobiera dane i indeksy jako dane wejściowe i zwraca parametry, którymi jesteśmy zainteresowani. Na koniec przekazujemy to do funkcji rozruchu i wykonujemy 1200 replikacji, używając śniegu do dystrybucji na czterech rdzeniach. Pamiętaj, że powinieneś dostosować liczbę rdzeni do dowolnej maszyny. Ponadto, w celu uzyskania ostatecznych wyników, można chcieć zwiększyć liczbę replikacji, aby zapewnić stabilne wyniki. Wyniki są zmiennymi oszacowaniami parametrów i błędami standardowymi. Oznacza to, że pierwszy wiersz ma pierwszy szacunek parametru z naszego modelu. Drugi ma standardowy błąd dla pierwszego parametru. Trzecia kolumna zawiera standardowe błędy ładowania, które są znacznie większe niż te oszacowane przez zeroinfl. Teraz możemy uzyskać przedziały ufności dla wszystkich parametrów. Zaczynamy w oryginalnej skali z dopasowanymi wartościami procentowymi i odchyleniami. Porównujemy te wyniki z regularnymi przedziałami ufności w oparciu o błędy standardowe. Wstrząśnięte przedziały ufności są znacznie szersze niż aproksymacja normalna. Zabezpieczenia rozruchowe są bardziej spójne z elementami CI ze Stata, gdy używane są niezawodne błędy standardowe. Teraz możemy oszacować wskaźnik ryzyka incydentów (IRR) dla ujemnego modelu dwumianowego i ilorazu szans (OR) dla modelu logistycznego (zero inflacji). Odbywa się to za pomocą niemal identycznego kodu jak poprzednio, ale przekazując funkcję transformacji do argumentu h boot. ci. w tym przypadku, exp do potęgowania. Aby lepiej zrozumieć nasz model, możemy obliczyć oczekiwaną liczbę złowionych ryb dla różnych kombinacji naszych predyktorów. W rzeczywistości, ponieważ pracujemy z zasadniczo predykcyjnymi kategoriami, możemy obliczyć spodziewane wartości dla wszystkich kombinacji za pomocą funkcji expand. grid, aby utworzyć wszystkie kombinacje, a następnie funkcję przewidującą, aby to zrobić. Wreszcie tworzymy wykres. Rzeczy do rozważenia Oto kilka zagadnień, które warto rozważyć w trakcie analizy badań. Pytanie o parametr nadmiernej dyspersji jest ogólnie trudne. Duży parametr nadmiernej dyspersji może być spowodowany przez brak określonego modelu lub może być spowodowany rzeczywistym procesem z nadmierną dyspersją. Dodanie problemu nadmiernej dyspersji niekoniecznie poprawia brak określonego modelu. Model dwumianowy ujemnie napełniony ma dwie części, ujemny model licznika dwumianowego i model logitowy przewidywania nadmiarowych zer, więc warto przejrzeć te strony przykładowej analizy danych, negatywną regresję dwumianową i regresję logitowania. Ponieważ zero zawyżonego dwumianu ujemnego ma zarówno model liczenia, jak i model logitowy, każdy z tych dwóch modeli powinien mieć dobre predyktory. Te dwa modele niekoniecznie muszą wykorzystywać te same predyktory. Problemy z idealną prognozą, separacją lub częściowym rozdziałem mogą wystąpić w części logistycznej modelu z nadymaniem zerowym. Dane liczbowe często wykorzystują zmienną ekspozycji, aby wskazać, ile razy zdarzenie mogło mieć miejsce. Możesz włączyć ekspozycję (zwaną także offsetem) do swojego modelu za pomocą funkcji offset (). Nie zaleca się stosowania modeli z ujemnym dwumianem o zerowym napięciu do małych próbek. To, co stanowi małą próbkę, nie wydaje się być jasno określone w literaturze. Wartości pseudo-R-kwadratów różnią się od wartości OLS R-kwadratów, patrz FAQ: Co to są pseudo-R-kwadraty do dyskusji na ten temat. R Online Manual References Long, J. S. 1997. Modele regresji dla zmiennych jakościowych i zależnych. Thousand Oaks, Kalifornia: Sage Publications. Everitt, BS i Hothorn, T. A Podręcznik analiz statystycznych za pomocą R Zawartość tej strony internetowej nie powinna być interpretowana jako aprobata jakiejkolwiek konkretnej strony internetowej, książki lub oprogramowania przez University of California. Procedura GENMOD Zero - Modele z inflacją Liczby danych, które mają częstość występowania zera większą niż oczekiwana dla podstawowego rozkładu prawdopodobieństwa zliczeń, można modelować z rozkładem z nadętym zerem. W GENMOD rozkład podstawowy może być poomantem dwumianowym lub dodatnim. Zobacz Lambert (1992), Long (1997) i Cameron and Trivedi (1998), aby uzyskać więcej informacji na temat modeli z nadymaniem zerowym. Uważa się, że populacja składa się z dwóch rodzajów osobników. Pierwszy typ podaje liczbę Poissona lub ujemną dwumianową liczbę rozproszoną, która może zawierać zera. Drugi typ zawsze daje zerową liczbę. Pozwolić być podstawową średnią rozkładu i być prawdopodobieństwem indywidualnego bycia drugiego rodzaju. Parametr nazywa się tutaj prawdopodobieństwem zerowej inflacji. i jest prawdopodobieństwem zliczeń zerowych przekraczających częstotliwość przewidywaną przez rozkład bazowy. Możesz poprosić o wyświetlenie prawdopodobieństwa zerowej inflacji w zbiorze danych wyjściowych za pomocą słowa kluczowego PZERO. Rozkład prawdopodobieństwa zmiennej losowej Y zmiennej Poissona jest określony przez, a rozkład prawdopodobieństwa losowej zmiennej losowej Y o wartości ujemnej od zera jest podany jako gdzie k jest ujemnym parametrem rozkładu dwumianowego. gdzie h jest jedną z funkcji binarnego łącza: logit, probit lub uzupełniający log-log. Funkcja łącza h jest domyślnie łączem logitowym lub opcją funkcji łącza określoną w instrukcji ZEROMODEL. Funkcja łącza g jest domyślnie funkcją łącza dziennika lub funkcją łącza określoną w instrukcji MODEL, zarówno dla Poissona, jak i dla dwumianu ujemnego. Współzmienne dla obserwacji są określane przez model określony w instrukcji ZEROMODEL, a współzmienne są określane przez model określony w instrukcji MODEL. Parametry regresji i są oszacowane według największego prawdopodobieństwa. Średnią i wariancję Y dla zendresowanego przez zero Poissona podaje się dla i dla zawyżonego zera dylomatu w teście. Można zażądać, aby średnia Y była wyświetlana dla każdej obserwacji w zbiorze danych wyjściowych za pomocą słowa kluczowego PRED. zeroinfl: Zero - inflated Argumenty Regresja danych przekazane do wartości zeroinfl. control w konfiguracji domyślnej. Modele z zerowym napełnieniem są dwuskładnikowymi modelami mieszanin łączącymi punktową masę na poziomie zero z odpowiednim rozkładem zliczania. Tak więc istnieją dwa źródła zer: zera mogą pochodzić zarówno z masy punktowej, jak iz komponentu liczącego. Zwykle model liczenia jest regresją dwumianową Poissona lub ujemną (z linkiem dziennika). Rozkład geometryczny jest szczególnym przypadkiem ujemnego dwumianu z parametrem wielkości równym 1. Do modelowania stanu nieobserwowanego (zero vs. liczba) stosuje się model binarny, który wychwytuje prawdopodobieństwo zerowej inflacji. w najprostszym przypadku tylko z punktem przecięcia, ale potencjalnie zawierającym regresory. W przypadku tego modelu zerowej inflacji można zastosować model dwumianowy z różnymi łączami, zwykle logit lub probit. Formuły można użyć do określenia obu składników modelu: Jeśli podano formułę typu y x1 x2, to w obu komponentach stosowane są te same regresory. Jest to równoważne y x1 x2 x1 x2. Oczywiście można określić inny zestaw regresorów dla składnika zliczającego i zera-inflacji, np. y x1 x2 z1 z2 z3 podając model danych zliczania y x1 x2 w zależności od () modelu zerowej inflacji y z1 z2 z3. Prosty model inflacji, w którym wszystkie zliczenia zerowe mają takie samo prawdopodobieństwo przynależności do komponentu zerowego, może być określony przez formułę y Przesunięcia można określić w obu składowych modelu odnoszących się do zliczania i modelu z zerową inflacją: Przesunięcie y x1 (x2) z1 z2 offset (z3). gdzie x2 jest stosowane jako przesunięcie (to znaczy ze współczynnikiem ustalonym na 1) w składowej zliczającej i z3 analogicznie w składowej zerowej inflacji. Zgodnie z zasadą podaną powyżej przesunięcie y x1 (x2) jest rozszerzane do przesunięcia y x1 (x2) x1 przesunięcia (x2). Zamiast używać opakowania offset () w formule. może być również zastosowany argument przesunięcia, który ustawia przesunięcie tylko dla modelu zliczania. Zatem wzór y x1 i offset x2 są równoważne przesunięciu y y1 (x2) x1. Wszystkie parametry są szacowane przez maksymalne prawdopodobieństwo za pomocą optymalizacji. z opcjami sterowania ustawionymi w parametrze zeroinfl. control. Wartości początkowe mogą być dostarczane, oszacowane przez algorytm EM (maksymalizacja oczekiwań) lub przez glm. fit (domyślny). Błędy standardowe są uzyskiwane numerycznie przy użyciu macierzy Hessian zwróconej przez optym. Więcej szczegółów znajdziesz w temacie zeroinfl. control. Zwrócony dopasowany obiekt modelu ma klasę zeroinfl i jest podobny do dopasowanych obiektów glm. W przypadku elementów, takich jak współczynniki lub terminy, zwracana jest lista z elementami odpowiednio dla komponentu zerowego i liczącego. Szczegółowe informacje znajdują się poniżej. Zestaw standardowych funkcji ekstraktora dla dopasowanych obiektów modelu jest dostępny dla obiektów klasy zeroinfl. włączając metody do ogólnych funkcji drukowania. Podsumowanie. coef. vcov. logLik. reszty. przepowiadać, wywróżyć. wyposażone. warunki. model. matrix. Więcej informacji na temat wszystkich metod znajduje się w predict. zeroinfl. Obiekt klasy zeroinfl. tj. listę zawierającą komponenty
Comments
Post a Comment