Zastosowanie pakietu Bioconductor R-project do estymacji metodą największej wiarygodności

To jest moja praca mgr inż. na Politechnice Śląskiej Gliwice

Rok 2006, kierunek Automatyka i Robotyka, specjalność Przetwarzanie Informacji i Sterowanie w Biotechnologii, studia dzienne magisterskie 5 letnie.

Jako wersja demo dostępna jest wersja pdf ze spisem treści i pierwszymi stronami rozdziałów.

http://www.futurehome.pl/custom/Zastosowanie pakiety bioconductor do estymacji metoda najwiekszej wiarygodnosci (demo).pdf

Po zapłacie za kurs dostępna będzie pełna wersja w formacie pdf.

Praca zawiera:

* wstęp - wprowadzenie do działania programu
* obliczenia matematyczne analityczne wyliczenie estymatorów,
* wykresy
* kod źródłowy programu
* testy programu
* wnioski - z przeprowadzonych prób

Celem pracy jest zaprezentowanie numerycznych metod, a szczególnie ich implementacji w środowisku R-project jak również przebadanie dokładności obliczeń stworzonych programów.

Programy zaimplementowane w trakcie pracy będą oparte szczególnie na statystycznych metodach matematycznych. Do nich należy metoda największej wiarygodności, która bezpośrednio jest tematem pracy, test zgodności χ2 Pearsona, test Grubbsa.

Zaproponowana metoda estymacji parametrów rozkładów zmiennych losowych jest wykorzystywana w badaniach biomedycznych. Ma ona zastosowanie zarówno w ambulatoryjnych warunkach, gdy ilość pomiarów jest mała, jak i warunkach epidemiologicznych, gdy ilość pomiarów jest wyraźnie większa. Metoda ta może okazać się przydatna nie tylko w takich dziedzinach nauki jak biologia, medycyna, ale również finanse, marketing czy biznes.

Tworząc programy i funkcje w środowisku R-project mam na zamiarze przybliżyć czytelnikowi tajniki programowania na tej platformie programowej. Poznanie komend i struktur programowych środowiska R jest bardzo ważne z punktu widzenia optymalizacji kodu programu.

Aby dokładnie zrozumieć wyniki uzyskane z estymacji metodą największej wiarygodności musimy poznać podstawowe pojęcia związane ze statystyką matematyczną. Dlatego w celu poznawczym zostaną opisane estymowane rozkłady zmiennych losowych, zarówno ciągłe jak i dyskretne, ich najważniejsze własności, wykresy histogramu wraz z nałożonym na nie gęstością prawdopodobieństwa, przykładami i zależnościami parametrycznymi. Ważną część stanowić będzie opisanie teoretycznych pojęć związanych z rachunkiem statystycznym, które to później będą opisane dla poszczególnych rozkładów.

Aby poprawnie zaimplementować wzory do estymacji parametrów rozkładów metodą największej wiarygodności musimy poznać założenia metody, twierdzenia w niej zawarte i teoretyczne rozważania na jej temat. Najważniejszą i zarazem najbardziej pracowitą częścią będzie wyznaczenie estymatorów każdego z rozkładu.

Celem niezwykle ważnym jest sam program. Będzie to funkcja o nazwie „MLE” od angielskiej nazwy metody „Maximum Likelihood Estimation”. Pierwszym argumentem będzie - zaproponowana przez badającego - nazwa rozkładu, natomiast drugim argumentem będzie wektor danych pomiarowych lub wektor wygenerowanych sztucznie zmiennych losowych. Dla przypadku zmiennych losowych o rozkładzie binomialnym musimy podać również parametr N. Będzie on trzecim argumentem funkcji MLE. Przed estymacją parametrów sprawdzany będzie warunek na występowanie wartości odstających. Dla rozkładów ciągłych jest to metoda, gdzie wartością odstającą jest punkt, który nie należy do przedziału (Q1-3/2*IQR;Q3+3/2*IQR). Tylko dla rozkładu wykładniczego stosujemy inny przedział, a mianowicie (0;Q3+3*IQR). IQR jest to przedział międzykwartylowy. Q1 jest dolnym kwartylem, Q3 jest górnym kwartylem z próbki. Poszukiwanie wartości odstających dla rozkładów dyskretnych opiera się ma na algorytmie Grubbsa. Ponieważ występuje test Grubbsa dla jednej skrajnej i dwóch skrajnych wartościach odstających zostaną zaimplementowane obydwa jej przypadki. Przy czym po wykazaniu, że istnieją dwie skrajne wartości odstające test o jednej skrajnej wartości odstającej nie będzie już wykonywany. Ponieważ ważnym parametrem funkcji MLE jest dobór rozkładu, jaki wykazują zmienne losowe, dlatego każdej estymacji będzie towarzyszyć wykres gęstości prawdopodobieństwa dla wyestymowanego parametru i histogram odpowiednio przeskalowany na jednym wykresie. W taki sposób laborant jest w stanie kontrolować manualnie czy jego próbki spełniają oczekiwanie zaproponowanego rozkładu. Natomiast dla numerycznej analizy zgodności próbki z rozkładem o estymowanym parametrze stosowany będzie statystyczny test zgodności χ2.

Bardzo ważnym celem jest interpretacja wniosków z testu programu. Zostanie oszacowany wpływ liczności próbki na wynik estymacji. Dla przebadania dokładności estymowanych parametrów zostanie wykonany test programu dla 10,25,50,100,250,500 i 1000 zmiennych losowych w próbce wraz z odpowiednimi wykresami, wartościami p-value, wartościami wyliczonej statystyki χ2 i jej wartości granicznej dla odpowiedniej liczby stopni swobody na zadanym poziomie istotności. Nie zabraknie słownego opisu odpowiadającego na pytanie zawarte w hipotezie o zgodności. Jako dodatkowy test metody największej wiarygodności wykonamy estymację zakłóconych zmiennych losowych. W tym celu wygenerujemy próbkę zmiennych losowych o zadanym rozkładzie, a następnie dodamy do niej zakłócenie. Wyniki mogą być ciekawe.


Zapraszam,
Bardzo chętnie odpowiem na pytania.

Pozdrawiam
mgr inż. Modest Mejsner,
www.FutureHome.pl :: Inteligentny Dom
Zapisy wstrzymane