Valószínűségi függvény - Likelihood function

A valószínűségi függvény (gyakran egyszerűen valószínűségnek nevezik ) a megfigyelt adatok együttes valószínűségét írja le a választott statisztikai modell paramétereinek függvényében . A valószínűségi függvény ezért a paramétertér minden egyes paraméterértékéhez hozzárendel egy valószínűségi előrejelzést a megfigyelt adatokhoz . Mivel ez valójában a mintavételi sűrűség szorzata , a valószínűség általában magában foglalja mind az adatgenerálási folyamatot, mind a hiányzó adatmechanizmust , amely a megfigyelt mintát előállította.

Hangsúlyozni, hogy a valószínűsége nem egy pdf a paraméterek, gyakran írva . A maximális valószínűségi becslés során a valószínűségi függvényt maximalizáljuk, hogy megkapjuk azt a fajlagos értéket , amely a legvalószínűbb, hogy a megfigyelt adatokat előállította. Eközben Bayes-statisztika , a likelihood függvény szolgál vezeték, amelyen keresztül mintainformációkkal hatások , az utólagos valószínűség paraméter.

A valószínűség kihasználására először RA Fisher hivatkozott , aki úgy vélte, hogy ez önálló keret a statisztikai modellezéshez és a következtetéshez. Később Barnard és Birnbaum egy olyan gondolatmenetet vezetett , amely a valószínűség elvét szorgalmazta , és azt feltételezte, hogy a következtetéshez szükséges minden információ megtalálható a valószínűségi függvényben. De mindkét frequentist és Bayes- statisztika, a likelihood függvény alapvető szerepet játszik.

Meghatározás

A valószínűségi függvényt általában eltérően határozzák meg a diszkrét és folyamatos valószínűségi eloszlások esetén. Általános meghatározás is lehetséges, amint azt az alábbiakban tárgyaljuk.

Diszkrét valószínűségi eloszlás

Legyen egy diszkrét véletlen változó , valószínűségi tömegfüggvénnyel egy paramétertől függően . Aztán a funkció

tekinteni függvényében , a likelihood függvény , mivel a kimenetele a véletlen változó . Előfordul, hogy a valószínűsége "értékét az a paraméter értéke " van írva, mint P ( X = X | θ ) vagy P ( X = X ; θ ) . nem tévesztendő össze ; a valószínűség megegyezik annak a valószínűségével, hogy egy adott eredmény megfigyelhető, amikor a paraméter valódi értéke , és ezért egyenlő az eredmény feletti valószínűségi sűrűséggel , nem pedig a paraméter felett .  

Ha nincs esemény (nincs adat), a valószínűség és így a valószínűség 1; minden nem triviális esemény kisebb valószínűséggel rendelkezik.

Példa

1. ábra A valószínűségi függvény ( ) az érme leereszkedésének valószínűségére heads-up (az érme tisztességének előzetes ismerete nélkül), tekintettel arra, hogy megfigyeltük a HH-t.
2. ábra A valószínűségi függvény ( ) az érme leesésének valószínűségére heads-up (az érme tisztességének előzetes ismerete nélkül), tekintettel arra, hogy megfigyeltük a HHT-t.

Tekintsünk egy egyszerű statisztikai modellt az érmefordításhoz: egyetlen paraméter, amely kifejezi az érme "igazságosságát". A paraméter annak a valószínűsége, hogy egy érme felfelé dobva ("H") landol dobáskor. bármilyen értéket felvehet a 0,0 és 1,0 közötti tartományban. A tökéletesen tisztességes érméhez , .

Képzelje el, hogy kétszer felforgat egy tisztességes érmét, és figyeli a következő adatokat: két fej két dobással ("HH"). Feltételezve, hogy minden egymást követő érmefordítás iid , akkor a HH megfigyelésének valószínűsége az

Ezért, tekintettel a megfigyelt HH adatokra, annak valószínűsége, hogy a modellparaméter egyenlő 0,5 -vel, 0,25. Matematikailag ez így van írva

Ez nem ugyanaz, mint azt mondani, hogy annak valószínűsége, hogy a HH megfigyelés alapján 0,25. (Ehhez alkalmazhatjuk Bayes -tételt , ami azt jelenti, hogy a hátsó valószínűség arányos a valószínűség és az előbbi valószínűség szorzatával.)

Tegyük fel, hogy az érme nem fair érme, de van . Akkor két fej megszerzésének valószínűsége az

Ennélfogva

Általánosságban elmondható, hogy minden értékre kiszámíthatjuk a megfelelő valószínűséget. Az ilyen számítások eredménye az 1. ábrán látható.

Az 1. ábrán a valószínűség integrálja a [0, 1] intervallumon belül 1/3. Ez szemlélteti a valószínűségek fontos aspektusát: a valószínűségekkel ellentétben a valószínűségekkel nem kell integrálni (vagy összegezni) az 1 -hez.

Folyamatos valószínűségi eloszlás

Hagy egy véletlen változó követően abszolút folytonos valószínűségi eloszlás a sűrűségfüggvénye (függvényében ), amely függ a paraméter . Aztán a funkció

függvényeként tekintjük, a valószínűségi függvényt ( a következménye alapján ). Előfordul, hogy a függvényt „értékét az adott paraméter értékét ” van írva, mint . A valószínűségi függvényt,, nem szabad összetéveszteni a következővel : a valószínűség megegyezik a megfigyelt eredmény valószínűségi sűrűségével , amikor a paraméter valódi értéke , és ezért egyenlő az eredmény feletti valószínűségi sűrűséggel , azaz a valószínűségi függvény nem sűrűség a paraméter felett . Egyszerűen fogalmazva, ez a hipotézis tesztelése (a változó eredmények valószínűségének megállapítása a nullhipotézisben meghatározott paraméterkészlet alapján ), mint a következtetés (a valószínű paraméterek megtalálása adott eredmény alapján).  

Általánosságban

Az intézkedés-elméleti valószínűség elmélet , a sűrűség függvény van definiálva, mint a radon-Nikodym származékot a valószínűség-eloszlás egy közös vonatkoztatási domináló mérték. A valószínűségi függvény az, hogy a sűrűség a paraméter (esetleg vektor) függvényében értelmezhető, nem pedig a lehetséges kimenetek. Ez minden valószínűségi függvényt biztosít minden statisztikai modellhez minden eloszlással, legyen az diszkrét, abszolút folyamatos, keverék vagy valami más. (A valószínűségek csak akkor lesznek összehasonlíthatóak, pl. A paraméterbecslésnél, ha ugyanazon domináns mérték tekintetében Radon – Nikodym származékok.)

A diszkrét valószínűségekkel való valószínűség fenti tárgyalása ennek egy speciális esete , amikor a számláló mértéket használjuk , amely a valószínűségi sűrűséget bármelyik eredménynél egyenlővé teszi az egyetlen eredmény valószínűségével.

Egy paraméterezett modell valószínűségi függvénye

Sok alkalmazás közül itt széles körű elméleti és gyakorlati jelentőségűnek tartjuk. Adott egy paraméteres családja a sűrűségfüggvényeket (vagy valószínűségi tömegfüggvény esetében diszkrét eloszlások)

ahol az a paraméter, a likelihood függvény az

írott

hol van a kísérlet megfigyelt eredménye. Más szóval, ha úgy tekintik, mint függvényében a fix, ez egy valószínűségi sűrűségfüggvény, és nézve függvényében a fix, akkor valószínű funkciót.

Ez nem azonos azzal a valószínűséggel, hogy a megfigyelt minta alapján ezek a paraméterek a megfelelőek. A hipotézis valószínűségének értelmezésére tett kísérlet megfigyelt bizonyítékot adott, mivel a hipotézis valószínűsége gyakori hiba, amely katasztrofális következményekkel járhat. Lásd erre az ügyész tévedését .

Geometriai szempontból, ha két változó függvényének tekintjük , akkor a valószínűségi eloszlások családja az -axisszal párhuzamos görbék családjának tekinthető , míg a valószínűségi függvények családja az -axisszal párhuzamos ortogonális görbék .

A folyamatos elosztás valószínűsége

A valószínűségi sűrűség használata a valószínűségi függvény fenti meghatározásakor a következőképpen indokolt. Egy megfigyelés alapján az intervallum valószínűségét , ahol egy állandó, az adja . Ezt figyelje meg

,

mivel pozitív és állandó. Mivel

ahol a valószínűségi sűrűség függvény, ebből következik

.

A számítás első alaptétele és a l'Hôpital -szabály együttesen ezt biztosítja

Azután

Ezért,

és így a valószínűségi sűrűség maximalizálása a konkrét megfigyelés valószínűségének maximalizálásával .

Valószínűségek a vegyes folyamatos és diszkrét elosztásokhoz

A fentieket egyszerű módon ki lehet terjeszteni, figyelembe véve az eloszlásokat, amelyek diszkrét és folyamatos komponenseket is tartalmaznak. Tegyük fel, hogy az eloszlás számos diszkrét valószínűségi tömegről és sűrűségből áll , ahol az integrálhoz adott összes összege mindig egy. Feltéve, hogy lehetséges megkülönböztetni a diszkrét valószínűségi tömegek egyikének megfelelő megfigyelést a sűrűségkomponensnek megfelelő megfigyeléstől, a folytonos komponensből származó megfigyelés valószínűségi függvénye a fentiek szerint kezelhető. A diszkrét komponensből származó megfigyelés esetén a diszkrét komponensből származó megfigyelés valószínűségi függvénye egyszerűen

ahol a megfigyelésnek megfelelő diszkrét valószínűségi tömeg indexe , mivel a valószínűségi tömeg (vagy valószínűség) maximalizálása olyan mértékben, hogy maximalizálja a konkrét megfigyelés valószínűségét.

Az a tény, hogy a valószínűségi függvény olyan módon határozható meg, amely nem arányos hozzájárulásokat is tartalmaz (a sűrűséget és a valószínűségi tömeget), abból adódik, hogy a valószínűségi függvényt az arányossági állandóig határozzák meg, ahol ez az "állandó" változhat a megfigyeléssel , de nem a paraméterrel .

Rendszerességi feltételek

A paraméterbecslés összefüggésében a valószínűségi függvényről általában feltételezik, hogy engedelmeskedik bizonyos feltételeknek, az úgynevezett szabályossági feltételeknek. Ezeket a feltételeket a valószínűségi függvényekkel kapcsolatos különböző bizonyítékok feltételezik , és ezeket minden egyes alkalmazásban ellenőrizni kell. A maximális valószínűség becsléséhez a valószínűségi függvény globális maximumának létezése rendkívül fontos. A szélsőérték -tétel szerint elegendő, ha a valószínűségi függvény folyamatos egy kompakt paraméterterületen, hogy a maximális valószínűségi becslő létezzen. Míg a folyamatosság feltételezése általában teljesül, a paramétertér kompaktsági feltételezése gyakran nem, mivel a valódi paraméterértékek határai ismeretlenek. Ebben az esetben a valószínűségi függvény homorúsága kulcsszerepet játszik.

Pontosabban, ha a valószínűségi függvény kétszer folyamatosan differenciálható a k -dimenziós paramétertéren, amelyről azt feltételezzük, hogy nyitott csatlakoztatott részhalmaza , akkor létezik egy egyedi maximum, ha

jelentése negatív határozott minden amelyre gradiens eltűnik, és a
, azaz a valószínűségi függvény megközelíti a paramétertér határán lévő állandó értéket , amely korlátlan esetben tartalmazhatja a végtelenben lévő pontokat .

Mäkeläinen et al. bizonyítsa ezt az eredményt a Morse elmélet segítségével, miközben informálisan vonzza a hegyi hágó tulajdonságait. Mascarenhas a hegyi hágó tételét felhasználva bizonyítja újra bizonyítékát .

A maximális valószínűség -becslő következetességének és aszimptotikus normalitásának bizonyításaiban további feltételezéseket tesznek az adott valószínűségi függvény alapját képező valószínűségi sűrűségekre vonatkozóan. Ezeket a feltételeket először Chanda állapította meg. Különösen a szinte minden , és minden ,

mindenki számára létezik annak érdekében, hogy biztosítani lehessen a Taylor -bővítést . Másodszor, szinte mindenkinek és mindennek így kell lennie

hol van ilyen . A származékok ilyen korlátoltságára van szükség ahhoz, hogy lehetővé tegyük az integráljel alatti differenciálást . És végül feltételezzük, hogy az információs mátrix ,

a pozitív definit és véges. Ez biztosítja a pontszám véges szórását.

A fenti feltételek elegendőek, de nem szükségesek. Vagyis egy olyan modell, amely nem felel meg ezeknek a rendszerességi feltételeknek, rendelkezhet a fent említett tulajdonságok maximális valószínűségi becslésével, vagy nem. Továbbá, nem egymástól függetlenül vagy nem azonos eloszlású megfigyelések esetén további tulajdonságokat kell feltételezni.

A bayesi statisztikákban majdnem azonos szabályszerűségi feltételeket írnak elő a valószínűségi függvényre, hogy igazolják a hátsó valószínűség Laplace -közelítését .

Valószínűségi arány és relatív valószínűség

Valószínűségi arány

A valószínűségi arány bármely két meghatározott valószínűség aránya, amelyet gyakran így írnak:

A valószínűségi arány központi szerepet játszik a valószínűségi statisztikákban : a valószínűségi törvény kimondja, hogy a valószínűségi arány méri, hogy az adatok (bizonyítéknak tekintett -e) az egyik paraméter értékét a másikkal szemben.

A gyakori következtetések során a valószínűségi arány az alapja egy tesztstatisztikának , az úgynevezett likelihood-ratio tesztnek . A Neyman-Pearson lemma , ez a legnagyobb teljesítményű teszt összehasonlítására két egyszerű hipotézisek egy adott szignifikancia szinten . Számos más teszt is valószínűségi arány tesztnek vagy annak közelítésének tekinthető. A teszt-statisztikának tekintett log-likelihood arány aszimptotikus eloszlását Wilks tétele adja meg .

Annak a valószínűsége, aránya is központi szerepet játszik a Bayes-féle következtetés , ahol az úgynevezett Bayes faktor , és használják a Bayes-tétel . Az esélyekkel kapcsolatban Bayes szabálya kimondja, hogy két alternatíva utólagos esélye, és adott esemény esetén az előzetes esély, a valószínűségi arány szorzata. Egyenletként:

A valószínűségi arányt nem közvetlenül használják az AIC-alapú statisztikákban. Ehelyett a modellek relatív valószínűségét használják (lásd alább).

Megkülönböztetés az esélyekkel

Két modell valószínűségi aránya ugyanazon esemény esetén ellentétben állhat két esemény esélyével , ugyanazon modell alapján. A paraméterezett valószínűségi tömegfüggvény szempontjából a paraméter két értékének valószínűségi aránya és az eredmény alapján:

míg két eredmény esélye, és a paraméter értéke alapján :

Ez rávilágít a valószínűség és az esélyek közötti különbségre: valószínűség szerint összehasonlítjuk a modelleket (paramétereket), rögzítve az adatokat; míg az esélyekben az ember összehasonlítja az eseményeket (eredményeket, adatokat), rögzítve a modellt.

Az esélyhányados két feltételes szorzó aránya (egy eseményre, tekintettel egy másik esemény jelenlétére vagy hiányára). Az esélyhányados azonban két valószínűségi arány arányaként is értelmezhető, ha az egyik eseményt könnyebben megfigyelhetőnek tartja, mint a másikat. Lásd a diagnosztikai esélyhányados , ahol az eredmény egy diagnosztikai teszt könnyebben megfigyelhető, mint a jelenléte vagy hiánya egy mögöttes orvosi állapot .

Relatív valószínűségi függvény

Mivel a valószínűségi függvény tényleges értéke a mintától függ, gyakran kényelmes szabványos méréssel dolgozni. Tegyük fel, hogy a maximum likelihood becslést a paraméter θ van . Más θ értékek relatív valószínűségét úgy találhatjuk meg, ha összehasonlítjuk ezen egyéb értékek valószínűségét a valószínűséggel . A relatív valószínűségét a θ úgy definiáljuk, hogy

Így a relatív valószínűség a valószínűségi arány (fent tárgyalt) a fix nevezővel . Ez megfelel annak a valószínűségnek a szabványosítására, hogy legfeljebb 1 legyen.

Valószínűségi régió

A valószínűség régió halmaza összes értéke θ , amelynek relatív valószínűségét nagyobb vagy egyenlő, mint egy adott küszöbérték. Ami a százalékok, a p % valószínűsége régió számára θ úgy definiáljuk, hogy

Ha θ egyetlen valós paraméter, a p % valószínűségi régió általában egy valós értékek intervallumát tartalmazza . Ha a régió tartalmaz egy intervallumot, akkor valószínűségi intervallumnak nevezzük .

A valószínűségi intervallumokat, és általában a valószínűségi régiókat használják a valószínűségi statisztikákon belüli intervallumbecslésre : hasonlóak a bizalmi intervallumokhoz a gyakori statisztikákban és a hiteles intervallumokhoz a bayesi statisztikákban. A valószínűségi intervallumokat közvetlenül a relatív valószínűség szerint kell értelmezni, nem pedig a lefedettség valószínűsége (frekventizmus) vagy utólagos valószínűség (Bayesianism) szerint.

Egy adott modell alapján a valószínűségi intervallumok összehasonlíthatók a konfidenciaintervallumokkal. Ha θ egyetlen valós paraméter, akkor bizonyos feltételek mellett a 14,65% -os valószínűségi intervallum (kb. 1: 7 valószínűség) θ esetén megegyezik a 95% -os konfidencia intervallummal (19/20 lefedettségi valószínűség). A log-valószínűségek használatára alkalmas kissé eltérő megfogalmazásban (lásd Wilks-tételt ) a tesztstatisztika kétszerese a log-valószínűségek különbségének, és a tesztstatisztika valószínűségi eloszlása ​​megközelítőleg egy chi-négyzet eloszlás a fokokkal -szabadság (df) megegyezik a két modell közötti df -ek különbségével (ezért az e -2 valószínűségi intervallum megegyezik a 0,954 -es konfidencia intervallummal; feltételezve, hogy a df -ek közötti különbség 1).

Valószínűségek, amelyek kiküszöbölik a kellemetlen paramétereket

Sok esetben a valószínűség egynél több paraméter függvénye, de az érdeklődés csak egy, vagy legfeljebb néhány becslésére összpontosít, a többit pedig zavaró paramétereknek kell tekinteni . Számos alternatív megközelítést dolgoztak ki az ilyen kellemetlen paraméterek kiküszöbölésére, így a valószínűséget csak az érdeklődő paraméter (vagy paraméterek) függvényében írhatjuk fel: a fő megközelítések a profil, a feltételes és a marginális valószínűségek. Ezek a megközelítések akkor is hasznosak, ha a nagy dimenziós valószínűségi felületet egy vagy két érdekes paraméterre kell csökkenteni, hogy lehetővé váljon a gráf .

A profil valószínűsége

A dimenziók csökkenthetők úgy, hogy a valószínűségi függvényt a paraméterek egy részhalmazára koncentrálják úgy, hogy a zavaró paramétereket az érdekelt paraméterek függvényeként fejezik ki, és helyettesítik a valószínűségi függvényben. Általánosságban elmondható, hogy a valószínűségi függvényhez a paramétervektor függvényében, amely felosztható , és ahol a megfelelés kifejezetten meghatározható, a koncentráció csökkenti az eredeti maximalizálási feladat számítási terheit .

Például, egy lineáris regresszió és a normális eloszlású hibák, a koefficiens-vektor lehet megosztjuk be (és következésképpen a szerkezeti mátrix ). A maximalizálás optimális értékfüggvényt eredményez . Ezt az eredményt használva a maximális valószínűség becslője levezethető

ahol a projekciós mátrix a . Ezt az eredményt Frisch – Waugh – Lovell tételnek nevezik .

Mivel grafikusan a koncentrációs eljárás egyenértékű a valószínűségi felület szeletelésével a kellemetlenség paraméter értékgerincén, amely maximalizálja a valószínűségi függvényt, és izometrikus profilt hoz létre a valószínűségi függvényhez egy adott adott esetben , ennek az eljárásnak az eredménye profilként is ismert. valószínűség . A grafikus ábrázoláson kívül a profil valószínűségét fel lehet használni olyan megbízhatósági intervallumok kiszámítására is, amelyek gyakran jobb kismintás tulajdonságokkal rendelkeznek, mint a teljes valószínűségből számított aszimptotikus standard hibákon alapulók.

Feltételes valószínűség

Néha lehetséges elegendő statisztikát találni a kellemetlen paraméterekre vonatkozóan, és ennek a statisztikának a kondicionálása olyan valószínűséget eredményez, amely nem függ a zavaró paraméterektől.

Az egyik példa a 2 × 2 táblázatokban fordul elő, ahol mind a négy határösszeg kondicionálása feltételes valószínűséghez vezet a nem központi hipergeometriai eloszlás alapján . A kondicionálásnak ez a formája képezi Fisher pontos tesztjének alapját is .

Marginális valószínűség

Néha eltávolíthatjuk a kellemetlen paramétereket úgy, hogy a valószínűséget az adatok csak egy részén alapuló mérlegeléssel vesszük figyelembe, például a számok helyett a rangsor használatával. Egy másik példa a lineáris vegyes modellekben fordul elő , ahol a maradványok valószínűségének figyelembe vétele csak a rögzített hatások illesztése után vezet a variancia komponensek maradék maximális valószínűség becsléséhez.

Részleges valószínűség

A részleges valószínűség a teljes valószínűség olyan kiigazítása, hogy a paramétereknek csak egy része (az érdekelt paraméterek) fordul elő benne. Ez az arányos veszélyek modelljének kulcsfontosságú eleme: a veszélyfüggvény korlátozását alkalmazva a valószínűség nem tartalmazza a veszély időbeli alakját.

Valószínűségek termékei

A valószínűség két vagy több független esemény miatt az egyes események valószínűségeinek szorzata:

Ez a függetlenség valószínűség -meghatározásából következik: két független esemény bekövetkezésének valószínűsége, adott modell alapján, a valószínűségek szorzata.

Ez különösen akkor fontos, ha az események független és azonos eloszlású véletlen változókból származnak , például független megfigyelésekből vagy mintavételből . Ilyen helyzetben a valószínűségi függvény az egyéni valószínűségi függvények szorzatává válik.

Az üres termék értéke 1, ami megfelel a valószínűségnek, ha nincs esemény, 1: minden adat előtt a valószínűség mindig 1. Ez hasonló a Bayes -i statisztikában szereplő egységes prioritáshoz, de a valószínűség -statisztikákban ez nem helytelen korábban, mert a valószínűségek nincsenek integrálva.

Log-valószínűség

A log-likelihood függvény a valószínűségi függvény logaritmikus transzformációja, amelyet gyakran kisbetűvel l jelölnek, vagy ellentétben az L nagybetűvel vagy a valószínűséggel. Mivel a logaritmusok szigorúan növekvő függvények, a valószínűség maximalizálása egyenlő a log-valószínűség maximalizálásával. Gyakorlati szempontból azonban kényelmesebb a log-likelihood függvénnyel dolgozni a maximális valószínűségi becslésben , különösen mivel a leggyakoribb valószínűségi eloszlások- nevezetesen az exponenciális család- csak logaritmikusan homorúak , és a célfüggvény homorúsága kulcsszerepet játszik a a maximalizálás .

Tekintettel az egyes események függetlenségére, a metszés log-valószínűsége megegyezik az egyes események log-valószínűségeinek összegével. Ez analóg azzal a ténnyel, hogy a teljes log-valószínűség az egyes események log-valószínűségének összege. Az ebből adódó matematikai kényelem mellett a log-likelihood hozzáadási folyamatának intuitív értelmezése van, amelyet gyakran az adatok "támogatásaként" fejeznek ki. Amikor a paramétereket a maximális valószínűség becsléséhez a napló-valószínűség segítségével becsüljük meg , minden adatpontot úgy használunk, hogy hozzáadjuk a teljes napló-valószínűséghez. Mivel az adatok a becsült paramétereket alátámasztó bizonyítéknak tekinthetők, ez a folyamat úgy értelmezhető, hogy "független bizonyítékokból származó támogatás ", és a log-valószínűség a "bizonyítékok súlya". Ha a negatív napló-valószínűséget információtartalomként vagy meglepetésként értelmezzük , akkor egy modell támogatása (napló-valószínűsége) adott esemény esetén az esemény meglepetésének negatívuma, tekintettel a modellre: a modellt olyan mértékben támogatja egy esemény hogy az esemény a modell alapján nem meglepő.

A valószínűségi arány logaritmusa megegyezik a log-valószínűségek különbségével:

Ahogy a valószínűség, ha nincs esemény, 1, a napló-valószínűség, ha nincs esemény, 0, ami megfelel az üres összeg értékének: minden adat nélkül nincs támogatás egyetlen modellre sem.

Valószínűségi egyenletek

Ha a log-likelihood függvény gördülékeny , akkor a paraméterre vonatkozó gradiens , az úgynevezett pontszám és írás , létezik, és lehetővé teszi a differenciálszámítás alkalmazását . A differenciálható függvény maximalizálásának alapvető módja az álló pontok (azok a pontok, ahol a derivált nulla) megtalálása; mivel egy összeg deriváltja csak a származékok összege, de egy termék származtatottja megköveteli a termékszabályt , könnyebb kiszámítani a független események log-valószínűségének stacionárius pontjait, mint a független események valószínűségét.

A pontszámfüggvény álló pontja által meghatározott egyenletek becslési egyenletekként szolgálnak a maximális valószínűségi becslő számára.

Ebben az értelemben a maximális valószínűségbecslőt implicit módon az inverz függvény értéke határozza meg , ahol a d -dimenziós euklideszi tér és a paramétertér. Az inverz függvény tétel , ki lehet mutatni, hogy a jól definiált egy nyílt szomszédságában találhatóak valószínűséggel fog egy, és egy következetes becslését . Ennek következtében létezik olyan szekvencia , amely aszimptotikusan szinte biztosan , és . Hasonló eredményt lehet megállapítani Rolle -tétel felhasználásával .

A második derivált , amelyet Fisher -információként ismerünk , meghatározza a valószínűségi felület görbületét, és így jelzi a becslés pontosságát .

Exponenciális családok

A napló-valószínűség különösen hasznos az exponenciális eloszláscsaládok esetében, amelyek magukban foglalják a gyakori paraméteres valószínűségi eloszlások nagy részét . Az exponenciális családok valószínűségi eloszlási függvénye (és így a valószínűségi függvény) exponenciális tényezők szorzatait tartalmazza . Az ilyen függvények logaritmusa termékek összege, amelyek megkülönböztetése megint könnyebb, mint az eredeti függvényé.

Az exponenciális család olyan, amelynek valószínűségi sűrűségfüggvénye a következő formátumú (egyes függvények esetében a belső termék írása ):

E kifejezések mindegyikének van értelmezése, de a valószínűségről a valószínűségre való átállás és a logaritmusok felvétele az összeget eredményezi:

A és mindegyik a koordináták változásának felel meg , ezért ezekben a koordinátákban az exponenciális család log-valószínűségét az egyszerű képlet adja meg:

Szavakkal kifejezve, az exponenciális család log-valószínűsége a természetes paraméter belső terméke és a kellő statisztika , mínusz a normalizációs tényező ( log-partition függvény ) . Így például a maximális valószínűség becslését lehet véve számítottuk ki származékok elegendő statisztika T és a log-partíció funkció A .

Példa: gamma eloszlás

A gammaeloszlás egy exponenciális család, két paraméterrel, és . A valószínűségi függvény az

Az egyetlen megfigyelt értékre vonatkozó maximális valószínűségi becslés megállapítása meglehetősen ijesztőnek tűnik. A logaritmusa sokkal egyszerűbben használható:

A log-valószínűség maximalizálása érdekében először a részleges deriváltot vesszük figyelembe a következők tekintetében :

Ha számos független megfigyelés létezik , akkor a közös log-valószínűség az egyes log-valószínűségek összege lesz, és ennek az összegnek a származtatott értéke az egyes log-valószínűségek származékainak összege:

A közös naplózási valószínűség maximalizálási folyamatának befejezéséhez az egyenletet nullára állítjuk, és megoldjuk :

Itt a maximális valószínűség becslését jelölik, és ez a megfigyelések mintaátlaga .

Háttér és értelmezés

Történelmi megjegyzések

A "valószínűség" kifejezést angolul legalább a közép -angol késő óta használják . Hivatalos használatát a matematikai statisztikák egy meghatározott funkciójára való hivatkozásra Ronald Fisher javasolta két, 1921 -ben és 1922 -ben megjelent kutatási cikkében. Az 1921 -es tanulmány bevezette a ma "valószínűségi intervallum" -ot; az 1922 -es dokumentum bevezette a " legnagyobb valószínűség módszer " kifejezést. Fisher -t idézve:

1922 -ben javasoltam a „valószínűség” kifejezést, tekintettel arra a tényre, hogy [a paraméter] tekintetében ez nem valószínűség, és nem engedelmeskedik a valószínűségi törvényeknek, ugyanakkor a [paraméter] lehetséges értékei közül a racionális választás problémájához hasonló viszonyt hordoz, mint amit a valószínűség visel a szerencsejátékok eseményeinek előrejelzésének problémájához. . . . Míg azonban a pszichológiai megítélés tekintetében a valószínűség némileg hasonlít a valószínűséghez, a két fogalom teljesen elkülönül egymástól. . . . "

A valószínűség fogalmát nem szabad összetéveszteni a valószínűséggel, amint azt Sir Ronald Fisher említette

Ezt azért hangsúlyozom, mert annak ellenére, hogy mindig hangsúlyoztam a valószínűség és a valószínűség közötti különbséget, továbbra is fennáll a tendencia, hogy a valószínűséget úgy kezeljük, mintha ez egyfajta valószínűség lenne. Az első eredmény tehát az, hogy a racionális meggyőződésnek két különböző mérőszáma létezik, amelyek megfelelnek a különböző eseteknek. A populáció ismeretében a mintával kapcsolatos hiányos ismereteinket vagy elvárásainkat valószínűség szerint fejezhetjük ki; a minta ismeretében ki tudjuk fejezni hiányossági ismereteinket a valószínűség szempontjából.

Fisher kitalálta a statisztikai valószínűséget, és ellentmondott egy korábbi érvelési formának, az inverz valószínűségnek . A "valószínűség" kifejezés használata rögzítette a kifejezés jelentését a matematikai statisztikában.

AWF Edwards (1972) létrehozta az axiomatikus alapot a log-likelihood ratio használatához, amely az egyik hipotézis relatív alátámasztására szolgál. A támogató függvény ekkor a valószínűségi függvény természetes logaritmusa. Mindkét kifejezést használják a filogenetikában , de nem fogadták el a statisztikai bizonyítékok témájának általános kezelésében.

Értelmezések különböző alapokon

A statisztikusok körében nincs egyetértés abban, hogy mi legyen a statisztika alapja . Négy fő paradigmát javasoltak az alapítvány számára: frekvencia , bayesianizmus , likelihoodizmus és AIC-alapú . A javasolt alapok mindegyikénél a valószínűség értelmezése eltérő. A négy értelmezést az alábbi alfejezetek ismertetik.

Gyakori értelmezés

Bayesi értelmezés

A Bayes -féle következtetésben , bár beszélhetünk bármely állítás vagy véletlen változó valószínűségéről egy másik véletlen változó mellett: például egy paraméterérték vagy egy statisztikai modell valószínűsége (lásd a marginális valószínűséget ), adott adatok vagy egyéb bizonyítékok alapján, a valószínűség függvény ugyanaz az entitás marad, további értelmezésekkel: (i) a paraméterben megadott adatok feltételes sűrűsége (mivel a paraméter ekkor egy véletlen változó), és (ii) a paraméterre vonatkozó adatok által hozott mérték vagy információmennyiség érték vagy akár a modell. A valószínűségi struktúra bevezetése miatt a paramétertérben vagy a modellek gyűjteményében lehetséges, hogy egy paraméterértéknek vagy egy statisztikai modellnek nagy valószínűségi értéke van az adott adatokra, és mégis alacsony a valószínűsége , vagy fordítva. Gyakran előfordul ez orvosi környezetben. A Bayes -szabályt követve a valószínűséget feltételes sűrűségnek tekintve megszorozhatjuk a paraméter korábbi valószínűségi sűrűségével, majd normalizálhatjuk, így utólagos valószínűségi sűrűséget kapunk. Általánosságban elmondható, hogy egy ismeretlen mennyiség valószínűsége egy másik ismeretlen mennyiséggel arányos az adott valószínűséggel .

Valószínűség -értelmezés

A frequentist statisztikák, a likelihood függvény maga is egy statisztika , amely összegzi egy mintát a lakossága, akiknek számított érték függ a választás számos paraméter θ 1 ... θ p , ahol p a száma paraméterek néhány már kiválasztott statisztikai modell . A valószínűség értéke érdemben szolgál a paraméterekhez használt választásnál, és a rendelkezésre álló adatok ismeretében a legnagyobb valószínűségű paraméterkészlet a legjobb választás.

A konkrét számítási valószínűségének a valószínűsége, hogy a megfigyelt mintát lenne rendelve, feltételezve, hogy a modell kiválasztott és az értékeket a több paraméter θ adnak pontos közelítése a gyakorisági eloszlását a lakosság, hogy a megfigyelt mintát vettünk. Heurisztikusan, akkor van értelme, hogy egy jó választás a paraméterek azok, amelyek miatt a minta ténylegesen megfigyelt maximális lehetséges post-hoc valószínűsége van, megtörtént. Wilks-tétel számszerűsíti a heurisztikus szabály azt mutatja, hogy a különbség a logaritmusát a valószínűsége által generált becsült paramétereinek értékeit és logaritmusát a valószínűsége által generált lakosság »igazi« (de ismeretlen) paraméterértékek aszimptotikusan χ 2 elosztva .

Minden független minta maximális valószínűségi becslése a becsült populációt leíró "igaz" paraméterkészlet külön becslése. Számos független minta egymást követő becslései csoportosulnak a populáció "valódi" paraméterérték -készletével, amelyek valahol a közepükben vannak elrejtve. A maximális valószínűség és a szomszédos paraméterhalmazok valószínűségeinek logaritmusainak különbsége felhasználható egy megbízhatósági régió rajzolására egy olyan parcellán, amelynek koordinátái a paraméterek θ 1 ... θ p . A régió körülveszi a maximális valószínűség becslést, és az adott régión belüli összes pont (paraméterkészlet) legfeljebb log-valószínűségben különbözik valamilyen fix értékkel. A χ 2 eloszlás által adott Wilks-tétel alakítja a térség log-likelihood különbségek a »bizalom«, hogy a lakosság »igazi« paraméter készlet hazugság benne. A rögzített napló-valószínűségi különbség megválasztásának művészete az, hogy a bizalmat elfogadhatóan magasra kell hozni, miközben a régiót elfogadhatóan kicsiben kell tartani (szűk becslési tartomány).

Ahogy egyre több adat figyelhető meg, ahelyett, hogy független becslésekhez használnák őket, a korábbi mintákkal kombinálhatók egyetlen kombinált minta létrehozásához, és ez a nagy minta felhasználható egy új maximális valószínűségi becsléshez. A kombinált minta méretének növekedésével az azonos bizalommal járó valószínűségi régió mérete csökken. Végül vagy a bizalmi régió mérete nagyon közel egy pont, vagy a teljes populációt mintavették; mindkét esetben a becsült paraméterkészlet lényegében megegyezik a populáció paraméterkészlettel.

AIC-alapú értelmezés

Az AIC paradigma szerint a valószínűséget az információelmélet keretében értelmezik .

Lásd még

Megjegyzések

Hivatkozások

További irodalom

Külső linkek