Szórás - Standard deviation

A telek normális eloszlás (vagy harang alakú görbe), ahol minden egyes sáv szélessége 1 standard deviáció - Lásd még: 68-95-99,7 szabály .
Egy normális eloszlás halmozott valószínűsége 0 várható értékkel és 1 szórással

A statisztikákban a szórás az értékhalmaz változásának vagy szórásának mértékét méri . Az alacsony szórás azt jelzi, hogy az értékek általában közel vannak a halmaz átlagához (más néven a várt értékhez ), míg a nagy szórás azt jelzi, hogy az értékek szélesebb tartományban vannak elosztva.

A szórás rövidíthető SD -ként , és a matematikai szövegekben és egyenletekben leggyakrabban a görög szigma σ kisbetűvel ábrázolják , a populáció szórása esetén, vagy a latin s betűvel a minta szórás esetén.

A szórás egy véletlen változó , minta , statisztikai sokaság , adatállomány , vagy valószínűségi eloszlás a négyzetgyök annak varianciája . Ez algebrailag egyszerűbb, bár a gyakorlatban kevésbé robusztus , mint az átlagos abszolút eltérés . A szórás hasznos tulajdonsága, hogy a szórással ellentétben ugyanabban az egységben fejezik ki, mint az adatok.

Egy populáció vagy minta szórása és egy statisztika (pl. A mintaátlag) standard hibája meglehetősen eltérő, de összefügg. A mintaátlag standard hibája az átlaghalmaz szórása, amelyet úgy találnánk meg, ha végtelen számú ismételt mintát rajzolnánk a populációból, és kiszámítanánk az egyes minták átlagát. Az átlag standard hibája egyenlő a populáció szórásával, elosztva a minta négyzetgyökével, és a minta standard szórását a minta négyzetgyökével osztva becsüljük. Például egy közvélemény-kutatás standard hiba (mit is jelentett, mint a hibahatár a szavazás), a várható szórása a becsült átlagos ha ugyanazt a szavazást kellett elvégezni többször. Így a standard hiba becsli a becslés szórását, amely maga méri, hogy a becslés mennyire függ a populációból vett mintától.

A tudományban gyakori, hogy mind az adatok szórását (összefoglaló statisztikaként), mind a becslés standard hibáját (mint a megállapítások lehetséges hibájának mértékét) jelentik. Megállapodás szerint csak a nullától elvárhatónál több standard hibánál több hatást tekintik "statisztikailag szignifikánsnak" , ami biztosíték a véletlen mintavételi hibából fakadó hamis következtetésekkel szemben.

Ha csak egy mintát az adatok egy populáció rendelkezésre áll, a kifejezés szórása a minta vagy a minta szórása utalhat a fent említett mennyiségben, az ezekre alkalmazott adatok, vagy egy módosított mennyiség, amely torzítatlan becslését a populáció szórása (a teljes populáció szórása).

Alapvető példák

Nyolc tanuló osztályzatának populációs szórása

Tegyük fel, hogy a teljes érdeklődési kör nyolc diák egy adott osztályban. Egy véges számhalmaz esetében a populáció szórását úgy találjuk meg, hogy az átlagértékből levont értékek négyzeteltéréseinek átlagának négyzetgyökét vesszük . Egy nyolc tanulóból álló osztály (azaz statisztikai sokaság ) jegyei a következő nyolc értékek:

Ennek a nyolc adatpontnak az átlaga (átlaga) 5:

Először számítsa ki az egyes adatpontok eltérését az átlagtól, és négyzetezze ki mindegyik eredményét:

A szórás ezen értékek átlaga:

és a populáció szórása egyenlő a szórás négyzetgyökével:

Ez a képlet csak akkor érvényes, ha a nyolc érték, amellyel elkezdtük, a teljes populációt alkotja. Ha az értékek ehelyett egy véletlenszerű minta, amelyet néhány nagy szülői populációból vettek fel (például 8 diák volt véletlenszerűen és függetlenül 2 millió osztályból), akkor az egyik osztja 7 -gyel (ami n - 1) 8 helyett ( amely n ) a nevezőben az utolsó általános képletű, és az eredmény az, Ebben az esetben, az eredmény az eredeti képlet neveznénk a minta standard eltérése és jelöljük s helyett elosztjuk n  - 1, nem pedig n ad a nagyobb szülői populáció szórásának elfogulatlan becslése. Ezt Bessel korrekciójának nevezik . Nagyjából ennek az az oka, hogy a minta varianciájának képlete a minta átlagából származó megfigyelési különbségek kiszámításán alapul, és maga a mintaátlag a lehető legközelebb van a megfigyelésekhez, így ha csak n -el osztjuk, akkor alábecsüljük a változékonyság.

Az átlagos magasság szórása felnőtt férfiaknál

Ha az érdeklődő populáció megközelítőleg normális eloszlású, a szórás információt szolgáltat a megfigyelések bizonyos értékek feletti vagy alatti arányáról. Például az Egyesült Államokban a felnőtt férfiak átlagos magassága körülbelül 177,8 cm (70 hüvelyk), a szórás pedig körülbelül 7 hüvelyk (7,62 cm). Ez azt jelenti, hogy a legtöbb férfi (körülbelül 68%-a, normál eloszlást feltételezve ) magassága 7,62 cm -en belül van az átlagtól (67–73 hüvelyk (170,18–185,42 cm)) - egy szórás - és szinte minden férfi ( körülbelül 95%) magassága 15,24 cm -en belül van az átlagtól (64–76 hüvelyk (162,56–193,04 cm)) - két szórás. Ha a szórás nulla lenne, akkor minden férfi pontosan 177,8 cm magas lenne. Ha a szórás 50 hüvelyk (20 hüvelyk) lenne, akkor a férfiak magassága sokkal változékonyabb lenne, jellemzően 127–228,6 cm -es tartományban. Három szórás a vizsgált mintapopuláció 99,7% -át teszi ki, feltételezve, hogy az eloszlás normális vagy harang alakú ( további információért lásd a 68-95-99,7 szabályt vagy az empirikus szabályt ).

A népesség értékeinek meghatározása

Legyen μ az f ( x ) sűrűségű X véletlenszerű változó várható értéke (átlaga ):

A szórása σ az X definíciója

amely egyenlőnek mutatható ki

Szavak használata, a szórás a négyzetgyöke variancia az X .

A valószínűségi eloszlás szórása megegyezik az ilyen eloszlású véletlen változóéval.

Nem minden véletlen változó rendelkezik szórással. Ha az eloszlásnak zsírfarkai végtelenségig mennek, akkor előfordulhat, hogy a szórás nem létezik, mert az integrál esetleg nem konvergál. A normál eloszlásnak a végtelenségig tartó farka van, de az átlaga és a szórása létezik, mert a farok elég gyorsan csökken. A paraméterrel rendelkező Pareto -eloszlásnak van átlaga, de nincs szórása (lazán szólva a szórás végtelen). A Cauchy -eloszlásnak nincs sem átlagos, sem szórása.

Diszkrét véletlen változó

Abban az esetben, ha X véletlenszerű értékeket vesz egy véges x 1 , x 2 ,…, x N adathalmazból , minden érték azonos valószínűséggel, a szórás

vagy összefoglaló jelöléssel,

Ha, ahelyett, egyenlő valószínűségek, az értékeket különböző valószínűségeket, legyen x 1 van valószínűsége p 1 , x 2 van valószínűsége p 2 , ..., x N van valószínűsége p N . Ebben az esetben a szórás lesz

Folyamatos véletlen változó

A szórása egy folyamatos, valós értékű valószínűségi változó X a sűrűségfüggvénye p ( x ) jelentése

és ahol az integrálok határozott integrálok, amelyeket x -re veszünk , az X véletlen változó lehetséges értékeinek halmazán belül  .

Abban az esetben, a parametrikus család eloszlás , szórás lehet kifejezni a paramétereket. Például μ és σ 2 paraméterekkel rendelkező log-normális eloszlás esetén a szórás az

Becslés

Megtalálható egy teljes populáció szórása azokban az esetekben (például szabványos tesztelés ), amikor a populáció minden tagját mintavételezik. Azokban az esetekben, amikor ezt nem lehet megtenni, a σ szórást úgy becsülik meg, hogy megvizsgálják a populációból vett véletlenszerű mintát, és kiszámítják a minta statisztikáját , amelyet a populáció szórásának becslésére használnak. Az ilyen statisztikát becslőnek , a becslőt (vagy a becslő értékét, nevezetesen a becslést) mintaszórásnak nevezzük, és s -sel jelöljük (esetleg módosítókkal).

Ellentétben a populáció átlagának becslésével, amelyhez a mintaátlag egyszerű becslő, sok kívánatos tulajdonsággal ( elfogulatlan , hatékony , maximális valószínűség), nincs egyetlen becslő a szórásra ezekkel a tulajdonságokkal, és elfogulatlan becsléssel a szórás technikailag nagyon érintett probléma. Leggyakrabban a szórást az  alábbiakban meghatározott korrigált minta szórással ( N - 1) becsülik meg , és ezt gyakran "minta szórásnak" nevezik, minősítők nélkül. Más becslések azonban más szempontból jobbak: a korrigálatlan becslő ( N használatával ) alacsonyabb átlagos négyzet hibát ad, míg az N  - 1,5 (normál eloszlás esetén) használata szinte teljesen kiküszöböli a torzítást.

Nem korrigált minta szórás

A populáció szórásának (véges populáció) képletét a mintára lehet alkalmazni, a minta méretét használva a populáció méretének (bár a tényleges populációméret, amelyből a mintát vették, sokkal nagyobb lehet). Ez becslő, jelöljük s N , ismert, mint a nem korrigált minta szórása , vagy néha a szórása a minta (úgy, mint a teljes populáció), és meghatározása a következő:

ahol a megfigyelt értékek a minta példány, és a középérték ezeket az észrevételeket, míg a nevező  N jelöli a minta mérete: ez a négyzetgyöke minta eltérés, ami az átlagos négyzetes eltérések találhatóak a minta átlag.

Ez egy következetes becslő (valószínűség szerint konvergál a populáció értékéhez, ahogy a minták száma a végtelenbe megy), és ez a maximális valószínűség becslése a populáció normális eloszlása ​​esetén. Ez azonban elfogult becslő , mivel a becslések általában túl alacsonyak. A torzítás a minta méretének növekedésével csökken, 1/ N -ként csökken , és így a legjelentősebb a kis vagy közepes méretű minták esetében; mert a torzítás 1%alatt van. Így nagyon nagy mintaméretek esetén a korrigálatlan minta szórás általában elfogadható. Ennek a becslésnek egységesen kisebb átlagos négyzet hibája is van, mint a korrigált minta szórás.

Korrigált minta szórás

Ha az elfogult minta varianciáját (a minta második központi mozzanata , amely a populáció szórásának lefelé torzított becslése) használják a populáció szórásának becslésére, az eredmény

Itt a négyzetgyök felvétele további lefelé irányuló torzítást vezet be, Jensen egyenlőtlensége miatt, mivel a négyzetgyök konkáv függvény . A variancia torzítása könnyen korrigálható, de a négyzetgyökből származó torzítás nehezebben korrigálható, és a szóban forgó eloszlástól függ.

Torzítatlan becslése a variancia adják alkalmazásával Bessel korrekció alkalmazásával N  - 1 helyett N , így kapjuk a torzítatlan minta eltérés, jelöljük s 2 :

Ez a becslő elfogulatlan, ha létezik szórás, és a mintaértékeket egymástól függetlenül, lecserélve rajzolják ki. N  - 1 a szabadságfokok számának felel meg az átlagtól való eltérés vektorában,

A négyzetgyök felvétele visszaállítja a torzítást (mivel a négyzetgyök egy nemlineáris függvény, amely nem ingázik a várakozással), és így a korrigált minta szórást kapja, amelyet s jelöl :

Amint azt fentebb kifejtettük, míg s 2 a populáció szórásának elfogulatlan becslője, s még mindig torzított becslés a populáció szórására, bár lényegesen kevésbé torz, mint a korrigálatlan minta szórás. Ezt a becslőt általánosan használják, és általában "mintaszórásnak" nevezik. A torzítás még mindig nagy lehet kis minták esetén ( N kevesebb, mint 10). A minta méretének növekedésével a torzítás mennyisége csökken. Mi több információt, és a különbség , és kisebb lesz.

Elfogulatlan minta szórás

A szórás elfogulatlan becsléséhez nincs olyan képlet, amely minden eloszlásnál működne, ellentétben az átlaggal és a varianciával. Ehelyett az s -t használják alapul, és egy korrekciós tényezővel méretezik, hogy elfogulatlan becslést hozzanak létre. A normál eloszlás esetén az elfogulatlan becslést az s / c 4 adja meg , ahol a korrekciós tényező (amely N -től függ ) a Gamma függvényben van megadva , és egyenlő:

Ez abból adódik, hogy a minta szórás mintavételi eloszlása ​​(skálázott) chi eloszlást követ , és a korrekciós tényező a chi eloszlás átlaga.

Közelítés adható az N  - 1 N  - 1,5 helyettesítésével, így:

A hiba ebben a közelítésben kvadratikusan csökken (1/ N 2 ), és a legkisebb minták kivételével vagy a legmagasabb pontosságúak mindegyikére alkalmas: N = 3 esetén a torzítás 1,3%, N = 9 esetén pedig a torzítás már kevesebb, mint 0,1%.

A pontosabb közelítés a fenti helyettesítése .

Más eloszlások esetén a helyes képlet az eloszlástól függ, de alapszabály, hogy a közelítés további finomítását kell használni:

ahol γ 2 a populáció túlzott kurtózisát jelöli . A túlzott kurtosis bizonyos eloszlásokra előre ismert, vagy az adatokból becsülhető.

A mintavételezett szórás konfidencia intervalluma

Az eloszlás mintavételezésével kapott szórás önmagában nem teljesen pontos, mind matematikai okokból (itt a konfidencia intervallum magyarázza), mind pedig gyakorlati mérési okokból (mérési hiba). A matematikai hatás leírható a konfidencia intervallummal vagy a CI -vel.

Annak bemutatására, hogy egy nagyobb minta hogyan szűkíti a konfidencia intervallumot, fontolja meg a következő példákat: Egy kis N = 2 populációnak csak 1 szabadsági foka van a szórás becslésére. Az eredmény az, hogy az SD 95% -os megbízhatósága 0,45 × SD és 31,9 × SD között mozog; a tényezők itt a következők :

ahol a p -edik kvantilis a chi-négyzet eloszlású k szabadsági fok, és a megbízhatósági szint. Ez egyenértékű a következőkkel:

A k = 1, és a . E két szám négyzetgyökének reciproka adja a fent megadott 0.45 és 31.9 tényezőt.

Egy nagyobb N = 10 populációnak 9 szabadsági foka van a szórás becslésére. A fentiekkel megegyező számítások ebben az esetben 95% -os CI -t adnak nekünk, 0,69 × SD és 1,83 × SD között. Tehát még a 10 -es mintapopuláció mellett is a tényleges SD még mindig majdnem 2 -szerese lehet magasabb, mint a mintába vett SD. N = 100 mintapopuláció esetén ez 0,88 × SD és 1,16 × SD között van. Annak biztosítása érdekében, hogy a mintavételezett SD közel legyen a tényleges SD -hez, nagyszámú pontot kell mintát vennünk.

Ugyanezekkel a képletekkel lehet megbízhatósági intervallumokat szerezni a maradványok varianciájára a normál normál elmélethez illeszkedő legkisebb négyzetekből , ahol k most a hibaszabadság fokának száma .

Korlátok a szórásnál

Egy sor N > 4 adatok spanning egy értéktartomány R , egy felső határt a szórás s adja s = 0.6R . A heurisztikából az következik, hogy az N > 100 adatokra vonatkozó szórás becsült értéke megközelítőleg normális, ami azt jelenti, hogy a normál görbe alatti terület 95% -a nagyjából két szórás az átlag két oldalán, így 95% -os valószínűséggel az R értékek teljes tartománya négy szórást jelent, így s ≈ R/4 . Ez az úgynevezett tartományszabály hasznos a minta méretének becslésében, mivel a lehetséges értékek tartományát könnyebb megbecsülni, mint a szórást. A tartomány egyéb K (N) osztói, így s ≈ R/K (N) állnak rendelkezésre N egyéb értékeihez és nem normális eloszlásaihoz.

Identitások és matematikai tulajdonságok

A szórás invariáns változások helyét és mérleg közvetlenül a skála a véletlen változó. Így konstans c és véletlenszerű X és Y változók esetén :

A két véletlen változó összegének szórása összefüggésben állhat azok egyedi szórásaival és a köztük lévő kovarianciával :

ahol és a szórást, illetve a kovarianciát képviselik.

A négyzeteltérések összegének kiszámítása közvetlenül az adatokból számított mozzanatokhoz köthető . A következő képletben az E betű a várható értéket jelenti, azaz átlagot.

A minta szórást a következőképpen lehet kiszámítani:

Egy véges populáció esetében, amely minden ponton azonos valószínűséggel rendelkezik

ami azt jelenti, hogy a szórás egyenlő az értékek négyzeteinek átlaga és az átlagérték négyzete közötti különbség négyzetgyökével.

Lásd a számítási képletet a variancia bizonyítására, és analóg eredményt a minta szórásra.

Értelmezés és alkalmazás

Példa két populációból származó mintákra, amelyek átlagos, de eltérő szórással rendelkeznek. A vörös populáció átlagosan 100 és SD 10; A kék populáció átlagosan 100 és SD 50.

A nagy szórás azt jelzi, hogy az adatpontok messze elterjedhetnek az átlagtól, és egy kis szórás azt jelzi, hogy szorosan az átlag köré csoportosulnak.

Például mindhárom populáció ({0, 0, 14, 14}, {0, 6, 8, 14} és {6, 6, 8, 8}) átlaga 7. Szórásuk 7, 5 és 1, ill. A harmadik populáció sokkal kisebb szórással rendelkezik, mint a másik kettő, mert értékei mind közel vannak a 7. Ezekhez a szórásokhoz ugyanazok az egységek tartoznak, mint maguk az adatpontok. Ha például a (z) {0, 6, 8, 14} adatkészlet négy testvérpopuláció korát képviseli években, akkor a szórás 5 év. Egy másik példa, hogy a lakosság {1000, 1006, 1008, 1014} négy sportoló által megtett távolságot jelentheti méterben mérve. Átlagosan 1007 méter, szórása 5 méter.

A szórás szolgálhat a bizonytalanság mérésére. A fizikai tudományban például az ismételt mérések egy csoportjának bejelentett szórása adja meg a mérések pontosságát . Annak eldöntésekor, hogy a mérések egyetértenek -e egy elméleti előrejelzéssel, e mérések szórása döntő fontosságú: ha a mérések átlaga túl messze van a jóslattól (a szórással mért távolsággal), akkor a tesztelt elmélet valószínűleg felül kell vizsgálni. Ennek értelme van, mivel ezek kívül esnek azon értékek tartományán, amelyekre ésszerűen számítani lehet, ha az előrejelzés helyes és a szórás megfelelően számszerűsíthető. Lásd az előrejelzési intervallumot .

Míg a szórás méri, hogy a tipikus értékek milyen messze vannak az átlagtól, más mérések is rendelkezésre állnak. Ennek egyik példája a átlagos abszolút eltérés , amelyekről feltételezhető, hogy egy közvetlen mértéke átlagos távolság, míg a Root Mean Square távolság rejlő szórás.

Alkalmazási példák

Az értékkészlet szórásának megértésének gyakorlati értéke abban rejlik, hogy fel kell mérni, hogy mekkora eltérés van az átlagtól (átlag).

Kísérlet, ipari és hipotézis tesztelés

A modell teszteléséhez gyakran használják a szórást a valós adatok és a modell összehasonlítására. Például ipari alkalmazásokban előfordulhat, hogy a gyártósorról leszállított termékek súlyának meg kell felelnie a törvényben előírt értéknek. A termékek bizonyos töredékeinek mérésével átlagos súly található, amely mindig kissé eltér a hosszú távú átlagtól. A szórások használatával minimális és maximális érték kiszámítható, hogy az átlag súly az idő nagyon magas százalékán belül (99,9% vagy több) lesz. Ha a tartományon kívül esik, akkor előfordulhat, hogy a gyártási folyamatot korrigálni kell. Az ilyen statisztikai tesztek különösen fontosak, ha a vizsgálat viszonylag drága. Például, ha a terméket fel kell nyitni, le kell üríteni és le kell mérni, vagy ha a terméket egyébként elhasználta a vizsgálat.

A kísérleti tudományban a valóság elméleti modelljét használják. A részecskefizika hagyományosan az " 5 szigma " szabványt használja a felfedezés deklarálásához. Az öt szigma szint egy esélyt jelent 3,5 millióban, hogy egy véletlenszerű ingadozás meghozza az eredményt. Erre a bizonyosságra volt szükség annak megállapításához, hogy a Higgs -bozonhoz hasonló részecskét fedeztek fel két független kísérletben a CERN -ben , ami szintén a gravitációs hullámok első megfigyelésének bejelentéséhez és a globális felmelegedés megerősítéséhez vezetett .

Időjárás

Egyszerű példaként vegyük figyelembe az átlagos napi maximum hőmérsékletet két városban, egy belvízi és egy a tengerparton. Hasznos megérteni, hogy a part menti városok napi maximális hőmérsékleti tartománya kisebb, mint a szárazföldi városoké. Így bár e két város mindegyikének ugyanaz az átlagos maximális hőmérséklete lehet, a tengerparti város napi maximális hőmérsékletének szórása kisebb lesz, mint a belvárosé, mivel bármelyik napon a tényleges maximális hőmérséklet valószínűbb távolabb legyen a belváros átlagos maximális hőmérsékletétől, mint a tengerparti.

Pénzügy

A pénzügyekben a szórást gyakran használják egy adott eszköz (részvények, kötvények, ingatlanok stb.) Áringadozásával kapcsolatos kockázat mérésére , vagy egy eszközállomány kockázatára (aktívan kezelt befektetési alapok, index kölcsönös alapok vagy ETF -ek). A kockázat fontos tényező a befektetési portfólió hatékony kezelésének meghatározásában, mivel meghatározza az eszköz és/vagy portfólió hozamának változását, és matematikai alapot ad a befektetőknek a befektetési döntésekhez (az úgynevezett átlag-variancia-optimalizálás ). A kockázat alapfogalma az, hogy ahogy növekszik, a befektetés várható megtérülésének is növekednie kell, ami a kockázati prémium néven ismert növekedés. Más szóval, a befektetőknek magasabb megtérülést kell várniuk egy befektetésből, ha az adott befektetés magasabb kockázatot vagy bizonytalanságot hordoz. A befektetések értékelésekor a befektetőknek meg kell becsülniük a várható hozamot és a jövőbeli hozamok bizonytalanságát is. A szórás számszerűsített becslést ad a jövőbeli hozamok bizonytalanságára.

Tegyük fel például, hogy a befektetőnek két részvény közül kellett választania. Az A részvény az elmúlt 20 évben átlagosan 10 százalékos hozammal, 20 százalékpontos szórással (pp), a B részvény pedig ugyanebben az időszakban 12 százalékos átlagos hozammal rendelkezett, de magasabb szórással 30 százalékponttal. A kockázat és a hozam alapján a befektető dönthet úgy, hogy az A részvény a biztonságosabb választás, mert a B rész további két százalékpontja nem éri meg a további 10 százalékpontos szórást (nagyobb kockázat vagy a várható hozam bizonytalansága). A B részvény valószínűleg ugyanabban a körülmények között gyakrabban marad el a kezdeti befektetéstől (de meg is haladja a kezdeti befektetést), mint az A részvény, és a becslések szerint átlagosan csak két százalékkal többet hoz. Ebben a példában az A részvény várhatóan körülbelül 10 százalékkal, plusz-mínusz 20 százalékponttal (30 százalék és -10 százalék közötti tartományban) keres, ami a jövő évi hozam körülbelül kétharmada. A jövőbeni extrém lehetséges hozamok vagy eredmények mérlegelésekor a befektetőnek akár 10 százalék plusz vagy mínusz 60 százalékpontos eredményre, vagy 70–50 százalék közötti eredményre kell számítania, amely magában foglalja az átlagos hozam három standard eltérésének eredményeit (a valószínű hozamok 99,7 százaléka).

Az értékpapír hozamának adott időszakra vonatkozó átlagának (vagy számtani átlagának) kiszámítása az eszköz várható hozamát eredményezi. Minden időszakban a várható hozamot kivonva a tényleges hozamból az átlag különbségét eredményezi. Az egyes időszakok négyzetének négyzetének kiszámítása és az átlag figyelembevétele az eszköz hozamának általános szórását adja. Minél nagyobb az eltérés, annál nagyobb kockázatot jelent a biztonság. Ennek a szórásnak a négyzetgyökének megállapítása megadja a szóban forgó befektetési eszköz szórását.

A populáció szórását a Bollinger -sávok , széles körben elterjedt technikai elemző eszköz szélességének beállítására használják. Például a felső Bollinger -szalag a következő: A leggyakrabban használt érték n -nél 2; körülbelül öt százalék az esély arra, hogy kimegyünk, feltételezve a hozamok normális eloszlását.

A pénzügyi idősorok köztudottan nem stacionárius sorok, míg a fenti statisztikai számítások, például a szórás, csak a helyhez kötött sorozatokra vonatkoznak. Ahhoz, hogy a fenti statisztikai eszközöket a nem stacionárius sorozatokra is alkalmazni lehessen, a sorozatot először stacionárius sorozattá kell alakítani, lehetővé téve azoknak a statisztikai eszközöknek a használatát, amelyek már érvényes alapokkal rendelkeznek.

Geometriai értelmezés

Ahhoz, hogy némi geometriai betekintést és tisztázást nyerjünk, három értékű populációval kezdjük, x 1 , x 2 , x 3 . Ez határozza meg a P = ( x 1 , x 2 , x 3 ) pontot R 3 -ban . Tekintsük az L = {( r , r , r ) egyenest : rR }. Ez a "fő átló", amely az eredeten megy keresztül. Ha mind a három megadott értékünk egyenlő lenne, akkor a szórás nulla lenne, és P az L -en feküdne . Tehát ez nem ésszerűtlen azt feltételezni, hogy a szórás összefügg a távolság a P az L . Ez valóban így van. Ahhoz, hogy L -ből ortogonálisan elmozduljunk a P pontba , az adott pontnál kezdjük:

amelynek koordinátái az általunk kezdett értékek átlaga.

Levezetése

ezért egyeseknél be van kapcsolva .

A vonal legyen ortogonális a vektortól kezdve ig . Ezért:

Egy kis algebra azt mutatja, hogy a P és M közötti távolság (amely megegyezik a P és az L egyenes közötti ortogonális távolsággal ) megegyezik a vektor szórásával ( x 1 , x 2 , x 3 ), megszorozva a a vektor méreteinek négyzetgyöke (ebben az esetben 3).

Csebev egyenlőtlensége

Egy megfigyelés ritkán van néhány szórásnál távolabb az átlagtól. Chebyshev egyenlőtlensége biztosítja, hogy minden olyan eloszlás esetén, amelyre a szórás meghatározott, az adatmennyiség az átlag számos szórásán belül legalább annyi legyen, mint az alábbi táblázatban.

Távolság az átlagtól Minimális népesség
50%
2 σ 75%
3 σ 89%
4 σ 94%
5 σ 96%
6 σ 97%

A normálisan elosztott adatokra vonatkozó szabályok

A sötétkék egy szórás az átlag két oldalán. A normál eloszlásnál ez a halmaz 68,27 százalékát teszi ki; míg az átlagtól két szórás (közepes és sötétkék) 95,45 százalék; három szórás (világos, közepes és sötétkék) 99,73 százalék; és négy szórás 99,994 százalékot tesz ki. A görbe két pontja, amely egy szórás az átlagtól, egyben az inflexiós pont is .

A centrális határeloszlás-tétel kimondja, hogy az eloszlás a átlagosan sok független, azonos eloszlású változók felé tendál, a híres harang alakú normális eloszlás egy sűrűségfüggvénye a

ahol μ a várható értéke a valószínűségi változók, σ megegyezik azok eloszlása szórását osztva n 1/2 , és n az a szám a véletlen változók. A szórás tehát egyszerűen egy skálázási változó, amely beállítja, hogy milyen széles lesz a görbe, bár a normalizáló állandóban is megjelenik .

Ha az adateloszlás megközelítőleg normális, akkor az adatértékek arányát az átlag z szórásán belül a következők határozzák meg:

hol a hiba függvény . Az x -nél kisebb vagy azzal egyenlő arányt a kumulatív eloszlásfüggvény adja meg :

.

Ha az adateloszlás megközelítőleg normális, akkor az adatértékek körülbelül 68 százaléka az átlag egy szórásán belül van (matematikailag μ  ±  σ , ahol μ az aritmetikai átlag), körülbelül 95 százaléka két szóráson belül van ( μ  ± 2 σ ), és körülbelül 99,7 százaléka három szóráson belül van ( μ  ± 3 σ ). Ezt 68-95-99,7 szabálynak vagy empirikus szabálynak nevezik .

A z különböző értékei esetén a szimmetrikus intervallumon belül és kívül eső értékek százalékos aránya, CI = ( - ) a következő:

Százalék ( z )
z (százalékon belül)

Bizalmi
intervallum
Arány belül Arány anélkül
Százalék Százalék Töredék
0,318 639 σ 25% 75% 3/4
0,674 490 σ 50 % 50 % 1 / 2
0,977 925 σ 66.6667% 33.3333% 1/3
0,994 458 σ 68% 32% 1 / 3.125
1 σ 68,268 9492 % 31,731 0508 % 1 / 3,151 4872
1,281 552 σ 80% 20% 1 /5
1,644 854 σ 90% 10% 1/10
1,959 964 σ 95% 5% 1/20
2 σ 95,449 9736 % 4,550 0264 % 1 / 21,977 895
2,575 829 σ 99% 1% 1/100
3 σ 99,730 0204 % 0,269 9796 % 1 / 370,398
3,290 527 σ 99,9% 0,1% 1 / 1000
3,890 592 σ 99,99% 0,01% 1 / 10 000
4 σ 99,993 666 % 0,006 334 % 1 / 15 787
4,417 173 σ 99,999% 0,001% 1 / 100 000
4,5 σ 99,999 320 465 3751% 0,000 679 534 6249% 1 / 147 159 .5358
6,8 / 1 000 000
4,891 638 σ 99,9999 % 0,0001 % 1 / 1 000 000
5 σ 99,999 942 6697 % 0,000 057 3303 % 1 / 1 744 278
5,326 724 σ 99,999 99 % 0,000 01 % 1 / 10 000 000
5,730 729 σ 99,999 999 % 0,000 001 % 1 / 100 000 000
6 σ 99,999 999 8027 % 0,000 000 1973 % 1 / 506 797 346
6,109 410 σ 99.999 9999 % 0,000 0001 % 1 / 1 000 000 000
6,4466 951 σ 99.999 999 99 % 0,000 000 01 % 1 / 10 000 000 000
6,806 502 σ 99.999 999 999 % 0,000 000 001 % 1 / 100 000 000 000
7 σ 99.999 999 999 7440% 0,000 000 000 256 % 1 / 390 682 215 445

A szórás és az átlag kapcsolata

Az adathalmazok átlaga és szórása leíró statisztikák, amelyeket általában együtt jelentenek. Bizonyos értelemben a szórás a statisztikai szórás "természetes" mértéke, ha az adatok középpontját az átlag körül mérjük. Ennek az az oka, hogy az átlagtól való szórás kisebb, mint bármely más pont. A pontos állítás a következő: tegyük fel, hogy x 1 , ..., x n valós számok, és határozza meg a függvényt:

Segítségével fogkő vagy kitöltésével a tér , meg lehet mutatni, hogy σ ( r ) egyedi minimum a következőket jelentik:

A változékonyság a variációs együtthatóval is mérhető , ami a szórás és az átlag aránya. Ez egy dimenzió nélküli szám .

Az átlag szórása

Gyakran szeretnénk némi információt a kapott átlag pontosságáról. Ezt a mintavételezett átlag szórásának meghatározásával kaphatjuk meg. A minta értékeinek statisztikai függetlenségét feltételezve, az átlag szórása az eloszlás szórásával függ össze:

ahol N az átlag becsléséhez használt megfigyelések száma a mintában. Ezt könnyen be lehet bizonyítani (lásd a variancia alapvető tulajdonságait ):

(A statisztikai függetlenséget feltételezzük.)

ennélfogva

Eredmény:

Az átlag szórásának becsléséhez előzetesen ismerni kell a teljes populáció szórását . A legtöbb alkalmazásban azonban ez a paraméter ismeretlen. Például, ha egy korábban ismeretlen mennyiség 10 mérési sorozatát végzik el egy laboratóriumban, akkor lehetséges a kapott mintaátlag és a minta szórás kiszámítása, de lehetetlen kiszámítani az átlag szórását.

Gyors számítási módszerek

A következő két képlet egy futó (többször frissített) szórást jelenthet. Két s 1 és s 2 hatványösszeg halmazát számítjuk ki x N értékek halmazán , amelyeket x 1 , ..., x N jelölünk :

A futó összegzések eredményei alapján az N , s 1 , s 2 értékek bármikor felhasználhatók a futó szórás aktuális értékének kiszámításához :

Ahol N, mint fentebb említettük, az értékhalmaz mérete (vagy tekinthető s 0 -nak is ).

Hasonlóan a minta szóráshoz,

Számítógépes megvalósításban, amikor a két s j összeg nagy lesz, figyelembe kell vennünk a kerekítési hibát , az aritmetikai túlcsordulást és az aritmetikai aluláramlást . Az alábbi módszer kiszámítja a futóösszegek módszert csökkentett kerekítési hibákkal. Ez egy "egy lépés" algoritmus n minta varianciájának kiszámításához anélkül, hogy előzetes adatokat kellene tárolni a számítás során. Ezt a módszert alkalmazzuk egy idősor eredményez egymást követő értékeinek szórása megfelelő n adatpontok n növekszik a nagyobb minden új minta, nem pedig egy állandó szélességű csúszóablakos számítás.

A k = 1, ..., N :

ahol A az átlagérték.

Megjegyzés: azóta vagy

Minta variancia:

A populáció szórása:

Súlyozott számítás

Ha az x i értékeket egyenlőtlen w i súlyokkal súlyozzuk , akkor az s 0 , s 1 , s 2 teljesítményösszegeket a következőképpen kell kiszámítani:

És a szórási egyenletek változatlanok maradnak. s 0 most a súlyok összege és nem az N minták száma .

A csökkentett kerekítési hibákkal járó inkrementális módszer is alkalmazható, némi bonyolultsággal.

A súlyok futó összegét minden k -ra ki kell számítani 1 -től n -ig :

és azokat a helyeket, ahol a fenti 1 / n értéket használják, helyébe w i / W n kell cserélni :

Az utolsó osztályban,

és

vagy

ahol n az elemek teljes száma, és n ' a nem nulla súlyú elemek száma.

A fenti képletek egyenlővé válnak a fent megadott egyszerűbb képletekkel, ha a súlyokat egyenlőnek vesszük.

Történelem

A szórás kifejezést először Karl Pearson használta írásban 1894 -ben, miután az előadásokon használta. Ez helyettesítette a korábbi alternatív neveket ugyanazon elképzeléshez: például Gauss átlagos hibát használt .

Magasabb méretek

Két dimenzióban a szórást szemléltethetjük a szórás ellipszissel, lásd: Többváltozós normális eloszlás § Geometriai értelmezés .

A kétdimenziós normál eloszlás szórási ellipszise (zöld).

Lásd még

Hivatkozások

Külső linkek