Hodnota priemernej hodnoty závisí od jednotlivca. Zhrnutie: Priemerné hodnoty používané v štatistike. Výroba pracovníkov brigády za zmenu, ks
Najbežnejším typom priemeru je aritmetický priemer.
jednoduchý aritmetický priemer
Jednoduchý aritmetický priemer je priemerný člen, ktorý určuje, ktorý celkový objem daného atribútu v údajoch je rovnomerne rozdelený medzi všetky jednotky zahrnuté v tejto populácii. Priemerný ročný výkon na pracovníka je teda taká hodnota objemu výkonu, ktorý by pripadol na každého zamestnanca, ak by bol celý objem výkonu rovnomerne rozdelený medzi všetkých zamestnancov organizácie. Jednoduchá aritmetická stredná hodnota sa vypočíta podľa vzorca:
jednoduchý aritmetický priemer— Rovná sa pomeru súčtu jednotlivých hodnôt prvku k počtu prvkov v súhrne
Príklad 1. Tím 6 pracovníkov dostáva 3 3,2 3,3 3,5 3,8 3,1 tisíc rubľov mesačne.
Nájdite priemernú mzdu
Riešenie: (3 + 3,2 + 3,3 +3,5 + 3,8 + 3,1) / 6 = 3,32 tisíc rubľov.
Aritmetický vážený priemer
Ak je objem súboru údajov veľký a predstavuje distribučný rad, vypočíta sa vážený aritmetický priemer. Takto sa určí vážená priemerná cena za jednotku produkcie: celkové výrobné náklady (súčet produktov jej množstva a ceny jednotky produkcie) sa vydelia celkovým množstvom produkcie.
Predstavujeme to vo forme nasledujúceho vzorca:
Vážený aritmetický priemer- rovná sa pomeru (súčet súčinov hodnoty atribútu k frekvencii opakovania tohto atribútu) k (súčet frekvencií všetkých atribútov) Používa sa vtedy, keď sa varianty skúmanej populácie vyskytujú nerovnako. koľkokrát.
Príklad 2. Zistite priemernú mzdu pracovníkov obchodu za mesiac
Priemernú mzdu možno získať vydelením celkovej mzdy celkovým počtom pracovníkov:
Odpoveď: 3,35 tisíc rubľov.
Aritmetický priemer pre intervalový rad
Pri výpočte aritmetického priemeru pre sériu zmien intervalu sa priemer pre každý interval najprv určí ako polovičný súčet hornej a dolnej hranice a potom sa určí priemer celého radu. V prípade otvorených intervalov je hodnota dolného alebo horného intervalu určená hodnotou intervalov susediacich s nimi.
Priemery vypočítané z intervalových radov sú približné.
Príklad 3. Určte priemerný vek žiakov večerného oddelenia.
Priemery vypočítané z intervalových radov sú približné. Miera ich priblíženia závisí od toho, do akej miery sa skutočné rozloženie jednotiek populácie v rámci intervalu približuje rovnomernej.
Pri výpočte priemerov sa ako váhy môžu použiť nielen absolútne, ale aj relatívne hodnoty (frekvencia):
Aritmetický priemer má množstvo vlastností, ktoré úplnejšie odhaľujú jeho podstatu a zjednodušujú výpočet:
1. Súčin priemeru a súčtu početností sa vždy rovná súčtu súčinov variantu a početností, t.j.
2. Aritmetický priemer súčtu meniacich sa hodnôt sa rovná súčtu aritmetických priemerov týchto hodnôt:
3. Algebraický súčet odchýlok jednotlivých hodnôt atribútu od priemeru je nula.
priemerná hodnota- ide o zovšeobecňujúci ukazovateľ, ktorý charakterizuje kvalitatívne homogénnu populáciu podľa určitého kvantitatívneho atribútu. Napríklad priemerný vek osôb odsúdených za krádež.
V súdnej štatistike sa priemery používajú na charakterizáciu:
Priemerné podmienky posudzovania prípadov tejto kategórie;
Stredne veľký nárok;
Priemerný počet obžalovaných na prípad;
Priemerná výška škody;
Priemerná vyťaženosť sudcov a pod.
Priemerná hodnota je vždy pomenovaná a má rovnaký rozmer ako atribút samostatnej jednotky populácie. Každá priemerná hodnota charakterizuje študovanú populáciu podľa ľubovoľného premenlivého atribútu, preto za každým priemerom je séria rozdelenia jednotiek tejto populácie podľa študovaného atribútu. Voľba typu priemeru je daná obsahom ukazovateľa a východiskovým údajom pre výpočet priemeru.
Všetky typy priemerov používaných v štatistických štúdiách spadajú do dvoch kategórií:
1) priemery výkonu;
2) štrukturálne priemery.
Prvá kategória priemerov zahŕňa: aritmetický priemer, harmonický priemer, geometrický priemer a odmocnina stredná štvorec . Druhá kategória je móda a medián. Okrem toho každý z uvedených typov priemerov výkonu môže mať dve formy: jednoduché a vážený . jednoduchá forma stredná hodnota sa používa na získanie priemernej hodnoty študovaného znaku, keď sa výpočet vykonáva na nezoskupených štatistických údajoch, alebo keď sa každý variant v populácii vyskytuje iba raz. Vážené priemery sa nazývajú hodnoty, ktoré berú do úvahy, že možnosti pre hodnoty funkcie môžu mať rôzne čísla, a preto sa každá možnosť musí vynásobiť príslušnou frekvenciou. Inými slovami, každá možnosť je „vážená“ svojou frekvenciou. Frekvencia sa nazýva štatistická váha.
jednoduchý aritmetický priemer- najbežnejší typ média. Rovná sa súčtu jednotlivých charakteristických hodnôt vydelených celkovým počtom týchto hodnôt:
kde x 1, x 2, …, x N- jednotlivé hodnoty atribútu premennej (možnosti) a N - počet jednotiek populácie.
Aritmetický vážený priemer používa sa, keď sú údaje prezentované vo forme distribučných radov alebo zoskupení. Vypočítava sa ako súčet súčinov opcií a ich zodpovedajúcich frekvencií, vydelený súčtom frekvencií všetkých opcií:
kde x i- význam i-té varianty znaku; fi- frekvencia i možnosti.
Každá hodnota variantu je teda vážená svojou frekvenciou, a preto sa frekvencie niekedy nazývajú štatistické váhy.
Komentujte. Pokiaľ ide o aritmetický priemer bez špecifikácie jeho typu, myslí sa jednoduchý aritmetický priemer.
Tabuľka 12
Riešenie. Na výpočet používame vzorec aritmetického váženého priemeru:
Na jednu trestnú vec teda pripadajú v priemere dvaja obžalovaní.
Ak sa výpočet priemernej hodnoty vykonáva podľa údajov zoskupených vo forme intervalových distribučných sérií, potom musíte najprv určiť stredné hodnoty každého intervalu x "i, potom vypočítať priemernú hodnotu pomocou váženého vzorec aritmetického priemeru, v ktorom je x" i nahradené namiesto x i.
Príklad.Údaje o veku zločincov odsúdených za krádež sú uvedené v tabuľke:
Tabuľka 13
Určte priemerný vek zločincov odsúdených za krádež.
Riešenie. Ak chcete určiť priemerný vek zločincov na základe série variácií intervalov, musíte najprv nájsť stredné hodnoty intervalov. Keďže je uvedený intervalový rad s otvoreným prvým a posledným intervalom, hodnoty týchto intervalov sa berú ako rovnaké hodnoty susedných uzavretých intervalov. V našom prípade je hodnota prvého a posledného intervalu 10.
Teraz zistíme priemerný vek zločincov pomocou vzorca váženého aritmetického priemeru:
Priemerný vek páchateľov odsúdených za krádež je teda približne 27 rokov.
Priemerná harmonická jednoduchá je prevrátená hodnota aritmetického priemeru recipročných hodnôt prvku:
kde 1/ x i sú prevrátené hodnoty možností a N je počet jednotiek populácie.
Príklad. Za účelom zistenia priemerného ročného úväzku sudcov okresného súdu pri posudzovaní trestných vecí bol vykonaný prieskum o zaťaženosti 5 sudcov tohto súdu. Priemerný čas strávený na jednej trestnej veci pre každého z opýtaných sudcov bol rovnaký (v dňoch): 6, 0, 5, 6, 6, 3, 4, 9, 5, 4. Zistite priemerné náklady na jedného sudcu trestnej veci a priemernej ročnej záťaži sudcov tohto okresného súdu pri posudzovaní trestných vecí.
Riešenie. Na určenie priemerného času stráveného na jednom kriminálnom prípade používame harmonický jednoduchý vzorec:
Pre zjednodušenie výpočtov v príklade si zoberme počet dní v roku rovný 365 vrátane víkendov (toto nemá vplyv na spôsob výpočtu a pri výpočte podobného ukazovateľa v praxi je potrebné dosadiť počet odprac. dní v konkrétnom roku namiesto 365 dní). Potom priemerné ročné zaťaženie sudcov tohto okresného súdu pri posudzovaní trestných vecí bude: 365 (dní): 5,56 ≈ 65,6 (vecií).
Ak by sme použili jednoduchý vzorec aritmetického priemeru na určenie priemerného času stráveného na jednom trestnom prípade, dostali by sme:
365 (dni): 5,64 ≈ 64,7 (prípady), t.j. priemerná pracovná záťaž sudcov bola nižšia.
Overme si opodstatnenosť tohto prístupu. Na tento účel používame údaje o čase strávenom na jednej trestnej veci pre každého sudcu a vypočítame počet trestných vecí, ktoré každý z nich posudzoval za rok.
Podľa toho dostaneme:
365 (dni): 6 ≈ 61 (prípad), 365 (dni) : 5,6 ≈ 65,2 (prípad), 365 (dni) : 6,3 ≈ 58 (prípad),
365 (dni): 4,9 ≈ 74,5 (prípady), 365 (dni) : 5,4 ≈ 68 (prípady).
Teraz vypočítame priemerné ročné pracovné zaťaženie sudcov tohto okresného súdu pri posudzovaní trestných vecí:
Tie. priemerné ročné zaťaženie je rovnaké ako pri použití harmonického priemeru.
Preto je použitie aritmetického priemeru v tomto prípade nezákonné.
V prípadoch, keď sú známe varianty prvku, ich objemové hodnoty (súčin variantov podľa frekvencie), ale samotné frekvencie nie sú známe, použije sa vzorec harmonického váženého priemeru:
kde x i sú hodnoty možností vlastností a w i sú objemové hodnoty možností ( w i = x i f i).
Príklad.Údaje o cene jednotky rovnakého druhu tovaru vyrobeného rôznymi inštitúciami väzenského systému a o objeme jeho implementácie sú uvedené v tabuľke 14.
Tabuľka 14
Zistite priemernú predajnú cenu produktu.
Riešenie. Pri výpočte priemernej ceny musíme použiť pomer predaného množstva k počtu predaných kusov. Nepoznáme počet predaných kusov, ale poznáme výšku predaja tovaru. Preto na zistenie priemernej ceny predaného tovaru používame vzorec harmonického váženého priemeru. Dostaneme
Ak tu použijete vzorec aritmetického priemeru, môžete získať priemernú cenu, ktorá bude nereálna:
Geometrický priemer sa vypočíta extrahovaním koreňa stupňa N zo súčinu všetkých hodnôt variantov prvkov:
kde x 1, x 2, …, x N- individuálne hodnoty premennej vlastnosti (možnosti) a
N- počet jednotiek obyvateľstva.
Tento typ priemeru sa používa na výpočet priemerných mier rastu časových radov.
odmocnina stredná štvorec sa používa na výpočet štandardnej odchýlky, ktorá je indikátorom variácie, a bude diskutovaná nižšie.
Na určenie štruktúry obyvateľstva sa používajú špeciálne priemery, medzi ktoré patrí medián a móda , alebo takzvané štrukturálne priemery. Ak je aritmetický priemer vypočítaný na základe použitia všetkých variantov hodnôt atribútov, potom medián a mód charakterizujú hodnotu variantu, ktorý zaberá určitú priemernú pozíciu v zoradenej (usporiadanej) sérii. Zoradenie jednotiek štatistickej populácie sa môže uskutočniť vzostupne alebo zostupne podľa variantov študovaného znaku.
Medián (ja) je hodnota, ktorá zodpovedá variantu v strede zoradeného radu. Medián je teda ten variant zoradeného radu, na ktorého oboch stranách v tomto rade by mal byť rovnaký počet populačných jednotiek.
Ak chcete nájsť medián, musíte najprv určiť jeho sériové číslo v zoradenej sérii pomocou vzorca:
kde N je objem série (počet jednotiek populácie).
Ak rad pozostáva z nepárneho počtu členov, potom sa medián rovná variantu s číslom N Me . Ak séria pozostáva z párneho počtu členov, potom je medián definovaný ako aritmetický priemer dvoch susedných možností umiestnených v strede.
Príklad. Daná zoradená séria 1, 2, 3, 3, 6, 7, 9, 9, 10. Objem série je N = 9, čo znamená N Me = (9 + 1) / 2 = 5. Preto Me = 6, t.j. piata možnosť. Ak je v riadku uvedené 1, 5, 7, 9, 11, 14, 15, 16, t.j. séria s párnym počtom členov (N = 8), potom N Me = (8 + 1) / 2 = 4,5. Takže medián sa rovná polovici súčtu štvrtej a piatej možnosti, t.j. Me = (9 + 11)/2 = 10.
V sérii diskrétnych variácií je medián určený akumulovanými frekvenciami. Variantné frekvencie, počnúc prvou, sa sčítavajú, kým sa neprekročí stredný počet. Hodnota posledných sčítaných opcií bude medián.
Príklad. Nájdite priemerný počet obžalovaných na trestný prípad pomocou údajov v tabuľke 12.
Riešenie. V tomto prípade je objem variačnej série N = 154, teda N Me = (154 + 1) / 2 = 77,5. Sčítaním frekvencií prvej a druhej možnosti dostaneme: 75 + 43 = 118, t.j. prekročili sme stredný počet. Takže ja = 2.
V intervalovom variačnom rade distribúcie najprv uveďte interval, v ktorom sa bude nachádzať medián. Volá sa medián . Toto je prvý interval, ktorého kumulatívna frekvencia presahuje polovicu objemu série variácií intervalu. Potom je číselná hodnota mediánu určená vzorcom:
kde x Ja- spodná hranica stredného intervalu; i - hodnota stredného intervalu; S Me-1- akumulovaná frekvencia intervalu, ktorý predchádza mediánu; f Ja- frekvencia stredného intervalu.
Príklad. Nájdite stredný vek páchateľov odsúdených za krádež na základe štatistík uvedených v tabuľke 13.
Riešenie.Štatistické údaje sú reprezentované intervalovým variačným radom, čo znamená, že najskôr určíme medián intervalu. Objem populácie N = 162, teda mediánový interval je interval 18-28, pretože toto je prvý interval, ktorého akumulovaná frekvencia (15 + 90 = 105) presahuje polovicu objemu (162: 2 = 81) série variácií intervalu. Teraz je číselná hodnota mediánu určená vyššie uvedeným vzorcom:
Polovica odsúdených za krádež má teda menej ako 25 rokov.
Móda (Po) pomenujte hodnotu atribútu, ktorá sa najčastejšie nachádza v jednotkách populácie. Móda sa používa na identifikáciu hodnoty vlastnosti, ktorá má najväčšiu distribúciu. Pre diskrétnu sériu bude režimom variant s najvyššou frekvenciou. Napríklad pre samostatné série uvedené v tabuľke 3 Mo= 1, keďže táto hodnota možností zodpovedá najvyššej frekvencii - 75. Na určenie režimu intervalového radu najskôr určte modálny interval (interval s najvyššou frekvenciou). Potom sa v tomto intervale nájde hodnota funkcie, ktorou môže byť režim.
Jeho hodnota sa zistí podľa vzorca:
kde x Po- spodná hranica modálneho intervalu; i - hodnota modálneho intervalu; f Po- frekvencia modálnych intervalov; f Po-1- frekvencia intervalu pred modálom; f Po+1- frekvencia intervalu nasledujúceho po spôsobe.
Príklad. Nájdite vekový režim zločincov odsúdených za krádež, údaje o nich sú uvedené v tabuľke 13.
Riešenie. Najvyššia frekvencia zodpovedá intervalu 18-28, preto musí byť režim v tomto intervale. Jeho hodnota je určená vyššie uvedeným vzorcom:
Najväčší počet odsúdených za krádež má teda 24 rokov.
Priemerná hodnota dáva zovšeobecňujúcu charakteristiku celkového skúmaného javu. Dve populácie s rovnakými priemernými hodnotami sa však môžu od seba výrazne líšiť, pokiaľ ide o stupeň fluktuácie (variácie) hodnoty študovaného znaku. Napríklad na jednom súde boli pridelené tieto tresty odňatia slobody: 3, 3, 3, 4, 5, 5, 5, 12, 12, 15 rokov a na inom - 5, 5, 6, 6, 7, 7 , 7, 8, 8, 8 rokov. V oboch prípadoch je aritmetický priemer 6,7 roka. Tieto agregáty sa však navzájom výrazne líšia v rozptyle jednotlivých hodnôt prideleného trestu odňatia slobody vo vzťahu k priemernej hodnote.
A pre prvý súd, kde je táto odchýlka dosť veľká, priemerná dĺžka trestu odňatia slobody dobre neodráža celú populáciu. Ak sa teda jednotlivé hodnoty atribútu od seba líšia len málo, potom bude aritmetický priemer pomerne indikatívnou charakteristikou vlastností tejto populácie. V opačnom prípade bude aritmetický priemer nespoľahlivou charakteristikou tejto populácie a jeho aplikácia v praxi je neúčinná. Preto je potrebné vziať do úvahy kolísanie hodnôt študovaného znaku.
Variácia- ide o rozdiely v hodnotách charakteristiky v rôznych jednotkách danej populácie v rovnakom období alebo časovom bode. Pojem „variácia“ je latinského pôvodu – variatio, čo znamená rozdiel, zmena, kolísanie. Vzniká v dôsledku skutočnosti, že jednotlivé hodnoty atribútu sa tvoria pod kombinovaným vplyvom rôznych faktorov (podmienok), ktoré sa v každom jednotlivom prípade kombinujú rôznymi spôsobmi. Na meranie variácie vlastnosti sa používajú rôzne absolútne a relatívne ukazovatele.
Medzi hlavné ukazovatele variácie patria:
1) rozsah variácií;
2) priemerná lineárna odchýlka;
3) disperzia;
4) štandardná odchýlka;
5) variačný koeficient.
V krátkosti sa zastavíme pri každom z nich.
Variácia rozpätia R je najdostupnejší absolútny ukazovateľ z hľadiska jednoduchosti výpočtu, ktorý je definovaný ako rozdiel medzi najväčšou a najmenšou hodnotou atribútu pre jednotky tejto populácie:
Rozsah variácie (rozsah fluktuácií) je dôležitým indikátorom variability vlastnosti, ale umožňuje vidieť len extrémne odchýlky, čo obmedzuje jeho rozsah. Na presnejšiu charakterizáciu variácie znaku na základe jeho kolísania sa používajú iné ukazovatele.
Priemerná lineárna odchýlka predstavuje aritmetický priemer absolútnych hodnôt odchýlok jednotlivých hodnôt znaku od priemeru a je určený vzorcami:
1) pre nezoskupené údaje
2) pre variačná séria
Najpoužívanejším meradlom variácie je však disperzia . Charakterizuje mieru šírenia hodnôt študovaného znaku vo vzťahu k jeho priemernej hodnote. Rozptyl je definovaný ako priemer druhej mocniny odchýlok.
jednoduchý rozptyl pre nezoskupené údaje:
Vážený rozptyl pre sériu variácií:
Komentujte. V praxi je na výpočet rozptylu lepšie použiť nasledujúce vzorce:
Pre jednoduchú variáciu
Pre vážený rozptyl
Smerodajná odchýlka je druhá odmocnina z rozptylu:
Smerodajná odchýlka je mierou spoľahlivosti priemeru. Čím je štandardná odchýlka menšia, tým je populácia homogénnejšia a tým lepšie aritmetický priemer odráža celú populáciu.
Miery rozptylu uvedené vyššie (rozsah variácie, rozptyl, smerodajná odchýlka) sú absolútne ukazovatele, podľa ktorých nie je vždy možné posúdiť mieru fluktuácie vlastnosti. V niektorých problémoch je potrebné použiť relatívne indexy rozptylu, z ktorých jeden je variačný koeficient.
Variačný koeficient- vyjadrené ako percento pomeru štandardnej odchýlky k aritmetickému priemeru:
Variačný koeficient sa používa nielen na porovnávacie hodnotenie variácie rôznych znakov alebo rovnakého znaku v rôznych populáciách, ale aj na charakterizáciu homogenity populácie. Štatistická populácia sa považuje za kvantitatívne homogénnu, ak variačný koeficient nepresiahne 33 % (pre distribúcie blízke normálnemu rozdeleniu).
Príklad. O trvaní trestu odňatia slobody 50 odsúdeným odovzdaným na výkon trestu uloženého súdom v ústave na výkon trestu odňatia slobody sú tieto údaje: 5, 4, 2, 1, 6, 3, 4, 3, 2, 2 , 5, 6, 4, 3, 10, 5, 4, 1, 2, 3, 3, 4, 1, 6, 5, 3, 4, 3, 5, 12, 4, 3, 2, 4, 6 , 4, 4, 3, 1, 5, 4, 3, 12, 6, 7, 3, 4, 5, 5, 3.
1. Zostavte distribučnú sériu podľa trestov odňatia slobody.
2. Nájdite priemer, rozptyl a smerodajnú odchýlku.
3. Vypočítajte variačný koeficient a urobte záver o homogenite alebo heterogenite skúmanej populácie.
Riešenie. Na zostavenie diskrétneho distribučného radu je potrebné určiť varianty a frekvencie. Variantom v tomto probléme je doba odňatia slobody a frekvencia je počet jednotlivých variantov. Po vypočítaní frekvencií získame nasledujúce diskrétne distribučné rady:
Nájdite priemer a rozptyl. Keďže štatistické údaje sú reprezentované diskrétnymi variačnými radmi, na ich výpočet použijeme vzorce aritmetického váženého priemeru a rozptylu. Dostaneme:
Teraz vypočítame smerodajnú odchýlku:
Nájdeme variačný koeficient:
V dôsledku toho je štatistická populácia kvantitatívne heterogénna.
Vo väčšine prípadov sú dáta sústredené okolo nejakého centrálneho bodu. Na opísanie akéhokoľvek súboru údajov teda stačí uviesť priemernú hodnotu. Zvážte postupne tri číselné charakteristiky, ktoré sa používajú na odhad strednej hodnoty rozdelenia: aritmetický priemer, medián a modus.
Priemerná
Aritmetický priemer (často označovaný jednoducho ako priemer) je najbežnejším odhadom priemeru rozdelenia. Je to výsledok vydelenia súčtu všetkých pozorovaných číselných hodnôt ich počtom. Na ukážku čísel X 1, X 2, ..., Xn, priemer vzorky (označený symbolom ) sa rovná \u003d (X 1 + X 2 + ... + Xn) / n, alebo
kde je priemer vzorky, n- veľkosť vzorky, Xi – i-tý prvok vzorky.
Stiahnite si poznámku vo formáte alebo formáte, príklady vo formáte
Zvážte výpočet aritmetického priemeru päťročných priemerných ročných výnosov 15 podielových fondov s veľmi vysoký stupeň riziko (obr. 1).
Ryža. 1. Priemerný ročný výnos 15 veľmi rizikových podielových fondov
Priemer vzorky sa vypočíta takto:
Ide o dobrý výnos, najmä v porovnaní s výnosom 3 – 4 %, ktorý vkladatelia bánk alebo družstevných bánk dostali za rovnaké časové obdobie. Ak zoradíte hodnoty výnosov, ľahko zistíte, že osem fondov má výnos nad priemerom a sedem pod priemerom. Aritmetický priemer funguje ako bilančný bod, takže nízkopríjmové fondy vyvažujú vysokopríjmové fondy. Všetky prvky vzorky sa podieľajú na výpočte priemeru. Žiadny z ostatných odhadcov priemeru rozdelenia nemá túto vlastnosť.
Kedy vypočítať aritmetický priemer. Keďže aritmetický priemer závisí od všetkých prvkov vzorky, prítomnosť extrémnych hodnôt výrazne ovplyvňuje výsledok. V takýchto situáciách môže aritmetický priemer skresliť význam číselných údajov. Preto pri popise súboru údajov obsahujúcich extrémne hodnoty je potrebné uviesť medián alebo aritmetický priemer a medián. Ak sa napríklad zo vzorky odstráni výnos fondu RS Emerging Growth, vzorový priemer výnosu 14 fondov sa zníži o takmer 1 % na 5,19 %.
Medián
Medián je stredná hodnota usporiadaného poľa čísel. Ak pole neobsahuje opakujúce sa čísla, polovica jeho prvkov bude menšia a polovica väčšia ako medián. Ak vzorka obsahuje extrémne hodnoty, je lepšie použiť na odhad priemeru skôr medián ako aritmetický priemer. Ak chcete vypočítať medián vzorky, musíte ju najskôr zoradiť.
Tento vzorec je nejednoznačný. Jeho výsledok závisí od toho, či je číslo párne alebo nepárne. n:
- Ak vzorka obsahuje nepárny počet položiek, medián je (n+1)/2- prvok.
- Ak vzorka obsahuje párny počet prvkov, medián leží medzi dvoma strednými prvkami vzorky a rovná sa aritmetickému priemeru vypočítanému pre tieto dva prvky.
Na výpočet mediánu pre vzorku 15 veľmi rizikových podielových fondov musíme najskôr zoradiť nespracované údaje (obrázok 2). Potom bude medián oproti číslu stredného prvku vzorky; v našom príklade číslo 8. Excel má špeciálnu funkciu =MEDIAN(), ktorá pracuje aj s neusporiadanými poľami.
Ryža. 2. Medián 15 fondov
Medián je teda 6,5. To znamená, že polovica veľmi rizikových fondov nepresahuje 6,5, zatiaľ čo druhá polovica áno. Všimnite si, že medián 6,5 je o niečo väčší ako medián 6,08.
Ak zo vzorky odstránime ziskovosť fondu RS Emerging Growth, tak medián zostávajúcich 14 fondov klesne na 6,2 %, teda nie tak výrazne ako aritmetický priemer (obr. 3).
Ryža. 3. Medián 14 fondov
Móda
Termín prvýkrát zaviedol Pearson v roku 1894. Móda je číslo, ktoré sa vo vzorke vyskytuje najčastejšie (najmódnejšie). Móda dobre popisuje napríklad typickú reakciu vodičov na semafor, aby zastavili premávku. Klasickým príkladom využitia módy je výber veľkosti vyrábanej šarže topánok či farby tapety. Ak má distribúcia viacero režimov, potom sa hovorí, že je multimodálna alebo multimodálna (má dva alebo viac „vrcholov“). Multimodálna distribúcia poskytuje dôležité informácie o povahe skúmanej premennej. Napríklad v sociologických prieskumoch, ak premenná predstavuje preferenciu alebo postoj k niečomu, potom multimodalita môže znamenať, že existuje niekoľko výrazne odlišných názorov. Multimodalita tiež slúži ako indikátor toho, že vzorka nie je homogénna a pozorovania môžu byť generované dvoma alebo viacerými "prekrývajúcimi sa" distribúciami. Na rozdiel od aritmetického priemeru odľahlé hodnoty neovplyvňujú režim. Pre priebežne distribuované náhodné premenné, ako sú priemerné ročné výnosy podielových fondov, režim niekedy vôbec neexistuje (alebo nedáva zmysel). Keďže tieto indikátory môžu nadobúdať rôzne hodnoty, opakujúce sa hodnoty sú extrémne zriedkavé.
Kvartily
Kvartily sú miery, ktoré sa najčastejšie používajú na vyhodnotenie distribúcie údajov pri popise vlastností veľkých numerických vzoriek. Zatiaľ čo medián rozdeľuje usporiadané pole na polovicu (50 % prvkov poľa je menších ako medián a 50 % je väčších), kvartily rozdeľujú usporiadaný súbor údajov na štyri časti. Hodnoty Q1, medián a Q3 sú 25., 50. a 75. percentil. Prvý kvartil Q 1 je číslo, ktoré rozdeľuje vzorku na dve časti: 25 % prvkov je menších ako prvý kvartil a 75 % je viac ako prvý kvartil.
Tretí kvartil Q 3 je číslo, ktoré tiež rozdeľuje vzorku na dve časti: 75 % prvkov je menej ako a 25 % je viac ako tretí kvartil.
Na výpočet kvartilov vo verziách Excelu pred rokom 2007 sa použila funkcia =QUARTILE(pole, časť). Počnúc Excelom 2010 platia dve funkcie:
- =QUARTILE.ON(pole, časť)
- =QUARTILE.EXC(pole; časť)
Tieto dve funkcie poskytujú mierne odlišné hodnoty (obrázok 4). Napríklad pri výpočte kvartilov vzorky obsahujúcej údaje o priemernom ročnom výnose 15 veľmi rizikových podielových fondov je Q 1 = 1,8 alebo -0,7 pre QUARTILE.INC a QUARTILE.EXC, resp. Mimochodom, skôr použitá funkcia QUARTILE zodpovedá modernej funkcii QUARTILE.ON. Ak chcete vypočítať kvartily v programe Excel pomocou vyššie uvedených vzorcov, pole údajov môžete ponechať bez poradia.
Ryža. 4. Vypočítajte kvartily v Exceli
Ešte raz zdôraznime. Excel dokáže vypočítať kvartily pre jednorozmerné diskrétne série, ktorý obsahuje hodnoty náhodnej premennej. Výpočet kvartilov pre frekvenčné rozdelenie je uvedený v časti nižšie.
geometrický priemer
Na rozdiel od aritmetického priemeru geometrický priemer meria, ako sa premenná zmenila v priebehu času. Geometrický priemer je koreň n stupňa z produktu n hodnoty (v Exceli sa používa funkcia = CUGEOM):
G= (X 1 * X 2 * ... * X n) 1/n
Podobný parameter - geometrický priemer miery návratnosti - je určený vzorcom:
G \u003d [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,
kde RI- miera návratnosti i-té časové obdobie.
Predpokladajme napríklad, že počiatočná investícia je 100 000 USD. Do konca prvého roka klesne na 50 000 USD a do konca druhého roka sa vráti na pôvodných 100 000 USD. Miera návratnosti tejto investície počas dvoch ročné obdobie sa rovná 0, keďže počiatočná a konečná výška prostriedkov sa navzájom rovnajú. Aritmetický priemer ročnej miery návratnosti je však = (-0,5 + 1) / 2 = 0,25 alebo 25 %, pretože miera návratnosti v prvom roku R 1 = (50 000 - 100 000) / 100 000 = -0,5 a v druhom R 2 = (100 000 - 50 000) / 50 000 = 1. Zároveň geometrický priemer miery návratnosti za dva roky je: G = [(1–0,5) * (1 + 1 )] 1 /2 – 1 = ½ – 1 = 1 – 1 = 0. Geometrický priemer teda presnejšie odráža zmenu (presnejšie, žiadnu zmenu) v objeme investície za dvojročné obdobie ako aritmetický priemer.
Zaujímavosti. Po prvé, geometrický priemer bude vždy menší ako aritmetický priemer tých istých čísel. Okrem prípadu, keď sú všetky prevzaté čísla navzájom rovnaké. Po druhé, po zvážení vlastností pravouhlého trojuholníka je možné pochopiť, prečo sa priemer nazýva geometrický. Výška pravouhlého trojuholníka zníženého k prepone je priemerná úmernosť medzi projekciami nôh na preponu a každá noha je priemernou úmernosťou medzi preponou a jej projekciou na preponu (obr. 5). Toto poskytuje geometrický spôsob konštrukcie geometrického priemeru dvoch (dĺžok) segmentov: musíte zostaviť kruh na súčte týchto dvoch segmentov ako priemer, potom výšku, obnovenú od bodu ich spojenia po priesečník s kruh, poskytne požadovanú hodnotu:
Ryža. 5. Geometrický charakter geometrického priemeru (obrázok z Wikipédie)
Druhou dôležitou vlastnosťou číselných údajov je ich variácia charakterizujúce stupeň rozptylu údajov. Dve rôzne vzorky sa môžu líšiť v stredných hodnotách aj vo variáciách. Avšak, ako je znázornené na obr. 6 a 7, dve vzorky môžu mať rovnakú variáciu, ale rôzne priemery, alebo rovnakú strednú hodnotu a úplne odlišnú variáciu. Údaje zodpovedajúce polygónu B na obr. 7 sa menia oveľa menej ako údaje, z ktorých bol polygón A zostavený.
Ryža. 6. Dve symetrické distribúcie v tvare zvona s rovnakým rozptylom a rôznymi strednými hodnotami
Ryža. 7. Dve symetrické distribúcie v tvare zvona s rovnakými strednými hodnotami a rôznym rozptylom
Existuje päť odhadov variácií údajov:
- rozpätie,
- medzikvartilový rozsah,
- rozptyl,
- štandardná odchýlka,
- variačný koeficient.
rozsah
Rozsah je rozdiel medzi najväčším a najmenšie prvky vzorky:
Potiahnutie = XMax-XMin
Rozsah vzorky obsahujúcej údaje o priemerných ročných výnosoch 15 veľmi rizikových podielových fondov možno vypočítať pomocou usporiadaného poľa (pozri obrázok 4): rozsah = 18,5 - (-6,1) = 24,6. To znamená, že rozdiel medzi najvyšším a najnižším priemerným ročným výnosom pre veľmi rizikové fondy je 24,6 %.
Rozsah meria celkové rozšírenie údajov. Hoci rozsah vzoriek je veľmi jednoduchým odhadom celkového rozptylu údajov, jeho slabinou je, že nezohľadňuje presne to, ako sú údaje rozdelené medzi minimálny a maximálny prvok. Tento efekt je dobre viditeľný na obr. 8, ktorý znázorňuje vzorky s rovnakým rozsahom. Stupnica B ukazuje, že ak vzorka obsahuje aspoň jednu extrémnu hodnotu, rozsah vzorky je veľmi nepresným odhadom rozptylu údajov.
Ryža. 8. Porovnanie troch vzoriek s rovnakým rozsahom; trojuholník symbolizuje podporu rovnováhy a jeho umiestnenie zodpovedá priemernej hodnote vzorky
Interkvartilný rozsah
Interkvartil alebo priemerný rozsah je rozdiel medzi tretím a prvým kvartilom vzorky:
Medzikvartilový rozsah \u003d Q 3 – Q 1
Táto hodnota umožňuje odhadnúť rozšírenie 50% prvkov a nebrať do úvahy vplyv extrémnych prvkov. Interkvartilové rozpätie pre vzorku obsahujúcu údaje o priemerných ročných výnosoch 15 veľmi rizikových podielových fondov možno vypočítať pomocou údajov na obr. 4 (napríklad pre funkciu QUARTILE.EXC): Interkvartilový rozsah = 9,8 - (-0,7) = 10,5. Interval medzi 9,8 a -0,7 sa často označuje ako stredná polovica.
Treba poznamenať, že hodnoty Q 1 a Q 3, a teda medzikvartilové rozpätie, nezávisia od prítomnosti odľahlých hodnôt, pretože ich výpočet neberie do úvahy žiadnu hodnotu, ktorá by bola menšia ako Q 1 alebo väčšia ako Q 3 . Celkové kvantitatívne charakteristiky, ako je medián, prvý a tretí kvartil a medzikvartilové rozpätie, ktoré nie sú ovplyvnené odľahlými hodnotami, sa nazývajú robustné ukazovatele.
Zatiaľ čo rozsah a medzikvartilový rozsah poskytujú odhad celkového a stredného rozptylu vzorky, ani jeden z týchto odhadov nezohľadňuje presne to, ako sú údaje rozdelené. Rozptyl a štandardná odchýlka bez tohto nedostatku. Tieto ukazovatele vám umožňujú posúdiť mieru kolísania údajov okolo priemeru. Ukážkový rozptyl je aproximácia aritmetického priemeru vypočítaného zo štvorcových rozdielov medzi každým prvkom vzorky a priemerom vzorky. Pre vzorku X 1 , X 2 , ... X n je rozptyl vzorky (označený symbolom S 2 daný nasledujúcim vzorcom:
Vo všeobecnosti je rozptyl vzorky súčet štvorcových rozdielov medzi prvkami vzorky a priemerom vzorky, delený hodnotou rovnajúcou sa veľkosti vzorky mínus jedna:
kde - aritmetický priemer, n- veľkosť vzorky, X i - i- prvok vzorky X. V Exceli pred verziou 2007 sa na výpočet rozptylu vzorky používala funkcia =VAR(), od verzie 2010 sa používa funkcia =VAR.V().
Najpraktickejší a všeobecne akceptovaný odhad rozptylu údajov je smerodajná odchýlka. Tento indikátor je označený symbolom S a rovná sa odmocnina zo vzorového rozptylu:
V Exceli pred verziou 2007 sa na výpočet smerodajnej odchýlky používala funkcia =STDEV(), od verzie 2010 funkcia =STDEV.B(). Na výpočet týchto funkcií je možné zmeniť poradie dátového poľa.
Ani odchýlka vzorky, ani štandardná odchýlka vzorky nemôžu byť negatívne. Jediná situácia, v ktorej môžu byť ukazovatele S 2 a S nulové, je, ak sú všetky prvky vzorky rovnaké. V tomto úplne nepravdepodobnom prípade je rozsah a medzikvartilový rozsah tiež nulový.
Číselné údaje sú vo svojej podstate nestále. Každá premenná môže nadobúdať rôzne hodnoty. Napríklad rôzne podielové fondy majú rôznu mieru návratnosti a straty. Vzhľadom na variabilitu číselných údajov je veľmi dôležité študovať nielen odhady priemeru, ktoré sú sumatívneho charakteru, ale aj odhady rozptylu, ktoré charakterizujú rozptyl údajov.
Rozptyl a štandardná odchýlka nám umožňujú odhadnúť rozptyl údajov okolo priemeru, inými slovami, určiť, koľko prvkov vzorky je menších ako priemer a koľko väčších. Disperzia má niektoré cenné matematické vlastnosti. Jeho hodnota je však druhá mocnina mernej jednotky – štvorcové percento, štvorcový dolár, štvorcový palec atď. Prirodzeným odhadom rozptylu je preto smerodajná odchýlka, ktorá sa vyjadruje v obvyklých merných jednotkách – percentách príjmu, dolároch alebo palcoch.
Smerodajná odchýlka vám umožňuje odhadnúť mieru fluktuácie prvkov vzorky okolo strednej hodnoty. Takmer vo všetkých situáciách sa väčšina pozorovaných hodnôt pohybuje v rozmedzí plus alebo mínus jednej štandardnej odchýlky od priemeru. Preto, keď poznáme aritmetický priemer prvkov vzorky a štandardnú odchýlku vzorky, je možné určiť interval, do ktorého patrí väčšina údajov.
Štandardná odchýlka výnosov 15 veľmi rizikových podielových fondov je 6,6 (obrázok 9). To znamená, že výnosnosť väčšiny fondov sa od priemernej hodnoty líši najviac o 6,6 % (t. j. kolíše v rozmedzí od – S= 6,2 – 6,6 = –0,4 až +S= 12,8). V skutočnosti tento interval obsahuje päťročný priemerný ročný výnos 53,3 % (8 z 15) fondov.
Ryža. 9. Smerodajná odchýlka
Všimnite si, že v procese sčítania druhých mocnín rozdielov získavajú položky, ktoré sú ďalej od priemeru, väčšiu váhu ako položky, ktoré sú bližšie. Táto vlastnosť je hlavným dôvodom, prečo sa aritmetický priemer najčastejšie používa na odhad priemeru rozdelenia.
Variačný koeficient
Na rozdiel od predchádzajúcich odhadov rozptylu je variačný koeficient relatívnym odhadom. Vždy sa meria v percentách, nie v pôvodných dátových jednotkách. Variačný koeficient, označený symbolmi CV, meria rozptyl dát okolo priemeru. Variačný koeficient sa rovná štandardnej odchýlke vydelenej aritmetickým priemerom a vynásobenej 100 %:
kde S- štandardná odchýlka vzorky, - vzorový priemer.
Variačný koeficient vám umožňuje porovnať dve vzorky, ktorých prvky sú vyjadrené v rôznych jednotkách merania. Napríklad manažér poštovej doručovacej služby má v úmysle modernizovať vozový park nákladných vozidiel. Pri nakladaní balíkov je potrebné zvážiť dva typy obmedzení: hmotnosť (v librách) a objem (v kubických stopách) každého balíka. Predpokladajme, že vo vzorke 200 vriec je priemerná hmotnosť 26,0 libier, štandardná odchýlka hmotnosti je 3,9 libier, priemerný objem balenia je 8,8 kubických stôp a štandardná odchýlka objemu je 2,2 kubických stôp. Ako porovnať rozloženie hmotnosti a objemu balíkov?
Keďže merné jednotky hmotnosti a objemu sa navzájom líšia, manažér musí porovnať relatívny rozptyl týchto hodnôt. Hmotnostný variačný koeficient je CV W = 3,9 / 26,0 * 100 % = 15 % a objemový variačný koeficient CV V = 2,2 / 8,8 * 100 % = 25 %. Relatívny rozptyl objemov paketov je teda oveľa väčší ako relatívny rozptyl ich váh.
Distribučný formulár
Treťou dôležitou vlastnosťou vzorky je forma jej rozloženia. Toto rozdelenie môže byť symetrické alebo asymetrické. Na opísanie tvaru rozdelenia je potrebné vypočítať jeho priemer a medián. Ak sú tieto dve miery rovnaké, hovorí sa, že premenná je symetricky rozdelená. Ak je stredná hodnota premennej väčšia ako medián, jej rozdelenie má kladnú šikmosť (obr. 10). Ak je medián väčší ako priemer, distribúcia premennej je negatívne skreslená. Pozitívna šikmosť nastáva, keď sa priemer zvýši na nezvyčajne vysoké hodnoty. Negatívna šikmosť nastane, keď priemer klesne na nezvyčajne malé hodnoty. Premenná je symetricky rozdelená, ak nenadobúda žiadne extrémne hodnoty v žiadnom smere, takže veľké a malé hodnoty premennej sa navzájom rušia.
Ryža. 10. Tri typy rozvodov
Údaje zobrazené na stupnici A majú zápornú odchýlku. Tento obrázok ukazuje dlhý chvost a skosenie doľava, spôsobené prítomnosťou nezvyčajne malých hodnôt. Tieto extrémne malé hodnoty posúvajú strednú hodnotu doľava a je menšia ako medián. Údaje zobrazené na stupnici B sú rozdelené symetricky. Ľavá a pravá polovica distribúcie sú ich zrkadlové obrazy. Veľké a malé hodnoty sa navzájom vyrovnávajú a priemer a medián sú rovnaké. Údaje uvedené na stupnici B majú kladnú odchýlku. Tento obrázok ukazuje dlhý chvost a skosenie doprava, spôsobené prítomnosťou nezvyčajne vysokých hodnôt. Tieto príliš veľké hodnoty posúvajú priemer doprava a ten je väčší ako medián.
V Exceli je možné získať popisné štatistiky pomocou doplnku Analytický balík. Prejdite si menu Údaje → Analýza dát, v okne, ktoré sa otvorí, vyberte riadok Deskriptívna štatistika a kliknite Dobre. V okne Deskriptívna štatistika určite uveďte vstupný interval(obr. 11). Ak chcete zobraziť popisnú štatistiku na rovnakom hárku ako pôvodné údaje, vyberte prepínač výstupný interval a zadajte bunku, do ktorej chcete umiestniť ľavý horný roh zobrazenej štatistiky (v našom príklade $C$1). Ak chcete vytlačiť údaje do nového hárka alebo do nového zošita, jednoducho vyberte príslušný prepínač. Začiarknite políčko vedľa Záverečná štatistika. Voliteľne si môžete vybrať aj vy Obtiažnosť,k-tý najmenší ak-tý najväčší.
Ak na zálohu Údaje v oblasti Analýza nevidíte ikonu Analýza dát, musíte najprv nainštalovať doplnok Analytický balík(pozri napríklad).
Ryža. 11. Popisná štatistika päťročných priemerných ročných výnosov fondov s veľmi vysokou mierou rizika, vypočítaná pomocou doplnku Analýza dát Excel programy
Excel vypočítava množstvo štatistík uvedených vyššie: priemer, medián, režim, štandardná odchýlka, rozptyl, rozsah ( interval), minimálna, maximálna a veľkosť vzorky ( skontrolovať). Okrem toho Excel pre nás vypočítava niektoré nové štatistiky: štandardnú chybu, špičatosť a šikmosť. štandardná chyba sa rovná štandardnej odchýlke vydelenej druhou odmocninou veľkosti vzorky. Asymetria charakterizuje odchýlku od symetrie rozdelenia a je funkciou, ktorá závisí od kocky rozdielov medzi prvkami vzorky a strednou hodnotou. Kurtóza je miera relatívnej koncentrácie údajov okolo priemeru verzus konce distribúcie a závisí od rozdielov medzi vzorkou a priemerom zvýšeným na štvrtú mocninu.
Výpočet deskriptívnej štatistiky pre všeobecnú populáciu
Priemer, rozptyl a tvar distribúcie diskutovaný vyššie sú charakteristiky založené na vzorke. Ak však súbor údajov obsahuje číselné merania celej populácie, potom je možné vypočítať jeho parametre. Tieto parametre zahŕňajú priemer, rozptyl a štandardnú odchýlku populácie.
Očakávaná hodnota sa rovná súčtu všetkých hodnôt bežnej populácie vydelenému objemom bežnej populácie:
kde µ - očakávaná hodnota, Xi- i-té premenné pozorovanie X, N- objem bežnej populácie. V Exceli sa na výpočet matematického očakávania používa rovnaká funkcia ako pre aritmetický priemer: =AVERAGE().
Populačný rozptyl rovný súčtu druhých mocnín rozdielov medzi prvkami bežnej populácie a mat. očakávanie delené veľkosťou populácie:
kde σ2 je rozptyl bežnej populácie. Excel pred verziou 2007 používa funkciu =VAR() na výpočet rozptylu populácie, počnúc verziou 2010 =VAR.G().
smerodajná odchýlka populácie sa rovná druhej odmocnine populačného rozptylu:
Pred Excelom 2007 sa na výpočet smerodajnej odchýlky populácie používala funkcia =SDV() od verzie 2010 =SDV.Y(). Všimnite si, že vzorce pre rozptyl populácie a štandardnú odchýlku sa líšia od vzorcov pre rozptyl vzorky a štandardnú odchýlku. Pri výpočte štatistiky vzorky S2 a S menovateľ zlomku je n - 1 a pri výpočte parametrov σ2 a σ - objem bežnej populácie N.
pravidlo palca
Vo väčšine situácií sa veľká časť pozorovaní sústreďuje okolo mediánu a vytvára zhluk. V súboroch údajov s kladným zošikmením sa tento zhluk nachádza naľavo (t. j. pod) od matematického očakávania a v súboroch so záporným zošikmením je tento zhluk umiestnený napravo (t. j. nad) od matematického očakávania. Symetrické údaje majú rovnaký priemer a medián a pozorovania sa zhlukujú okolo priemeru, čím sa vytvorí zvonovitá distribúcia. Ak distribúcia nemá výraznú šikmosť a údaje sú sústredené okolo určitého ťažiska, na odhad variability možno použiť orientačné pravidlo, ktoré hovorí: ak majú údaje zvonovité rozdelenie, potom približne 68 % pozorovaní sú v rámci jednej štandardnej odchýlky od matematického očakávania, približne 95 % pozorovaní je v rámci dvoch štandardných odchýlok od očakávanej hodnoty a 99,7 % pozorovaní je v rámci troch štandardných odchýlok od očakávanej hodnoty.
Štandardná odchýlka, ktorá je odhadom priemernej fluktuácie okolo matematického očakávania, teda pomáha pochopiť, ako sú pozorovania rozdelené a identifikovať odľahlé hodnoty. Z praktického pravidla vyplýva, že pre zvonovité rozdelenia sa iba jedna hodnota z dvadsiatich líši od matematického očakávania o viac ako dve štandardné odchýlky. Preto hodnoty mimo intervalu u ± 2σ, možno považovať za odľahlé hodnoty. Okrem toho len tri z 1000 pozorovaní sa líšia od matematického očakávania o viac ako tri štandardné odchýlky. Teda hodnoty mimo intervalu u ± 3σ sú takmer vždy odľahlé. Pre distribúcie, ktoré sú veľmi zošikmené alebo nemajú zvonovitý tvar, možno použiť pravidlo Biename-Chebyshev.
Pred viac ako sto rokmi matematici Bienamay a Chebyshev nezávisle objavili užitočný majetok smerodajná odchýlka. Zistili, že pre akýkoľvek súbor údajov, bez ohľadu na tvar rozloženia, percento pozorovaní, ktoré ležia vo vzdialenosti nepresahujúcej kštandardné odchýlky od matematického očakávania, nie menej (1 – 1/ 2)*100%.
Napríklad, ak k= 2, Biename-Čebyševovo pravidlo hovorí, že aspoň (1 - (1/2) 2) x 100 % = 75 % pozorovaní musí ležať v intervale u ± 2σ. Toto pravidlo platí pre každého k presahujúce jednu. Biename-Čebyševovo pravidlo má veľmi všeobecný charakter a platí pre distribúcie akéhokoľvek druhu. Označuje minimálny počet pozorovaní, pričom vzdialenosť, od ktorej k matematickému očakávaniu nepresahuje danú hodnotu. Ak je však distribúcia v tvare zvona, orientačné pravidlo presnejšie odhadne koncentráciu údajov okolo priemeru.
Výpočet popisnej štatistiky pre distribúciu založenú na frekvencii
Ak pôvodné údaje nie sú k dispozícii, jediným zdrojom informácií sa stáva rozloženie frekvencie. V takýchto situáciách je možné vypočítať približné hodnoty kvantitatívnych ukazovateľov rozdelenia, ako je aritmetický priemer, štandardná odchýlka, kvartily.
Ak sú údaje vzorky prezentované ako frekvenčné rozdelenie, možno vypočítať približnú hodnotu aritmetického priemeru za predpokladu, že všetky hodnoty v rámci každej triedy sú sústredené v strede triedy:
kde - vzorový priemer, n- počet pozorovaní alebo veľkosť vzorky, s- počet tried v rozdelení frekvencií, mj- stredný bod j- trieda, fj- frekvencia zodpovedajúca j- trieda.
Na výpočet štandardnej odchýlky od distribúcie frekvencií sa tiež predpokladá, že všetky hodnoty v rámci každej triedy sú sústredené v strede triedy.
Aby sme pochopili, ako sa na základe frekvencií určujú kvartily série, uvažujme o výpočte dolného kvartilu na základe údajov za rok 2013 o rozdelení ruskej populácie podľa priemerného peňažného príjmu na obyvateľa (obr. 12).
Ryža. 12. Podiel obyvateľstva Ruska s peňažným príjmom na obyvateľa v priemere za mesiac, rubľov
Na výpočet prvého kvartilu série variácií intervalu môžete použiť vzorec:
kde Q1 je hodnota prvého kvartilu, xQ1 je spodná hranica intervalu obsahujúceho prvý kvartil (interval je určený akumulovanou frekvenciou, pričom prvý presahuje 25 %); i je hodnota intervalu; Σf je súčet frekvencií celej vzorky; pravdepodobne sa vždy rovná 100 %; SQ1–1 je kumulatívna frekvencia intervalu predchádzajúceho intervalu obsahujúcemu dolný kvartil; fQ1 je frekvencia intervalu obsahujúceho dolný kvartil. Vzorec pre tretí kvartil sa líši v tom, že na všetkých miestach namiesto Q1 musíte použiť Q3 a nahradiť ¾ namiesto ¼.
V našom príklade (obr. 12) je dolný kvartil v rozmedzí 7000,1 - 10 000, ktorého kumulatívna frekvencia je 26,4 %. Dolná hranica tohto intervalu je 7000 rubľov, hodnota intervalu je 3000 rubľov, akumulovaná frekvencia intervalu predchádzajúceho intervalu obsahujúceho dolný kvartil je 13,4 %, frekvencia intervalu obsahujúceho dolný kvartil je 13,0 %. Teda: Q1 \u003d 7000 + 3000 * (¼ * 100 - 13,4) / 13 \u003d 9677 rubľov.
Úskalia spojené s popisnou štatistikou
V tejto poznámke sme sa pozreli na to, ako opísať súbor údajov pomocou rôznych štatistík, ktoré odhadujú jeho priemer, rozptyl a distribúciu. ďalši krok je analýza a interpretácia údajov. Doteraz sme študovali objektívne vlastnosti údajov a teraz prejdeme k ich subjektívnej interpretácii. Na výskumníka číhajú dve chyby: nesprávne zvolený predmet analýzy a nesprávna interpretácia výsledkov.
Analýza výkonnosti 15 veľmi rizikových podielových fondov je pomerne nezaujatá. Dospel k úplne objektívnym záverom: všetky podielové fondy majú rozdielne výnosy, rozpätie výnosov fondov sa pohybuje od -6,1 do 18,5 a priemerný výnos je 6,08. Objektivita analýzy dát je zabezpečená správna voľba celkové kvantitatívne ukazovatele distribúcie. Zvažovalo sa niekoľko metód odhadu priemeru a rozptylu údajov a naznačili sa ich výhody a nevýhody. Ako si vybrať správnu štatistiku, ktorá poskytuje objektívnu a nezaujatú analýzu? Ak je distribúcia údajov mierne skreslená, mal by sa medián zvoliť pred aritmetickým priemerom? Ktorý ukazovateľ presnejšie charakterizuje rozptyl údajov: smerodajná odchýlka alebo rozsah? Mala by byť uvedená kladná šikmosť rozdelenia?
Na druhej strane je interpretácia údajov subjektívnym procesom. Rôzni ľudia prichádzajú k rôznym záverom, interpretujúc rovnaké výsledky. Každý má svoj vlastný uhol pohľadu. Niekto považuje celkové priemerné ročné výnosy 15 fondov s veľmi vysokou mierou rizika za dobré a je celkom spokojný s dosiahnutým príjmom. Iní si môžu myslieť, že tieto fondy majú príliš nízke výnosy. Subjektivita by teda mala byť kompenzovaná čestnosťou, neutralitou a jasnosťou záverov.
Etické problémy
Analýza údajov je neoddeliteľne spojená s etickými otázkami. Mali by sme byť kritickí voči informáciám šíreným novinami, rozhlasom, televíziou a internetom. Časom sa naučíte byť skeptickí nielen k výsledkom, ale aj k cieľom, predmetu a objektivite výskumu. Slávna osobnosť to povedala najlepšie Britský politik Benjamin Disraeli: "Existujú tri druhy klamstiev: klamstvá, prekliate klamstvá a štatistiky."
Ako sa uvádza v poznámke, pri výbere výsledkov, ktoré by sa mali prezentovať v správe, vznikajú etické problémy. Mali by sa zverejňovať pozitívne aj negatívne výsledky. Okrem toho pri vypracovaní správy alebo písomnej správy musia byť výsledky prezentované čestne, neutrálne a objektívne. Rozlišujte medzi zlou a nečestnou prezentáciou. K tomu je potrebné určiť, aké boli zámery rečníka. Niekedy rečník vynechá dôležité informácie z nevedomosti a niekedy úmyselne (napríklad ak použije aritmetický priemer na odhadnutie priemeru jasne skreslených údajov, aby získal požadovaný výsledok). Nečestné je aj potláčanie výsledkov, ktoré nezodpovedajú pohľadu výskumníka.
Využívajú sa materiály z knihy Levin et al Štatistika pre manažérov. - M.: Williams, 2004. - s. 178–209
Funkcia QUARTILE bola zachovaná, aby bola v súlade so staršími verziami Excelu
Znaky jednotiek štatistických agregátov sú odlišné vo svojom význame, napríklad mzdy pracovníkov jednej profesie podniku nie sú rovnaké za rovnaké obdobie, trhové ceny za rovnaké produkty sú rôzne, výnosy plodín na farmách regiónu atď. Preto, aby sa určila hodnota vlastnosti charakteristickej pre celú populáciu skúmaných jednotiek, vypočítajú sa priemerné hodnoty.
priemerná hodnota –
je to zovšeobecňujúca charakteristika súboru individuálnych hodnôt nejakého kvantitatívneho znaku.
Populácia skúmaná kvantitatívnym atribútom pozostáva z individuálnych hodnôt; sú ovplyvnené tak všeobecnými príčinami, ako aj individuálnymi stavmi. V priemernej hodnote sa rušia odchýlky charakteristické pre jednotlivé hodnoty. Priemer, ktorý je funkciou súboru jednotlivých hodnôt, predstavuje celý súbor s jednou hodnotou a odráža spoločnú vec, ktorá je vlastná všetkým jeho jednotkám.
Priemer vypočítaný pre populácie pozostávajúce z kvalitatívne homogénnych jednotiek sa nazýva tzv typický priemer. Môžete napríklad vypočítať priemernú mesačnú mzdu zamestnanca jednej alebo druhej profesijnej skupiny (baník, lekár, knihovník). Samozrejme, výška mesačných miezd baníkov sa v dôsledku rozdielu v ich kvalifikácii, odpracovanej dobe, odpracovaných hodinách za mesiac a mnohých ďalších faktoroch líši od seba a od úrovne priemernej mzdy. Priemerná úroveň však odráža hlavné faktory, ktoré ovplyvňujú výšku miezd, a vzájomne kompenzujú rozdiely, ktoré vznikajú v dôsledku individuálnych charakteristík zamestnanca. Priemerná mzda odráža typickú úroveň miezd pre tento typ pracovníkov. Získaniu typického priemeru by mala predchádzať analýza toho, ako je táto populácia kvalitatívne homogénna. Ak sa populácia skladá z oddelených častí, mala by byť rozdelená do typických skupín (priemerná teplota v nemocnici).
Priemerné hodnoty používané ako charakteristiky pre heterogénne populácie sa nazývajú systémové priemery. Napríklad priemerný hrubý domáci produkt(HDP) na obyvateľa, priemerná hodnota spotreby rôznych skupín tovarov na osobu a iné podobné hodnoty, predstavujúce všeobecnú charakteristiku štátu ako jednotného ekonomického systému.
Priemer by sa mal vypočítať pre populácie pozostávajúce z dostatočného počtu Vysoké číslo Jednotky. Splnenie tejto podmienky je nevyhnutné na to, aby zákon nadobudol účinnosť. veľké čísla, v dôsledku čoho sa náhodné odchýlky jednotlivých hodnôt od všeobecného trendu navzájom rušia.
Druhy priemerov a metódy ich výpočtu
Výber typu priemeru je určený ekonomickým obsahom určitého ukazovateľa a východiskovými údajmi. Akákoľvek priemerná hodnota sa však musí vypočítať tak, aby sa pri nahradení každého variantu spriemerovaného prvku nezmenila konečná, zovšeobecňujúca alebo, ako sa to bežne nazýva. definujúci ukazovateľ, čo súvisí s priemerom. Napríklad pri výmene skutočných rýchlostí na jednotlivých úsekoch cesty by ich priemerná rýchlosť nemala zmeniť celkovú prejdenú vzdialenosť vozidlo zároveň; pri nahradení skutočných miezd jednotlivých zamestnancov podniku priemernou mzdou by sa mzdový fond nemal meniť. V dôsledku toho v každom konkrétnom prípade, v závislosti od povahy dostupných údajov, existuje iba jedna skutočná priemerná hodnota ukazovateľa, ktorá je adekvátna vlastnostiam a podstate skúmaného sociálno-ekonomického javu.
Najbežnejšie používané sú aritmetický priemer, harmonický priemer, geometrický priemer, stredný štvorec a stred kubický.
Uvedené priemery patria do triedy moc priemer a sú kombinované podľa všeobecného vzorca:
,
kde je priemerná hodnota študovaného znaku;
m je exponent priemeru;
– aktuálna hodnota (variant) spriemerovaného znaku;
n je počet funkcií.
V závislosti od hodnoty exponentu m sa rozlišujú tieto typy priemerov výkonu:
pri m = -1 – stredná harmonická ;
pri m = 0 – geometrický priemer ;
pri m = 1 – aritmetický priemer;
pri m = 2 – odmocnina ;
pri m = 3 - priemerný kubický.
Pri použití rovnakých počiatočných údajov platí, že čím väčší je exponent m vo vyššie uvedenom vzorci, tým väčšia je hodnota priemernej hodnoty:
.
Táto vlastnosť mocnina znamená zvyšovať s nárastom exponentu definujúcej funkcie sa nazýva pravidlo majority prostriedkov.
Každý z označených priemerov môže mať dve formy: jednoduché a vážený.
Jednoduchá forma stredu platí, keď sa priemer počíta na primárnych (nezoskupených) údajoch. vážená forma– pri výpočte priemeru pre sekundárne (zoskupené) údaje.
Aritmetický priemer
Aritmetický priemer sa používa, keď je objem populácie súčtom všetkých jednotlivých hodnôt premenlivého atribútu. Treba poznamenať, že ak nie je uvedený typ priemeru, predpokladá sa aritmetický priemer. Jeho logický vzorec je:
jednoduchý aritmetický priemer vypočítané podľa nezoskupených údajov
podľa vzorca:
alebo ,
kde sú jednotlivé hodnoty atribútu;
j je poradové číslo jednotky pozorovania, ktoré je charakterizované hodnotou ;
N je počet pozorovacích jednotiek (veľkosť súboru).
Príklad. V prednáške „Súhrn a zoskupovanie štatistických údajov“ sa posudzovali výsledky pozorovania pracovných skúseností tímu 10 ľudí. Vypočítajte priemerné pracovné skúsenosti pracovníkov brigády. 5, 3, 5, 4, 3, 4, 5, 4, 2, 4.
Podľa vzorca jednoduchého aritmetického priemeru sa aj počíta chronologické priemery, ak sú časové intervaly, pre ktoré sú prezentované charakteristické hodnoty, rovnaké.
Príklad. Objem predaných produktov za prvý štvrťrok predstavoval 47 denov. jednotiek, za druhý 54, za tretí 65 a za štvrtý 58 den. Jednotky Priemerný štvrťročný obrat je (47+54+65+58)/4 = 56 den. Jednotky
Ak sú v chronologickom rade uvedené okamžité ukazovatele, potom sa pri výpočte priemeru nahradia polovičnými súčtami hodnôt na začiatku a na konci obdobia.
Ak existuje viac ako dva momenty a intervaly medzi nimi sú rovnaké, potom sa priemer vypočíta pomocou vzorca pre priemerný chronologický
,
kde n je počet časových bodov
Keď sú údaje zoskupené podľa hodnôt atribútov
(t.j. je skonštruovaný diskrétny variačný distribučný rad) s vážený aritmetický priemer sa vypočíta buď pomocou frekvencií alebo frekvencií pozorovania konkrétnych hodnôt prvku, ktorých počet (k) je výrazne menej ako číslo pozorovania (N) .
,
,
kde k je počet skupín variačného radu,
i je číslo skupiny variačného radu.
Od , a , získame vzorce používané na praktické výpočty:
a
Príklad. Vypočítajme priemernú dĺžku služby pracovných tímov pre zoskupené série.
a) pomocou frekvencií:
b) pomocou frekvencií:
Keď sú údaje zoskupené podľa intervalov
, t.j. sú prezentované vo forme intervalových distribučných radov, pri výpočte aritmetického priemeru sa ako hodnota znaku berie stred intervalu na základe predpokladu rovnomerného rozdelenia populačných jednotiek v tomto intervale. Výpočet sa vykonáva podľa vzorcov:
a
kde je stred intervalu: ,
kde a sú spodné a horné hranice intervalov (za predpokladu, že horná hranica tohto intervalu sa zhoduje so spodnou hranicou nasledujúceho intervalu).
Príklad. Vypočítajme aritmetický priemer intervalového variačného radu zostaveného z výsledkov štúdie ročných miezd 30 pracovníkov (pozri prednášku „Súhrn a zoskupovanie štatistických údajov“).
Tabuľka 1 - Intervalové variačné série distribúcie.
Intervaly, UAH |
Frekvencia, os. |
frekvencia, |
Stred intervalu |
||
600-700 |
3 |
0,10 |
(600+700):2=650 |
1950 |
65 |
UAH alebo UAH
Aritmetické priemery vypočítané na základe počiatočných údajov a radov variácií intervalov sa nemusia zhodovať v dôsledku nerovnomerného rozloženia hodnôt atribútov v rámci intervalov. V tomto prípade by sa pre presnejší výpočet aritmetického váženého priemeru nemal používať stred intervalov, ale aritmetické jednoduché priemery vypočítané pre každú skupinu ( skupinové priemery). Priemer vypočítaný zo skupinových priemerov pomocou váženého kalkulačného vzorca sa nazýva všeobecný priemer.
Aritmetický priemer má množstvo vlastností.
1. Súčet odchýlok variantu od priemeru je nula:
.
2. Ak sa všetky hodnoty možnosti zvýšia alebo znížia o hodnotu A, potom sa priemerná hodnota zvýši alebo zníži o rovnakú hodnotu A:
3. Ak sa každá možnosť zvýši alebo zníži B-krát, priemerná hodnota sa tiež zvýši alebo zníži o rovnaký početkrát:
alebo
4. Súčet súčinov variantu podľa frekvencií sa rovná súčinu priemernej hodnoty súčtom frekvencií:
5. Ak sa všetky frekvencie vydelia alebo vynásobia ľubovoľným číslom, aritmetický priemer sa nezmení:
6) ak sú vo všetkých intervaloch frekvencie rovnaké, potom sa aritmetický vážený priemer rovná jednoduchému aritmetickému priemeru:
,
kde k je počet skupín vo variačnom rade.
Použitie vlastností priemeru umožňuje zjednodušiť jeho výpočet.
Predpokladajme, že všetky možnosti (x) sa najprv znížia o rovnaké číslo A a potom sa znížia o faktor B. Najväčšie zjednodušenie sa dosiahne, keď sa hodnota stredu intervalu s najvyššou frekvenciou zvolí ako A a hodnota intervalu ako B (pre riadky s rovnakými intervalmi). Veličina A sa nazýva pôvod, preto sa tento spôsob výpočtu priemeru nazýva spôsobom b ohmová referencia od podmienenej nuly alebo spôsob okamihov.
Po takejto transformácii získame nový variačný distribučný rad, ktorého varianty sa rovnajú . Ich aritmetický priemer, tzv moment prvej objednávky, je vyjadrená vzorcom a podľa druhej a tretej vlastnosti sa aritmetický priemer rovná priemeru pôvodnej verzie, zmenšený najprv o A a potom B-krát, t.j.
Na získanie skutočný priemer(v strede pôvodného riadku) je potrebné vynásobiť moment prvej objednávky číslom B a pridať A:
Výpočet aritmetického priemeru metódou momentov ilustrujú údaje v tabuľke. 2.
Tabuľka 2 - Rozdelenie zamestnancov podniku podľa dĺžky zamestnania
Pracovné skúsenosti, roky |
Počet pracovníkov |
Stred intervalu |
|||
0 – 5 |
12 |
2,5 |
15 |
3 |
36 |
Nájdenie momentu prvej objednávky . Potom, keď vieme, že A = 17,5 a B = 5, vypočítame priemernú pracovnú skúsenosť pracovníkov obchodu:
rokov
Priemerná harmonická
Ako je uvedené vyššie, aritmetický priemer sa používa na výpočet priemernej hodnoty prvku v prípadoch, keď sú známe jeho varianty x a ich frekvencie f.
Ak štatistické informácie neobsahujú frekvencie f pre jednotlivé možnosti x populácie, ale sú prezentované ako ich súčin , použije sa vzorec priemerná harmonická vážená. Ak chcete vypočítať priemer, označte , odkiaľ . Nahradením týchto výrazov do vzorca váženého aritmetického priemeru dostaneme vzorec váženého harmonického priemeru:
,
kde je objem (váha) hodnôt atribútu indikátora v intervale s číslom i (i=1,2, …, k).
Harmonický priemer sa teda používa v prípadoch, keď nie sú sčítavané samotné možnosti, ale ich recipročné hodnoty: .
V prípadoch, keď sa váha každej opcie rovná jednej, t.j. jednotlivé hodnoty inverznej funkcie sa vyskytnú raz, použijú sa jednoduchý harmonický priemer:
,
kde sú jednotlivé varianty inverzného znaku, ktoré sa vyskytujú raz;
N je počet možností.
Ak existujú harmonické priemery pre dve časti populácie s počtom a, potom sa celkový priemer pre celú populáciu vypočíta podľa vzorca:
a volal vážený harmonický priemer priemeru skupiny.
Príklad. Počas prvej hodiny obchodovania na burze sa uskutočnili tri obchody. Údaje o výške predaja hrivny a kurze hrivny voči americkému doláru sú uvedené v tabuľke. 3 (stĺpce 2 a 3). Určte priemerný kurz hrivny voči americkému doláru za prvú hodinu obchodovania.
Tabuľka 3 - Údaje o priebehu obchodovania na burze
Priemerný výmenný kurz dolára je určený pomerom množstva predaných hrivien v rámci všetkých transakcií k množstvu dolárov získaných v dôsledku rovnakých transakcií. Celková suma predaja hrivny je známa zo stĺpca 2 tabuľky a množstvo dolárov zakúpených v každej transakcii sa určí vydelením sumy predaja hrivny jej výmenným kurzom (stĺpec 4). Počas troch transakcií sa nakúpilo celkovo 22 miliónov dolárov. To znamená, že priemerný kurz hrivny za jeden dolár bol
.
Výsledná hodnota je reálna, pretože jeho nahradenie skutočných kurzov hrivny v transakciách nezmení celkový objem predaja hrivny, ktorý pôsobí ako definujúci ukazovateľ: miliónov UAH
Ak sa na výpočet použil aritmetický priemer, t.j. hrivny, potom v kurze na nákup 22 miliónov dolárov. Muselo by sa minúť 110,66 milióna UAH, čo nie je pravda.
Geometrický priemer
Geometrický priemer sa používa na analýzu dynamiky javov a umožňuje určiť priemerný rastový faktor. Pri výpočte geometrického priemeru sú jednotlivé hodnoty vlastnosti relatívnymi ukazovateľmi dynamiky, zostavenými vo forme reťazových hodnôt, ako pomer každej úrovne k predchádzajúcej.
Jednoduchý geometrický priemer sa vypočíta podľa vzorca:
,
kde je znak produktu,
N je počet spriemerovaných hodnôt.
Príklad. Počet evidovaných trestných činov nad 4 roky vzrástol 1,57-krát, z toho za 1. - 1,08-krát, za 2. - 1,1-krát, za 3. - o 1,18-krát a za 4. - 1,12-krát. Potom je priemerná ročná miera rastu počtu trestných činov: , t.j. Počet evidovaných trestných činov rástol v priemere o 12 % ročne.
1,8
-0,8
0,2
1,0
1,4
1
3
4
1
1
3,24
0,64
0,04
1
1,96
3,24
1,92
0,16
1
1,96
Na výpočet strednej váženej štvorce určíme a zapíšeme do tabuľky a. Potom sa priemerná hodnota odchýlok dĺžky výrobkov od danej normy rovná:
Aritmetický priemer by v tomto prípade bol nevhodný, pretože v dôsledku toho by sme dostali nulovú odchýlku.
Použitie strednej odmocniny bude diskutované neskôr v exponentoch variácie.