Значення середнього розміру залежить від індивідуальних. Середні величини, що застосовуються у статистиці. Вироблення робочих бригади за зміну, шт
Найпоширенішим видом середньої є середня арифметична.
Середня арифметична проста
Проста середньоарифметична величина являє собою середній доданок, при визначенні якого загальний обсяг даної ознаки даних порівну розподіляється між усіма одиницями, що входять в дану сукупність. Так, середньорічне вироблення продукції на одного працюючого — це така величина обсягу продукції, яка припадала б на кожного працівника, якби весь обсяг випущеної продукції однаково розподілявся між усіма співробітниками організації. Середньоарифметична проста величина обчислюється за такою формулою:
Проста середня арифметична— дорівнює відношенню суми індивідуальних значень ознаки до кількості ознак у сукупності
Приклад 1. Бригада з 6 робочих отримує місяць 3 3,2 3,3 3,5 3,8 3,1 тыс.руб.
Знайти середню заробітну плату
Рішення: (3+3,2+3,3+3,5+3,8+3,1)/6 = 3,32 тис. руб.
Середня арифметична зважена
Якщо обсяг сукупності даних великий і є рядом розподілу, то обчислюється зважена середньоарифметична величина. Так визначають середньозважену ціну за одиницю продукції: загальну вартість продукції (суму творів її кількості на ціну одиниці продукції) поділяють на сумарну кількість продукції.
Подаємо це у вигляді наступної формули:
Зважена середня арифметична- дорівнює відношенню (суми творів значення ознаки до частоти повторення даної ознаки) до (сумі частот всіх ознак). Використовується, коли варіанти досліджуваної сукупності зустрічаються неоднакова кількість разів.
Приклад 2. Знайти середню заробітну плату робітників цеху за місяць
Середня заробітна плата може бути отримана шляхом поділу загальної суми заробітної плати на загальну кількість робітників:
Відповідь: 3,35 тис.руб.
Середня арифметична для інтервального ряду
При розрахунку середньої арифметичної для інтервального варіаційного ряду спочатку визначають середню для кожного інтервалу, як напівсуму верхньої та нижньої меж, а потім середню всього ряду. У разі відкритих інтервалів значення нижнього або верхнього інтервалу визначається за величиною інтервалів, що примикають до них.
Середні обчислювані з інтервальних рядів є наближеними.
Приклад 3. Визначити середній вік студентів вечірнього осередку.
Середні обчислювані з інтервальних рядів є наближеними. Ступінь їх наближення залежить від того, якою мірою фактичний розподіл одиниць сукупності всередині інтервалу наближається до рівномірного.
При розрахунку середніх як терези можуть використовуватися не тільки абсолютні, а й відносні величини (частина):
Середня арифметична має цілу низку властивостей, які більш повно розкривають її сутність і спрощують розрахунок:
1. Твір середньої у сумі частот завжди дорівнює сумі творів варіант на частоти, тобто.
2.Середня арифметична суми величин, що варіюють, дорівнює сумі середніх арифметичних цих величин:
3.Алгебраїчна сума відхилень індивідуальних значень ознаки від середньої дорівнює нулю.
Середня величина- це узагальнюючий показник, який характеризує якісно однорідну сукупність за певною кількісною ознакою. Наприклад, середній вік осіб, засуджених за крадіжку.
У судовій статистиці середні величини використовують для характеристики:
Середніх термінів розгляду справ цієї категорії;
Середній розмір позову;
Середньої кількості відповідачів, що припадають одну справу;
Середній розмір шкоди;
Середнє навантаження суддів, та ін.
Середня величина завжди іменована і має ту ж розмірність, що і ознака в окремої одиниці сукупності. Кожна середня величина характеризує досліджувану сукупність за якою-небудь однією ознакою, що варіює, тому за будь-якою середньою ховається ряд розподілу одиниць цієї сукупності за досліджуваною ознакою. Вибір виду середньої визначається змістом показника та вихідних даних для розрахунку середньої величини.
Усі види середніх величин, які у статистичних дослідженнях, поділяються на дві категорії:
1) статечні середні;
2) структурні середні.
Перша категорія середніх величин включає: середню арифметичну, середню гармонійну, середню геометричну і середню квадратичну . Друга категорія – це модаі медіана. При цьому кожен із перерахованих видів статечних середніх величин може мати дві форми: просту і зважену . Проста формасередньої величини використовується для отримання середнього значення ознаки, що досліджується, коли розрахунок здійснюється за несгрупованим статистичним даними, або коли кожна варіанта в сукупності зустрічається тільки один раз. Виваженими середніми називають величини, які враховують, що варіанти значень ознаки можуть мати різну чисельність, у зв'язку з чим кожен варіант доводиться множити на відповідну частоту. Іншими словами, кожен варіант зважують за своєю частотою. Частоту називають статистичною вагою.
Середня арифметична проста- Найпоширеніший вид середньої. Вона дорівнює сумі окремих значень ознаки, поділеної на загальну кількість цих значень:
де x 1, x 2, …, x N- Індивідуальні значення варіює ознаки (варіанти), а N - число одиниць сукупності.
Середня арифметична зваженазастосовується у тих випадках, коли дані представлені у вигляді рядів розподілу чи угруповань. Вона обчислюється як сума творів варіантів відповідні їм частоти, поділена у сумі частот всіх варіантів:
де x i- значення i-і варіанти ознаки; f i- Частота i-й варіанти.
Таким чином, кожне значення варіанти зважується за частотою, тому частоти іноді називають статистичними вагами.
Зауваження.Коли йдеться про середню арифметичну величину без зазначення її виду, мається на увазі середня арифметична проста.
Таблиця 12
Рішення.Для розрахунку використовуємо формулу середньої арифметичної зваженої:
Таким чином, у середньому на одну кримінальну справу припадає двоє обвинувачених.
Якщо обчислення середньої величини проводять за даними, згрупованими у вигляді інтервальних рядів розподілу, то спочатку треба визначити серединні значення кожного інтервалу х" i , після чого розрахувати середню величину за формулою середньої арифметичної зваженої, яку замість x i підставляють х" i .
приклад.Дані про вік злочинців, засуджених за скоєння крадіжки, наведено в таблиці:
Таблиця 13
Визначити середній вік злочинців, засуджених за вчинення крадіжки.
Рішення.Щоб визначити середній вік злочинців з урахуванням інтервального варіаційного ряду необхідно спочатку знайти серединні значення інтервалів. Так як дано інтервальний ряд з відкритими першим та останнім інтервалами, то величини цих інтервалів приймаються рівними величинам суміжних закритих інтервалів. У разі величина першого і останнього інтервалів дорівнюють 10.
Тепер знаходимо середній вік злочинців за формулою середньої арифметичної зваженої:
Таким чином, середній вік злочинців, засуджених за скоєння крадіжки, приблизно дорівнює 27 років.
Середня гармонійна проста являє собою величину, обернену до середньої арифметичної зі зворотних значень ознаки:
де 1/ x i- Зворотні значення варіантів, а N - число одиниць сукупності.
приклад.Для визначення середнього річного навантаження на суддів районного суду під час розгляду справ провели обстеження навантаження 5 суддів цього суду. Середні витрати часу на одну кримінальну справу для кожного з обстежених суддів виявились рівними (в днях): 6, 0, 5, 6, 6, 3, 4, 9, 5, 4. Знайти середні витрати на одну кримінальну справу та середнє річне навантаження на суддів цього районного суду під час розгляду кримінальних справ.
Рішення.Для визначення середніх витрат часу на одну кримінальну справу, скористаємося формулою середньої гармонійної простий:
Для спрощення розрахунків у прикладі візьмемо число днів у році рівним 365, включаючи вихідні (це не впливає на методику розрахунку, а при обчисленні аналогічного показника на практиці необхідно замість 365 днів підставити кількість робочих днів у конкретному році). Тоді середнє річне навантаження на суддів даного районного суду при розгляді кримінальних справ становитиме: 365(днів): 5,56 ≈ 65,6 (справ).
Якби ми для визначення середніх витрат часу на одну кримінальну справу, скористалися б формулою середньої арифметичної простої, то отримали б:
365 (днів): 5,64 ≈ 64,7 (справи), тобто. середнє навантаження на суддів виявилося меншим.
Перевіримо обґрунтованість такого підходу. Для цього скористаємося даними про витрати часу на одну кримінальну справу для кожного судді та розрахуємо кількість кримінальних, розглянутих кожним із них за рік.
Отримаємо відповідно:
365(днів) : 6 ≈ 61 (справа), 365(днів) : 5,6 ≈ 65,2 (справ), 365(днів) : 6,3 ≈ 58 (справ),
365(днів) : 4,9 ≈ 74,5 (справи), 365(днів) : 5,4 ≈ 68 (справ).
Наразі обчислимо середнє річне навантаження на суддів даного районного суду при розгляді кримінальних справ:
Тобто. середнє річне навантаження таке ж, як і при використанні середньої гармонійної.
Отже, використання середньої арифметичної у разі неправомірно.
У тих випадках, коли відомі варіанти ознаки, їх об'ємні значення (твір варіанти на частоту), але невідомі самі частоти, застосовується формула середньої зваженої гармонійної:
де x i- значення варіантів ознаки, а w i - об'ємні значення варіантів ( w i = x i · f i).
приклад.Дані про ціну одиниці однотипного товару, виробленого різними установами кримінально-виконавчої системи, та обсяги його реалізації наведено у таблиці 14.
Таблиця 14
Знайти середню ціну реалізації товару.
Рішення.При розрахунку середньої ціни ми маємо користуватися ставленням суми реалізації до кількості реалізованих одиниць. Нам невідомо кількість реалізованих одиниць, але відомі суми реалізації товарів. Тому для знаходження середньої ціни реалізованих товарів скористаємося формулою середньої гармонійної виваженої. Отримуємо
Якщо тут використовувати формулу середньої арифметичної, можна отримати середню ціну, яка буде нереальна:
Середня геометричнаобчислюється вилученням кореня ступеня N з добутку всіх значень варіантів ознаки:
де x 1, x 2, …, x N- індивідуальні значення варіюючої ознаки (варіанти), а
N- Число одиниць сукупності.
Цей вид середньої використовується обчислення середніх показників зростання рядів динаміки.
Середня квадратичназастосовується для розрахунку середньоквадратичного відхилення, що є показником варіації, та буде розглянуто нижче.
Для визначення структури сукупності використовують спеціальні середні показники, до яких належать медіана і мода , або звані структурні середні. Якщо середня арифметична розраховується з урахуванням використання всіх варіантів значень ознаки, то медіана і мода характеризують величину того варіанта, який займає певне середнє становище у ранжированном (упорядкованому) ряду. Упорядкування одиниць статистичної сукупності може бути проведене за зростанням або зменшенням варіантів досліджуваної ознаки.
Медіана (Ме)- це величина, яка відповідає варіанту, що знаходиться в середині ранжованого ряду. Таким чином, медіана - це той варіант ранжованого ряду, по обидва боки від якого в цьому ряду має бути однакова кількість одиниць сукупності.
Для знаходження медіани спочатку необхідно визначити її порядковий номер у ранжованому ряду за формулою:
де N - обсяг ряду (кількість одиниць сукупності).
Якщо ряд складається з непарного числа членів, то медіана дорівнює варіанті номером N Me . Якщо ряд складається з парного числа членів, то медіана визначається як середнє арифметичне двох суміжних варіант, розташованих у середині.
приклад.Даний ранжований ряд 1, 2, 3, 3, 6, 7, 9, 9, 10. Обсяг ряду N = 9, отже N Me = (9 + 1) / 2 = 5. Отже, Ме = 6, тобто . п'ятий варіант. Якщо дано ряд 1, 5, 7, 9, 11, 14, 15, 16, тобто. ряд з парною кількістю членів (N = 8), то N Me = (8 + 1) / 2 = 4,5. Отже медіана дорівнює напівсумі четвертої і п'ятої варіант, тобто. Ме = (9 + 11)/2 = 10.
У дискретному варіаційному ряду медіану визначають за накопиченими частотами. Частоти варіант, починаючи з першої, підсумовуються до тих пір, поки не буде перевищено номер медіани. Значення останньої підсумованої варіанти буде медіаною.
приклад.Знайти медіану числа обвинувачених, які припадають однією кримінальну справу, використовуючи дані таблиці 12.
Рішення.У разі обсяг варіаційного ряду N = 154, отже, N Me = (154 + 1) / 2 = 77,5. Підсумувавши частоти першої та другої варіанти, отримаємо: 75 + 43 = 118, тобто. ми перевершили номер медіани. Значить Ме = 2.
В інтервальному варіаційному ряду розподілу спочатку вказують інтервал, у якому буде медіана. Його називають медіанним . Це перший інтервал, накопичена частота якого перевищує половину обсягу інтервального варіаційного ряду. Потім чисельне значення медіани визначається за такою формулою:
де x Ме- нижня межа медіанного інтервалу; i – величина медіанного інтервалу; S Ме-1- накопичена частота інтервалу, що передує медіанному; f Ме- Частота медіанного інтервалу.
приклад.Знайти медіану віку злочинців, засуджених за скоєння крадіжки, з урахуванням статистичних даних, поданих у таблиці 13.
Рішення.Статистичні дані представлені інтервальним варіаційним рядом, отже спочатку визначимо медіанний інтервал. Обсяг сукупності N = 162, отже, медіанним інтервалом є 18-28, т.к. це перший інтервал, накопичена частота якого (15 + 90 = 105) перевищує половину обсягу (162: 2 = 81) інтервального варіаційного ряду. Тепер чисельне значення медіани визначаємо за наведеною вище формулою:
Таким чином, половина засуджених за скоєння крадіжки молодше 25 років.
Модою (Мо)називають значення ознаки, що найчастіше зустрічається в одиниць сукупності. До моди вдаються виявлення величини ознаки, що має найбільшого поширення. Для дискретного ряду модою буде варіант із найбільшою частотою. Наприклад, для дискретного ряду, поданого в таблиці 3 Мо= 1, оскільки цього значення варіанти відповідає найбільша частота - 75. Для визначення моди інтервального ряду спочатку визначають модальний інтервал (інтервал, що має найбільшу частоту). Потім у межах цього інтервалу знаходять значення ознаки, яке може бути модою.
Його значення знаходять за такою формулою:
де x Mo- нижня межа модального інтервалу; i – величина модального інтервалу; f Мо- Частота модального інтервалу; f Мо-1- частота інтервалу, що передує модальному; f Мо+1- Частота інтервалу, наступного за модальним.
приклад.Знайти моду віку злочинців, засуджених за скоєння крадіжки, дані про які представлені в таблиці 13.
Рішення.Найбільша частота відповідає інтервалу 18-28, отже, мода повинна бути в цьому іртервалі. Її величину визначаємо за наведеною вище формулою:
Таким чином, найбільше злочинців, засуджених за скоєння крадіжки, має вік 24 роки.
Середня величина дає узагальнюючу характеристику всієї сукупності явища, що вивчається. Однак дві сукупності, що мають однакові середні значення, можуть значно відрізнятися один від одного за рівнем коливання (варіації) величини ознаки, що вивчається. Наприклад, в одному суді були призначені такі строки позбавлення волі: 3, 3, 3, 4, 5, 5, 5, 12, 12, 15 років, а в іншому – 5, 5, 6, 6, 7, 7, 7 8, 8, 8 років. В обох випадках середня арифметична дорівнює 67 років. Однак ці сукупності суттєво різняться між собою розкидом індивідуальних значень призначеного терміну позбавлення волі щодо середнього значення.
І першого суду, де цей розкид досить великий, середня величина терміну позбавлення волі погано відбиває всю сукупність. Таким чином, якщо індивідуальні значення ознаки мало відрізняються один від одного, то середня арифметична буде досить показовою характеристикою властивостей цієї сукупності. В іншому випадку середня арифметична буде ненадійною характеристикою цієї сукупності та застосування її на практиці малоефективне. Тому необхідно враховувати варіацію значень ознаки, що вивчається.
Варіація- це відмінності в значеннях будь-якої ознаки у різних одиниць даної сукупності в той самий період або момент часу. Термін «варіація» має латинське походження – variatio, що означає відмінність, зміну, коливання. Вона виникає внаслідок того, що індивідуальні значення ознаки складаються під сукупним впливом різноманітних факторів (умов), які по-різному поєднуються у кожному окремому випадку. Для вимірювання варіації ознаки застосовуються різні абсолютні та відносні показники.
До основних показників варіації належать такі:
1) розмах варіації;
2) середнє лінійне відхилення;
3) дисперсія;
4) середнє квадратичне відхилення;
5) коефіцієнт варіації.
Стисло зупинимося на кожному з них.
Розмах варіації R найдоступніший за простотою розрахунку абсолютний показник, який визначається як різницю між найбільшим і найменшим значеннями ознаки у одиниць даної сукупності:
Розмах варіації (розмах коливань) - важливий показник коливання ознаки, але він дає можливість побачити лише крайні відхилення, що обмежує сферу його застосування. Для більш точної характеристики варіації ознаки з урахуванням урахування його коливання використовуються інші показники.
Середнє лінійне відхиленняє середнім арифметичним з абсолютних значень відхилень індивідуальних значень ознаки від середньої і визначається за формулами:
1) для несгрупованих даних
2) для варіаційного ряду
Однак найбільш широко застосовуваним показником варіації є дисперсія . Вона характеризує міру розкиду значень досліджуваного ознаки щодо його середнього значення. Дисперсія визначається як середня із відхилень, зведених у квадрат.
Проста дисперсіядля не згрупованих даних:
Зважена дисперсіядля варіаційного ряду:
Зауваження.Насправді для обчислення дисперсії краще використовувати такі формулы:
Для простої дисперсії
Для зваженої дисперсії
Середнє квадратичне відхилення- це корінь квадратний із дисперсії:
Середнє квадратичне відхилення є мірилом середньої надійності. Чим менше середнє квадратичне відхилення, тим, однорідніше сукупність і краще середня арифметична відбиває собою всю сукупність.
Розглянуті вище заходи розсіювання (розмах варіації, дисперсія, середнє квадратичне відхилення) є абсолютними показниками, судити з яких ступінь коливання ознаки який завжди можливо. У деяких завданнях необхідно використовувати відносні показники розсіювання, одним із яких є коефіцієнт варіації.
Коефіцієнт варіації- Виражене у відсотках відношення середнього квадратичного відхилення до середньої арифметичної:
Коефіцієнт варіації використовують як порівняльної оцінки варіації різних ознак чи однієї й тієї ж ознаки у різних сукупностях, але й характеристики однорідності сукупності. Статистична сукупність вважається кількісно однорідною, якщо коефіцієнт варіації вбирається у 33 % (для розподілів, близьких до нормального розподілу).
приклад.Є такі дані про строки позбавлення волі 50 засуджених, доставлених для відбування призначеного судом покарання до виправної установи кримінально-виконавчої системи: 5, 4, 2, 1, 6, 3, 4, 3, 2, 2, 5, 6, 4, 3 , 10, 5, 4, 1, 2, 3, 3, 4, 1, 6, 5, 3, 4, 3, 5, 12, 4, 3, 2, 4, 6, 4, 4, 3, 1 5, 4, 3, 12, 6, 7, 3, 4, 5, 5, 3.
1. Побудувати низку розподілу за строками позбавлення волі.
2. Знайти середнє значення, дисперсію та середнє квадратичне відхилення.
3. Обчислити коефіцієнт варіації та зробити висновок про однорідність чи неоднорідність досліджуваної сукупності.
Рішення.Для побудови дискретного ряду розподілу необхідно визначити варіанти та частоти. Варіанта у цій задачі - це термін позбавлення волі, а частоти - чисельність окремих варіантів. Розрахувавши частоти, отримаємо наступний дискретний ряд розподілу:
Знайдемо середнє значення та дисперсію. Оскільки статистичні дані представлені дискретним варіаційним рядом, то їх обчислення будемо використовувати формули середнього арифметичного зваженого і дисперсії. Отримаємо:
Тепер обчислюємо середнє квадратичне відхилення:
Знаходимо коефіцієнт варіації:
Отже, статистична сукупність кількісно неоднорідна.
Найчастіше дані концентруються навколо якоїсь центральної точки. Таким чином, щоб описати будь-який набір даних, достатньо вказати середнє значення. Розглянемо послідовно три числові характеристики, що використовуються для оцінки середнього значення розподілу: середнє арифметичне, медіана та мода.
Середнє арифметичне
Середнє арифметичне (часто зване просто середнім) – найпоширеніша оцінка середнього значення розподілу. Вона є результатом розподілу суми всіх числових величин, що спостерігаються, на їх кількість. Для вибірки, що складається з чисел Х 1, Х 2, …, Хn, вибіркове середнє (позначається символом ) одно = (Х 1 + Х 2 + … + Хn) / n, або
де - вибіркове середнє, n- обсяг вибірки, Xi – i-й елементвибірки.
Завантажити нотатку у форматі або , приклади у форматі
Розглянемо обчислення середнього арифметичного значення п'ятирічної середньорічної прибутковості 15 взаємних фондів з дуже високим рівнемризику (рис. 1).
Рис. 1. Середньорічна доходність 15 взаємних фондів із дуже високим рівнем ризику
Вибіркове середнє обчислюється так:
Це хороший дохід, особливо в порівнянні з 3–4% доходу, який отримали вкладники банків або кредитних спілок за той же час. Якщо впорядкувати значення прибутковості, то легко помітити, що вісім фондів мають прибутковість вищу, а сім - нижчу за середнє значення. Середнє арифметичне відіграє роль точки рівноваги, отже, фонди з низькими доходами врівноважують фонди з високими доходами. У обчисленні середнього задіяні всі елементи вибірки. Жодна з інших оцінок середнього значення розподілу не має цієї властивості.
Коли слід обчислювати середнє арифметичне.Оскільки середнє арифметичне залежить від усіх елементів вибірки, наявність екстремальних значень впливає на результат. У таких ситуаціях середнє арифметичне може спотворити зміст числових даних. Отже, описуючи набір даних, що містить екстремальні значення, необхідно вказувати медіану або середнє арифметичне та медіану. Наприклад, якщо видалити з вибірки прибутковість фонду RS Emerging Growth, вибіркова середня прибутковість 14 фондів зменшиться майже на 1% і становитиме 5,19%.
Медіана
Медіана є серединним значенням упорядкованого масиву чисел. Якщо масив не містить чисел, що повторюються, то половина його елементів виявиться менше, а половина - більше медіани. Якщо вибірка містить екстремальні значення, для оцінки середнього значення краще використовувати середнє арифметичне, а медіану. Щоб визначити медіану вибірки, її спочатку необхідно впорядкувати.
Ця формула неоднозначна. Її результат залежить від парності чи непарності числа n:
- Якщо вибірка містить непарну кількість елементів, медіана дорівнює (n+1)/2-му елементу.
- Якщо вибірка містить парну кількість елементів, медіана лежить між двома середніми елементами вибірки і дорівнює середньому арифметичному, обчисленому за цими двома елементами.
Щоб обчислити медіану вибірки, що містить дані про прибутковість 15 взаємних фондів з дуже високий рівень ризику, спочатку необхідно впорядкувати вихідні дані (рис. 2). Тоді медіана буде навпроти номера середнього елемента вибірки; у прикладі №8. В Excel є спеціальна функція = МЕДІАНА (), яка працює і з невпорядкованими масивами теж.
Рис. 2. Медіана 15 фондів
Таким чином, медіана дорівнює 6,5. Це означає, що доходність однієї половини фондів з дуже високим рівнем ризику не перевищує 6,5, а доходність другої половини – перевищує її. Зверніть увагу на те, що медіана, що дорівнює 6,5, не набагато більше середнього значення, що дорівнює 6,08.
Якщо видалити з вибірки дохідність фонду RS Emerging Growth, то медіана 14 фондів, що залишилися, зменшиться до 6,2%, тобто не так значно, як середня арифметична (рис. 3).
Рис. 3. Медіана 14 фондів
Мода
Термін був вперше введений Пірсоном в 1894 р. Мода - це число, яке найчастіше зустрічається у вибірці (найбільш модне). Мода добре описує, наприклад, типову реакцію водіїв на сигнал світлофора про припинення руху. Класичний приклад використання моди - вибір розміру випускається партії взуття або кольору шпалер. Якщо розподіл має кілька мод, то кажуть, що він мультимодальний або багатомодальний (має два або більше «піка»). Мультимодальність розподілу дає важливу інформацію про природу змінної, що досліджується. Наприклад, у соціологічних опитуваннях, якщо змінна є перевагу чи ставлення до чогось, то мультимодальність може означати, що є кілька безумовно різних думок. Мультимодальність також служить індикатором того, що вибірка не є однорідною та спостереження, можливо, породжені двома або більше «накладеними» розподілами. На відміну від середнього арифметичного викиди на моду не впливають. Для безперервно розподілених випадкових величин, наприклад, для показників середньорічної прибутковості взаємних фондів, мода іноді взагалі немає (чи немає сенсу). Оскільки ці показники можуть приймати різні значення, повторювані величини зустрічаються вкрай рідко.
Квартилі
Квартілі - це показники, які найчастіше використовуються з метою оцінки розподілу даних при описі властивостей великих числових вибірок. У той час як медіана розділяє впорядкований масив навпіл (50% елементів масиву менше медіани і 50% - більше), квартилі розбивають впорядкований набір даних на чотири частини. Величини Q 1 медіана і Q 3 є 25-м, 50-м і 75-м перцентилем відповідно. Перший квартиль Q 1 - це число, що розділяє вибірку на дві частини: 25% елементів менше, а 75% - більше за перший квартиль.
Третій квартиль Q 3 - це число, що розділяє вибірку також на дві частини: 75% елементів менше, а 25% - більше за третій квартиль.
Для розрахунку квартилів у версіях Excel до 2007 р. використовувалася функція = КВАРТИЛЬ (масив; частина). Починаючи з версії Excel2010, застосовуються дві функції:
- =КВАРТИЛЬ.ВКЛ(масив;частина)
- = КВАРТИЛЬ. ВИКЛ (масив; частина)
Ці дві функції дають трохи різні значення (рис. 4). Наприклад, при обчисленні квартилів вибірки, що містить дані про середньорічну прибутковість 15 взаємних фондів з дуже високим рівнем ризику Q 1 = 1,8 або -0,7 для КВАРТИЛЬ.ВКЛ і КВАРТИЛЬ.ІСКЛ, відповідно. До речі функція КВАРТИЛЬ, що використовувалася раніше, відповідає сучасній функції КВАРТИЛЬ.ВКЛ. Для розрахунку квартилів в Excel за допомогою наведених вище формул масив даних можна не впорядковувати.
Рис. 4. Обчислення квартилів в Excel
Наголосимо ще раз. Excel вміє розраховувати квартілі для одновимірного дискретного ряду, Що містить значення випадкової величини Розрахунок квартилів для розподілу на основі частот наведено нижче в розділі.
Середнє геометричне
На відміну від середнього арифметичного, середнє геометричне дозволяє оцінити ступінь зміни змінної з часом. Середнє геометричне – це корінь n-й ступеня з твору nвеличин (в Excel використовується функція = СРГЕОМ):
G= (X 1 * X 2 * … * X n) 1/n
Схожий параметр – середнє геометричне значення норми прибутку – визначається формулою:
G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,
де R i– норма прибутку за i-й період часу.
Наприклад, припустимо, що обсяг вкладених коштів у вихідний момент часу дорівнює 100 000 дол. До кінця першого року він падає до рівня 50 000 дол., а до кінця другого року відновлюється до вихідної позначки 100 000 дол. дорівнює 0, оскільки початковий та фінальний обсяг коштів рівні між собою. Однак середнє арифметичне річних норм прибутку дорівнює = (-0,5 + 1) / 2 = 0,25 або 25%, оскільки норма прибутку в перший рік R 1 = (50 000 - 100 000) / 100 000 = -0,5 , а другий R 2 = (100 000 – 50 000) / 50 000 = 1. У той самий час, середнє геометричне значення норми прибутку протягом двох років одно: G = [(1–0,5) * (1+1 )] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Таким чином, середня геометрична точніше відображає зміну (точніше, відсутність змін) обсягу інвестицій за дворічний період, ніж середня арифметична.
Цікаві факти.По-перше, середнє геометричне завжди буде менше середнього арифметичного тих самих чисел. За винятком випадку, коли всі взяті числа дорівнюють один одному. По-друге, розглянувши властивості прямокутного трикутника, можна зрозуміти, чому середнє називається геометричним. Висота прямокутного трикутника, опущена на гіпотенузу, є середнє пропорційне між проекціями катетів на гіпотенузу, а кожен катет є середнє пропорційне між гіпотенузою та його проекцією на гіпотенузу (рис. 5). Це дає геометричний спосіб побудови середнього геометричного двох (довжин) відрізків: потрібно побудувати коло на сумі цих двох відрізків як на діаметрі, тоді висота, відновлена з точки їх з'єднання до перетину з колом, дасть потрібну величину:
Рис. 5. Геометрична природа середнього геометричного (рисунок з Вікіпедії)
Друга важлива властивість числових даних - їх варіація, Що характеризує ступінь дисперсії даних Дві різні вибірки можуть відрізнятися як середніми значеннями, і варіаціями. Однак, як показано на рис. 6 і 7, дві вибірки можуть мати однакові варіації, але різні середні значення, або однакові середні значення і різні варіації. Дані, яким відповідає полігон на рис. 7 змінюються набагато менше, ніж дані, за якими побудований полігон А.
Рис. 6. Два симетричні розподіли дзвоноподібної форми з однаковим розкидом і різними середніми значеннями
Рис. 7. Два симетричні розподіли дзвоноподібної форми з однаковими середніми значеннями та різним розкидом
Існує п'ять оцінок варіації даних:
- розмах,
- міжквартильний розмах,
- дисперсія,
- стандартне відхилення,
- коефіцієнт варіації.
Розмах
Розмахом називається різниця між найбільшим і найменшим елементамивибірки:
Розмах = ХMax – ХMin
Розмах вибірки, що містить дані про середньорічну дохідність 15 взаємних фондів з дуже високим рівнем ризику, можна обчислити, використовуючи впорядкований масив (рис. 4): Розмах = 18,5 – (-6,1) = 24,6. Це означає, що різниця між найбільшою та найменшою середньорічною прибутковістю фондів з дуже високим рівнем ризику дорівнює 24,6%.
Розмах дозволяє виміряти загальний розкид даних. Хоча розмах вибірки є дуже простою оцінкою загального розкиду даних, його слабкість у тому, що він не враховує, як саме розподілені дані між мінімальним і максимальним елементами. Цей ефект добре простежується на рис. 8, який ілюструє вибірки, що мають однаковий розмах. Шкала демонструє, що якщо вибірка містить хоча б одне екстремальне значення, розмах вибірки виявляється дуже неточною оцінкою розкиду даних.
Рис. 8. Порівняння трьох вибірок, що мають однаковий розмах; трикутник символізує опору терезів, і його розташування відповідає середньому значенню вибірки
Міжквартильний розмах
Міжквартильний, або середній, розмах – це різниця між третім та першим квартилями вибірки:
Міжквартильний розмах = Q 3 - Q 1
Ця величина дозволяє оцінити розкид 50% елементів та не враховувати вплив екстремальних елементів. Міжквартильний розмах вибірки, що містить дані про середньорічну прибутковість 15 взаємних фондів з дуже високим рівнем ризику, можна обчислити, використовуючи дані на рис. 4 (наприклад, для функції КВАРТИЛЬ. ВИКЛ): Міжквартильний розмах = 9,8 – (–0,7) = 10,5. Інтервал, обмежений числами 9,8 та –0,7, часто називають середньою половиною.
Слід зазначити, що величини Q 1 і Q 3 , а значить, і міжквартильний розмах, не залежать від наявності викидів, оскільки при їх обчисленні не враховується жодна величина, яка була б меншою за Q 1 або більше за Q 3 . Сумарні кількісні характеристики, такі як медіана, перший та третій квартілі, а також міжквартильний розмах, на які не впливають викиди, називаються стійкими показниками.
Хоча розмах та міжквартильний розмах дозволяють оцінити загальний та середній розкид вибірки відповідно, жодна з цих оцінок не враховує, як саме розподілені дані. Дисперсія та стандартне відхиленняпозбавлені цього недоліку. Ці показники дозволяють оцінити рівень коливання даних навколо середнього значення. Вибіркова дисперсіяє наближенням середнього арифметичного, обчисленого на основі квадратів різниць між кожним елементом вибірки та середнім вибірковим. Для вибірки Х 1 , Х 2 ... Х n вибіркова дисперсія (позначається символом S 2 задається наступною формулою:
У загальному випадку вибіркова дисперсія - це сума квадратів різниць між елементами вибірки і середнім вибірковим, поділена на величину, рівну обсягу вибірки мінус один:
де - арифметичне середнє, n- обсяг вибірки, X i - i-й елемент вибірки X. В Excel до версії 2007 для розрахунку вибіркової дисперсії використовувалася функція = ДИСП(), з версії 2010 використовується функція = ДИСП.
Найбільш практичною та широко поширеною оцінкою розкиду даних є стандартне вибіркове відхилення. Цей показник позначається символом S і дорівнює квадратного кореняз вибіркової дисперсії:
В Excel до версії 2007 для розрахунку стандартного вибіркового відхилення використовувалася функція = СТАНДОТКЛОН(), з версії 2010 використовується функція = СТАНДОТКЛОН. Для розрахунку цих функцій масив даних може бути невпорядкованим.
Ні вибіркова дисперсія, ні стандартне вибіркове відхилення не можуть бути негативними. Єдина ситуація, в якій показники S 2 і S можуть бути нульовими, якщо всі елементи вибірки рівні між собою. У цьому неймовірному випадку розмах і міжквартильний розмах також дорівнюють нулю.
Числові дані за своєю природою мінливі. Будь-яка змінна може набувати безліч різних значень. Наприклад, різні взаємні фонди мають різні показники прибутковості та збитків. Внаслідок мінливості числових даних дуже важливо вивчати не лише оцінки середнього значення, які за своєю природою є сумарними, а й оцінки дисперсії, що характеризують розкид даних.
Дисперсія і стандартне відхилення дозволяють оцінити розкид даних навколо середнього значення, інакше кажучи, визначити скільки елементів вибірки менше середнього, а скільки більше. Дисперсія має деякі цінні математичні властивості. Проте її величина є квадрат одиниці виміру - квадратний відсоток, квадратний долар, квадратний дюйм і т.п. Отже, природною оцінкою дисперсії є стандартне відхилення, яке виражається у звичайних одиницях вимірів - відсотках доходу, доларах чи дюймах.
Стандартне відхилення дає змогу оцінити величину коливань елементів вибірки навколо середнього значення. Практично у всіх ситуаціях основна кількість величин, що спостерігаються, лежить в інтервалі плюс-мінус одне стандартне відхилення від середнього значення. Отже, знаючи середнє арифметичне елементів вибірки та стандартне вибіркове відхилення, можна визначити інтервал, якому належить основна маса даних.
Стандартне відхилення прибутковості 15 взаємних фондів із дуже високим рівнем ризику дорівнює 6,6 (рис. 9). Це означає, що дохідність основної маси фондів відрізняється від середнього значення не більше ніж на 6,6% (тобто коливається в інтервалі від - S= 6,2 - 6,6 = -0,4 до + S= 12,8). Фактично в цьому інтервалі лежить п'ятирічна середньорічна прибутковість 53,3% (8 із 15) фондів.
Рис. 9. Стандартне вибіркове відхилення
Зверніть увагу на те, що в процесі підсумовування квадратів різниць елементи вибірки, що лежать далі від середнього значення, набувають більшої ваги, ніж елементи, що лежать ближче. Ця властивість є основною причиною того, що для оцінки середнього значення розподілу найчастіше використовують середнє арифметичне значення.
Коефіцієнт варіації
На відміну від попередніх оцінок розкиду коефіцієнт варіації є відносною оцінкою. Він завжди вимірюється у відсотках, а не в одиницях виміру вихідних даних. p align="justify"> Коефіцієнт варіації, що позначається символами CV, вимірює розсіювання даних щодо середнього значення. Коефіцієнт варіації дорівнює стандартному відхилення, поділеному на середнє арифметичне та помноженому на 100%:
де S- стандартне вибіркове відхилення, - Вибіркове середнє.
Коефіцієнт варіації дозволяє порівняти дві вибірки, елементи яких виражаються у різних одиницях виміру. Наприклад, керуючий служби доставки кореспонденції має намір оновити парк вантажівок. При завантаженні пакетів слід враховувати два види обмежень: вага (у фунтах) та обсяг (у кубічних футах) кожного пакета. Припустимо, що у вибірці, що містить 200 пакетів, середня вага дорівнює 26,0 фунтів, стандартне відхилення ваги 3,9 фунтів, середній об'єм пакета 8,8 кубічних футів, а стандартне відхилення обсягу 2,2 кубічних футів. Як порівняти розкид ваги та обсягу пакетів?
Оскільки одиниці виміру ваги та обсягу відрізняються один від одного, керуючий повинен порівняти відносний розкид цих величин. Коефіцієнт варіації ваги дорівнює CV W = 3,9 / 26,0 * 100% = 15%, а коефіцієнт варіації обсягу CV V = 2,2 / 8,8 * 100% = 25%. Таким чином, відносний розкид обсягу пакетів набагато більший від відносного розкиду їх ваги.
Форма розподілу
Третя важлива властивість вибірки – форма її розподілу. Цей розподіл може бути симетричним чи асиметричним. Щоб описати форму розподілу, необхідно обчислити його середнє та медіану. Якщо ці два показники збігаються, змінна вважається симетрично розподіленою. Якщо середнє значення змінної більше за медіану, її розподіл має позитивну асиметрію (рис. 10). Якщо медіана більша за середнє значення, розподіл змінної має негативну асиметрію. Позитивна асиметрія виникає, коли середнє значення збільшується до надзвичайно високих значень. Негативна асиметрія виникає, коли середнє значення зменшується до надзвичайно малих значень. Змінна є симетрично розподіленою, якщо вона не набуває жодних екстремальних значень в жодному з напрямків, так що великі та малі значення змінної врівноважують один одного.
Рис. 10. Три види розподілів
Дані, що зображені на шкалі А, мають негативну асиметрію. На цьому малюнку видно довгий хвісті перекіс вліво, викликані наявністю надзвичайно малих значень. Ці вкрай малі величини зміщують середнє значення вліво, і воно стає меншим за медіану. Дані, що зображені на шкалі Б, розподілені симетрично. Ліва та права половини розподілу є своїми дзеркальними відображеннями. Великі та малі величини врівноважують одна одну, а середнє значення і медіана рівні між собою. Дані, зображені на шкалі, мають позитивну асиметрію. На цьому малюнку видно довгий хвіст і перекіс праворуч, викликані наявністю надзвичайно високих значень. Ці надто великі величини зміщують середнє значення вправо, і воно стає більше медіани.
В Excel описові статистики можна отримати за допомогою надбудови Пакет аналізу. Пройдіть меню Дані → Аналіз даних, у вікні виберіть рядок Описова статистикаі клацніть Ok. У вікні Описова статистикаобов'язково вкажіть Вхідний інтервал(Рис. 11). Якщо ви хочете побачити описові статистики на тому ж аркуші, що й вихідні дані, виберіть перемикач Вихідний інтервалі вкажіть комірку, куди слід помістити лівий верхній кут статистик, що виводяться (у нашому прикладі $C$1). Якщо ви хочете вивести дані на новий аркуш або нову книгу, достатньо просто вибрати відповідний перемикач. Поставте галочку навпроти Підсумкова статистика. За бажанням також можна вибрати Рівень складності,k-й найменший таk-й найбільший.
Якщо на вкладі Данів області Аналізу вас не відображається піктограма Аналіз даних, потрібно попередньо встановити надбудову Пакет аналізу(Див., Наприклад, ).
Рис. 11. Описові статистики п'ятирічної середньорічної доходності фондів з дуже високим рівнем ризику, обчислені за допомогою надбудови Аналіз данихпрограми Excel
Excel обчислює цілу низку статистик, розглянутих вище: середнє, медіану, моду, стандартне відхилення, дисперсію, розмах ( інтервал), мінімум, максимум та обсяг вибірки ( рахунок). Крім того, Excel обчислює деякі нові для нас статистики: стандартну помилку, ексцес та асиметричність. Стандартна помилкадорівнює стандартному відхилення, поділеному на квадратний корінь обсягу вибірки. Асиметричністьхарактеризує відхилення від симетричності розподілу і є функцією, яка залежить від куба різниць між елементами вибірки та середнім значенням. Ексцес є мірою відносної концентрації даних навколо середнього значення в порівнянні з хвостами розподілу і залежить від різниць між елементами вибірки і середнім значенням, зведених в четвертий ступінь.
Обчислення описових статистик для генеральної сукупності
Середнє значення, розкид і форма розподілу, розглянуті вище, є показниками, що визначаються за вибіркою. Однак, якщо набір даних містить числові вимірювання усієї генеральної сукупності, можна обчислити її параметри. До таких параметрів ставляться математичне очікування, дисперсія і стандартне відхилення генеральної сукупності.
Математичне очікуваннядорівнює сумі всіх значень генеральної сукупності, поділеної на обсяг генеральної сукупності:
де µ - математичне очікування, Xi- i-е спостереження змінної X, N- Обсяг генеральної сукупності. В Excel для обчислення математичного очікування використовується та сама функція, що й для середнього арифметичного: = СРЗНАЧ().
Дисперсія генеральної сукупностідорівнює сумі квадратів різниць між елементами генеральної сукупності та мат. очікуванням, поділеної на обсяг генеральної сукупності:
де σ 2- Дисперсія генеральної сукупності. Excel до версії 2007 для обчислення дисперсії генеральної сукупності використовується функція =ДИСПР(), починаючи з версії 2010 =ДИСП.Г().
Стандартне відхилення генеральної сукупностідорівнює квадратному кореню, витягнутому з дисперсії генеральної сукупності:
В Excel до версії 2007 для обчислення стандартного відхилення генеральної сукупності використовується функція =СТАНДОТКЛОНП(), починаючи з версії 2010=СТАНДОТКЛОН.Г(). Зверніть увагу на те, що формули для дисперсії та стандартного відхилення генеральної сукупності відрізняються від формул для обчислення вибіркової дисперсії та стандартного відхилення. При обчисленні вибіркових статистик S 2і Sзнаменник дробу дорівнює n – 1, а при обчисленні параметрів σ 2і σ - обсягом генеральної сукупності N.
Емпіричне правило
Більшість ситуацій велика частка спостережень концентрується навколо медіани, утворюючи кластер. У наборах даних, що мають позитивну асиметрію, цей кластер розташований лівіше (тобто нижче) математичного очікування, а в наборах, що мають негативну асиметрію, цей кластер розташований правіше (тобто вище) математичного очікування. У симетричних даних математичне очікування і медіана збігаються, а спостереження концентруються навколо математичного очікування, формуючи дзвоновий розподіл. Якщо розподіл не має яскраво вираженої асиметрії, а дані концентруються навколо якогось центру тяжкості, для оцінки мінливості можна застосовувати емпіричне правило, яке свідчить: якщо дані мають дзвоновий розподіл, то приблизно 68% спостережень відстоять від математичного очікування не більше ніж на одне стандартне відхилення, приблизно 95% спостережень відстоять від математичного очікування лише на два стандартних відхилення і 99,7% спостережень відстоять від математичного очікування лише на три стандартних відхилення.
Таким чином, стандартне відхилення, що є оцінкою середнього коливання навколо математичного очікування, допомагає зрозуміти, як розподілені спостереження, і ідентифікувати викиди. З емпіричного правила випливає, що для дзвонових розподілів лише одне значення з двадцяти відрізняється від математичного очікування більше, ніж на два стандартні відхилення. Отже, значення, що лежать за межами інтервалу µ ± 2σ, можна вважати викидами. Крім того, лише три з 1000 спостережень відрізняються від математичного очікування більш ніж на три стандартні відхилення. Таким чином, значення, що лежать за межами інтервалу µ ± 3σМайже завжди є викидами. Для розподілів, що мають сильну асиметрію або не мають дзвоноподібної форми, можна застосовувати емпіричне правило Бьенаме-Чебишева.
Понад сто років тому математики Б'єнаме та Чебишев незалежно один від одного відкрили корисна властивістьстандартного відхилення. Вони виявили, що для будь-якого набору даних, незалежно від форми розподілу, відсоток спостережень, що лежать на відстані, що не перевищує kстандартних відхилень від математичного очікування, не менше (1 – 1/ k 2) * 100%.
Наприклад, якщо k= 2, правило Бьенаме-Чебишева говорить, що як мінімум (1 – (1/2) 2) х 100% = 75% спостережень має лежати в інтервалі µ ± 2σ. Це правило справедливе для будь-кого k, Що перевищує одиницю. Правило Бьенаме-Чебишева має дуже загальний характері і справедливо для розподілів будь-якого виду. Воно вказує мінімальну кількість спостережень, відстань яких до математичного очікування вбирається у заданої величини. Однак, якщо розподіл має дзвонову форму, емпіричне правило більш точно оцінює концентрацію даних навколо математичного очікування.
Обчислення описових статистик для розподілу на основі частот
Якщо вихідні дані недоступні, єдиним джерелом інформації стає розподілення частот. У таких ситуаціях можна вирахувати наближені значення кількісних показників розподілу, таких як середнє арифметичне, стандартне відхилення, квартили.
Якщо вибіркові дані представлені у вигляді розподілу частот, наближене значення середнього арифметичного можна обчислити, припускаючи, що всі значення всередині кожного класу зосереджені в середній точці:
де - вибіркове середнє, n- кількість спостережень, чи обсяг вибірки, з- кількість класів у розподілі частот, m j- середня точка j-го класу, fj- Частота, відповідна j-му класу.
Для обчислення стандартного відхилення щодо розподілу частот також передбачається, що всі значення всередині кожного класу зосереджені в середній точці класу.
Щоб зрозуміти, як визначаються квартилі ряду на основі частот, розглянемо розрахунок нижнього квартилю на основі даних за 2013 про розподіл населення Росії за величиною середньодушових грошових доходів (рис. 12).
Рис. 12. Частка населення Росії із середньодушовими грошовими доходами в середньому за місяць, рублів
Для розрахунку першого квартилю інтервального варіаційного ряду можна скористатися формулою:
де Q1 – величина першого квартилю, хQ1 – нижня межа інтервалу, що містить перший квартиль (інтервал визначається за накопиченою частотою, першою, що перевищує 25%); i – величина інтервалу; Σf – сума частот усієї вибірки; мабуть, завжди дорівнює 100%; SQ1–1 – накопичена частота інтервалу, що передує інтервалу, що містить нижній квартиль; fQ1 – частота інтервалу, що містить нижній квартиль. Формула для третього квартилю відрізняється тим, що у всіх місцях замість Q1 потрібно використовувати Q3, а замість ¼ підставити ¾.
У прикладі (рис. 12) нижній квартиль перебуває у інтервалі 7000,1 – 10 000, накопичена частота якого дорівнює 26,4%. Нижня межа цього інтервалу - 7000 руб., Величина інтервалу - 3000 руб., Накопичена частота інтервалу, що передує інтервалу, що містить нижній квартиль - 13,4%, частота інтервалу, що містить нижній квартиль - 13,0%. Таким чином: Q1 = 7000 + 3000 * (¼ * 100 - 13,4) / 13 = 9677 руб.
Пастки, пов'язані з описовими статистиками
У цій нотатці ми розглянули, як описати набір даних за допомогою різних статистик, що оцінюють його середнє значення, розкид та вид розподілу. Наступним етапомє аналіз та інтерпретація даних. Досі ми вивчали об'єктивні властивості даних, а тепер переходимо до їхнього суб'єктивного трактування. Дослідника підстерігають дві помилки: неправильно обраний предмет аналізу та неправильна інтерпретація результатів.
Аналіз прибутковості 15 взаємних фондів із дуже високим рівнем ризику є цілком неупередженим. Він привів до абсолютно об'єктивних висновків: всі взаємні фонди мають різну прибутковість, розкид прибутковості фондів коливається від -6,1 до 18,5, а середня прибутковість дорівнює 6,08. Об'єктивність аналізу даних забезпечується правильним виборомсумарних кількісних показників розподілу Було розглянуто кілька способів оцінки середнього значення та розкиду даних, зазначені їхні переваги та недоліки. Як вибрати правильну статистику, що забезпечує об'єктивний і неупереджений аналіз? Якщо розподіл даних має невелику асиметрію, чи слід вибирати медіану, а чи не середнє арифметичне? Який показник точніше характеризує розкид даних: стандартне відхилення чи розмах? Чи слід зазначати позитивну асиметрію розподілу?
З іншого боку, інтерпретація даних суб'єктивним процесом. Різні люди приходять до різних висновків, тлумачачи одні й самі результати. У кожного своя думка. Хтось вважає сумарні показники середньорічної прибутковості 15 фондів із дуже високим рівнем ризику добрими та цілком задоволений отриманим доходом. Іншим може здатися, що ці фонди мають надто низьку прибутковість. Таким чином, суб'єктивність слід компенсувати чесністю, нейтральністю та ясністю висновків.
Етичні проблеми
Аналіз даних нерозривно пов'язані з етичними питаннями. Слід критично ставитися до інформації, що розповсюджується газетами, радіо, телебаченням та Інтернетом. Згодом ви навчитеся скептично ставитися не тільки до результатів, але й до цілей, предмету та об'єктивності досліджень. Найкраще про це сказав відомий британський політикБенджамін Дізраелі: «Існують три види брехні: брехня, нахабна брехня та статистика».
Як було зазначено у замітці, етичні проблеми виникають при виборі результатів, які слід навести у звіті. Слід публікувати як позитивні, і негативні результати. Крім того, роблячи доповідь або письмовий звіт, результати слід викладати чесно, нейтрально та об'єктивно. Слід розрізняти невдалу та нечесну презентації. Для цього необхідно визначити, якими були наміри доповідача. Іноді важливу інформацію доповідач пропускає з невігластва, а іноді - навмисне (наприклад, якщо він застосовує середнє арифметичне для оцінки середнього значення явно асиметричних даних, щоб отримати бажаний результат). Нечесно також замовчувати результати, які відповідають точці зору дослідника.
Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 178–209
Функція КВАРТИЛЬ залишена для суміщення з попередніми версіями Excel
Ознаки одиниць статистичних сукупностей різні за своїм значенням, наприклад, заробітна плата робітників однієї професії будь-якого підприємства не однакова за один і той же період часу, різні ціни на ринку на однакову продукцію, врожайність сільськогосподарських культур у господарствах району і т.д. Тому, щоб визначити значення ознаки, характерне для всієї сукупності одиниць, що вивчається, розраховують середні величини.
Середня величина –
це узагальнююча характеристика множини індивідуальних значень деякої кількісної ознаки.
Сукупність, що вивчається за кількісною ознакою, складається з індивідуальних значень; на них впливають як загальні причини, так і індивідуальні умови. У середньому відхилення, характерні для індивідуальних значень, погашаються. Середня, будучи функцією безлічі індивідуальних значень, представляє одним значенням всю сукупність і відбиває те загальне, що притаманне її одиницям.
Середня, яка розраховується для сукупностей, що складаються з якісно однорідних одиниць, називається типової середньої. Наприклад, можна розрахувати середньомісячну заробітну плату працівника тієї чи іншої професійної групи (шахтаря, лікаря бібліотекаря). Зрозуміло, рівні місячної заробітної плати шахтарів через різницю їх кваліфікації, стажу роботи, відпрацьованого за місяць часу та багатьох інших факторів відрізняються один від одного, так і від рівня середньої заробітної плати. Однак у середньому рівні відбито основні чинники, які впливають рівень заробітної плати, і взаємно погашаються відмінності, що виникають внаслідок індивідуальних особливостей працівника. Середня вести відбиває типовий рівень оплати праці даного виду працівників. Одержання типової середньої має передувати аналіз того, наскільки дана сукупність якісно однорідна. Якщо сукупність складається з окремих частин, слід розбити її на типові групи (середня температура по лікарні).
Середні величини, що використовуються як характеристики для неоднорідних сукупностей, називаються системними середніми. Наприклад, середня величина валового внутрішнього продукту(ВВП) на душу населення, середня величина споживання різних груп товарів на людину та інші подібні величини, що становлять узагальнюючі характеристики держави як єдиної економічної системи.
Середня повинна обчислюватися для сукупностей, що складаються з достатньо великої кількостіодиниць. Дотримання цієї умови необхідне для того, щоб набрав чинності закон великих чисел, внаслідок дії якого випадкові відхилення індивідуальних величин від загальної тенденції взаємно погашаються.
Види середніх та способи їх обчислення
Вибір виду середньої визначається економічним змістом певного показника та вихідних даних. Однак будь-яка середня величина повинна обчислюватися так, щоб при заміні нею кожної варіанти ознаки, що осредняется, не змінився підсумковий, узагальнюючий, або, як його прийнято називати, визначальний показник, який пов'язаний з показником, що середнюється. Наприклад, при заміні фактичних швидкостей на окремих відрізках шляху їх середньою швидкістю не повинна змінитися загальна відстань, пройдена транспортним засобомза те саме час; при заміні фактичних заробітних плат окремих працівників підприємства середньою заробітною платою не має змінитись фонд заробітної плати. Отже, у кожному конкретному випадку залежно від характеру наявних даних, існує лише одне справжнє середнє значення показника, адекватне властивостям та сутності соціально-економічного явища, що вивчається.
Найчастіше застосовуються середня арифметична, середня гармонійна, середня геометрична, середня квадратична та середня кубічна.
Перераховані середні відносяться до класу статечнихсередніх та об'єднуються загальною формулою:
,
де - Середнє значення досліджуваного ознаки;
m – показник ступеня середнього;
– поточне значення (варіанту) ознаки;
n - Число ознак.
Залежно від значення показника ступеня m розрізняють такі види статечних середніх:
при m = -1 - середня гармонійна;
при m = 0 - середня геометрична;
при m = 1 - середня арифметична;
при m = 2 - середня квадратична;
при m = 3 - середня кубічна.
При використанні одних і тих же вихідних даних, чим більший показник ступеня m у наведеній вище формулі, тим більше значення середньої величини:
.
Ця властивість статечних середніх зростати з підвищенням показника ступеня визначальної функції називається правилом мажорантності середніх.
Кожна із зазначених середніх може набувати двох форм: простуі зважену.
Проста форма середньоїзастосовується, коли середня обчислюється за первинними (несгрупованими) даними. Зважена форма- При розрахунку середньої за вторинними (згрупованими) даними.
Середня арифметична
Середня арифметична застосовується, коли обсяг сукупності є сумою всіх індивідуальних значень варіює ознаки. Слід зазначити, що й вид середньої величини не вказується, мається на увазі середня арифметична. Її логічна формула має вигляд:
Середня арифметична простарозраховується за несгрупованими даними
за формулою:
або ,
де – окремі значення ознаки;
j – порядковий номер одиниці спостереження, що характеризується значенням;
N - Число одиниць спостереження (обсяг сукупності).
приклад.У лекції «Зведення та угруповання статистичних даних» розглядалися результати спостереження стажу роботи бригади із 10 осіб. Розрахуємо середній стаж роботи робітників бригади. 5, 3, 5, 4, 3, 4, 5, 4, 2, 4.
За формулою середньої арифметичної простий обчислюються також середні у хронологічному ряду, якщо інтервали часу, протягом якого представлені значення ознаки, рівні.
приклад.Обсяг реалізованої продукції за перший квартал становив 47 ден. од., за другий 54, за третій 65 та за четвертий 58 ден. од. Середньоквартальний оборот становить (47+54+65+58)/4 = 56 грош. од.
Якщо в хронологічному ряду наведено моментні показники, то при обчисленні середньої вони замінюються на півсуми значень на початок і кінець періоду.
Якщо моментів більше двох та інтервали між ними рівні, то середня обчислюється за формулою середньої хронологічної
,
де n-число моментів часу
У разі коли дані згруповані за значеннями ознаки
(т. е. побудовано дискретний варіаційний ряд розподілу) з середня арифметична зваженарозраховується з використанням або частот, або частостей спостереження конкретних значень ознаки, число яких (k) значно менше числаспостережень (N).
,
,
де k – кількість груп варіаційного ряду,
i – номер групи варіаційного ряду.
Оскільки , а , отримуємо формули, які використовуються для практичних розрахунків:
і
приклад.Розрахуємо середній стаж робочих бригад по згрупованому ряду.
а) з використанням частот:
б) з використанням частостей:
У разі коли дані згруповані за інтервалами
, тобто. представлені у вигляді інтервальних рядів розподілу, при розрахунку середньої арифметичної як значення ознаки приймають середину інтервалу, виходячи з припущення про рівномірний розподіл одиниць сукупності на даному інтервалі. Розрахунок ведеться за формулами:
і
де - середина інтервалу: ,
де і – нижня та верхня межі інтервалів (за умови, що верхня межа цього інтервалу збігається з нижньою межею наступного інтервалу).
приклад.Розрахуємо середню арифметичну інтервального варіаційного ряду, побудованого за результатами дослідження річної заробітної плати 30 робітників (див. лекцію «Зведення та угруповання статистичних даних»).
Таблиця 1 - Інтервальний варіаційний ряд розподілу.
Інтервали, грн. |
Частота, чол. |
Частина, |
Середина інтервалу, |
||
600-700 |
3 |
0,10 |
(600+700):2=650 |
1950 |
65 |
грн. або грн.
Середні арифметичні, обчислені на основі вихідних даних та інтервальних варіаційних рядів, можуть не збігатися через нерівномірність розподілу значень ознаки всередині інтервалів. У цьому випадку для більш точного обчислення середньої арифметичної зваженої слід використовувати не середини інтервалів, а середні арифметичні прості, розраховані для кожної групи ( групові середні). Середня, обчислена за груповим середнім з використанням виваженої формули розрахунку, називається загальної середньої.
Середня арифметична має низку властивостей.
1. Сума відхилень варіант від середньої дорівнює нулю:
.
2. Якщо всі значення варіант збільшуються або зменшуються на величину А, то середня величина збільшується або зменшується на ту ж величину А:
3. Якщо кожну варіанту збільшити або зменшити в раз, то середня величина також збільшиться або зменшаться в ту ж кількість разів:
або
4. Сума творів варіант на частоти дорівнює добутку середньої величини на суму частот:
5. Якщо всі частоти розділити чи помножити на якесь число, то середня арифметична не зміниться:
6) якщо у всіх інтервалах частоти рівні один одному, то середня арифметична зважена дорівнює простій середній арифметичній:
,
де k – кількість груп варіаційного ряду.
Використання властивостей середньої дозволяє спростити її обчислення.
Припустимо, що всі варіанти (х) спочатку зменшені на те саме число А, а потім зменшені в раз. Найбільше спрощення досягається, коли як А вибирається значення середини інтервалу, що володіє найбільшою частотою, а як В – величина інтервалу (для рядів з однаковими інтервалами). Величина А називається початком відліку, тому цей метод обчислення середньої називається способ ом відліку від умовного нуляабо способом моментів.
Після цього перетворення отримаємо новий варіаційний ряд розподілу, варіанти якого рівні . Їхня середня арифметична, звана моментом першого порядку,виражається формулою і відповідно до другого і третього властивостей середньої арифметичної дорівнює середній з первісних варіант, зменшеної спочатку на А, а потім у раз, тобто .
Для отримання дійсної середньої(Середньої початкового ряду) потрібно момент першого порядку помножити на В і додати А:
Розрахунок середньої арифметичної за способом моментів ілюструється даними табл. 2.
Таблиця 2 - Розподіл працівників цеху підприємства за стажем роботи
Стаж працівників, років |
Кількість працівників |
Середина інтервалу |
|||
0 – 5 |
12 |
2,5 |
15 |
3 |
36 |
Знаходимо момент першого порядку . Потім, знаючи, що А=17,5, а=5, обчислюємо середній стаж роботи працівників цеху:
років
Середня гармонійна
Як було показано вище, середня арифметична застосовується для розрахунку середнього значення ознаки у тих випадках, коли відомі його варіанти x та їх частоти f.
Якщо статистична інформація не містить частот f за окремими варіантами x сукупності, а представлена як їх добуток, застосовується формула середньої гармонійної зваженої. Щоб обчислити середню, позначимо, звідки . Підставивши ці вирази у формулу середньої арифметичної зваженої, отримаємо формулу середньої гармонійної зваженої:
,
де - обсяг (вага) значень ознаки показника в інтервалі з номером i (i = 1,2, ..., k).
Таким чином, середня гармонічна застосовується в тих випадках, коли підсумовування підлягають не самі варіанти, а обернені їм величини: .
Тоді, коли вага кожної варіанти дорівнює одиниці, тобто. індивідуальні значення зворотної ознаки зустрічаються по одному разу, застосовується середня гармонійна проста:
,
де - окремі варіанти зворотної ознаки, що зустрічаються по одному разу;
N - Число варіант.
Якщо по двох частинах сукупності чисельністю і є середні гармонійні, то загальна середня по всій сукупності розраховується за такою формулою:
і називається зваженої гармонійної середньої з групових середніх.
приклад.У ході торгів на валютній біржі за першу годину роботи укладено три правочини. Дані про суму продажу гривні та курс гривні по відношенню до долара США наведено у табл. 3 (графи 2 та 3). Визначити середній курс гривні по відношенню до долара США за першу годину торгів.
Таблиця 3 - Дані про хід торгів на валютній біржі
Середній курс долара визначається ставленням суми проданих у ході всіх операцій гривень до суми придбаних у результаті цих угод доларів. Підсумкова сума продажу гривні відома з графи 2 таблиці, а кількість куплених у кожній угоді доларів визначається розподілом суми продажу гривні до її курсу (графа 4). Загалом у ході трьох угод куплено 22 млн. дол. Отже, середній курс гривні за долар склав
.
Отримане значення є дійсним, т.к. заміна ним фактичних курсів гривні в угодах не змінить підсумкової суми продажів гривні, яка виступає як визначального показника: млн. грн.
Якби розрахунку було використано середня арифметична, тобто. гривні, то за обмінним курсом на купівлю 22 млн. дол. треба було б витратити 110,66 млн. грн., що не відповідає дійсності.
Середня геометрична
Середня геометрична використовується для аналізу динаміки явищ та дозволяє визначити середній коефіцієнт зростання. При розрахунку середньої геометричної індивідуальні значення ознаки є відносними показниками динаміки, побудованими у вигляді ланцюгових величин, як відношення кожного рівня до попереднього.
Середня геометрична проста розраховується за формулою:
,
де – знак твору,
N - Число середніх величин.
приклад.Кількість зареєстрованих злочинів за 4 роки зросла в 1,57 раза, у т. ч. за 1-й – у 1,08 раза, за 2-й – у 1,1 раза, за 3-й – у 1,18 та за 4-й – у 1,12 рази. Тоді середньорічний темпи зростання кількості злочинів становить: , тобто. кількість зареєстрованих злочинів щорічно зростала у середньому на 12%.
1,8
-0,8
0,2
1,0
1,4
1
3
4
1
1
3,24
0,64
0,04
1
1,96
3,24
1,92
0,16
1
1,96
Для розрахунку середньої зваженої квадратичної визначаємо і заносимо в таблицю і . Тоді середня величина відхилень довжини виробів від заданої норми дорівнює:
Середня арифметична у разі була б непридатна, т.к. в результаті ми отримали б нульове відхилення.
Застосування середньої квадратичної буде розглянуто далі у показниках варіації.