Тема 5

Основные вопросы: 1. Понятие вариации.

2. Показатели вариации.

3. Относительные показатели вариации.

4. Виды дисперсии.

1. Понятие вариации. При изучении совокупности явления нельзя ограничиваться только нахождением средней величины. Средние величины дают обобщенную характеристику варьирующего признака, показывают типичные характеристики для изучаемой совокупности. Однако в средней величине не проявляется степень колеблемости отдельных значений признаков вокруг среднего уровня. В зависимости от однородности в совокупности колеблемость признаков может быть большой или малой. Поэтому возникает необходимость в измерении вариации отдельных вариантов по отношению к средней величине.

Определение : Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.

Вариация в переводе с латинского означает «колеблемость», «изменчивость», «непостоянство». Предполагая, что большинство социально-экономических явлений и процессов варьируют в некотором масштабе, статистика разработала методологию расчета показателей вариации, которые, в свою очередь, могут быть абсолютными, относительными и средними.

Величины признаков колеблются, варьируют под действием различных причин и условий, которые в статистике называют факторами. Нередко эти факторы действуют в противоположных направлениях и сами, в свою очередь, варьируют. Среди них есть существенные факторы, определяющие величину вариантов данного признака у всех единиц совокупности. Но есть и несущественные, которые на одни единицы совокупности могут оказывать влияние, на другие нет.

Например, вариация оценок студентов на экзамене в вузе вызывается, в частности, различными способностями студентов; временем, затраченным ими на самостоятельную работу; посещаемостью занятий; различием социально-бытовых условий и т.д. Но на оценку могут влиять и какие-либо привходящие, чисто случайные причины, например, временное недомогание.

Вариация, порождаемая существенными факторами, носит систематический характер, то есть наблюдается последовательное изменение вариантов признака в определенном направлении. Такая вариация называется систематической. В систематической вариации проявляются взаимосвязи между явлениями, их признаками, в такой связи – один как причина, другой как следствие его действия.

Вариация, обусловленная случайными факторами, называется случайной вариацией. Здесь не наблюдается систематического изменения вариантов зависимого признака от случайных факторов; все изменения носят хаотический характер, поскольку нет устойчивой связи этих факторов с единицами изучаемой совокупности.


Вариация зависимого признака, образовавшаяся под действием всех без исключения влияющих на него факторов, называется общей вариацией. Следовательно, общая вариация слагается из систематической и случайной вариации.

2. Показатели вариации. К показателям вариации относятся: размах вариации, среднее линейное (абсолютное) отклонение (с.л.о.), дисперсия, среднее квадратическое отклонение (с.к.о.), коэффициент вариации.

1) Размах вариации – разность между максимальным и минимальным значением признака:

Он характеризует пределы изменения признака.

Средний размах: – это есть средняя арифметическая из ряда размахов, полученных из серии равных по объему наблюдений. Используется в контроле качества.

Однако размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику.

Простейший показатель такого типа СЛО.

2). Среднее линейное отклонение (СЛО) – представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (учитывает только крайние значения признака и не учитывает все промежуточные).

– СЛО для несгруппированных данных: ,

где – число членов ряда.

Т.е. – СЛО равно средней арифметической из абсолютных отклонений (модулей) признака всех единиц совокупности от средней арифметической.

– СЛО для сгруппированных данных: ,

где – сумма частот вариационного ряда.

В формулах разности в числителе взяты по модулю, иначе в числителе всегда будет ноль – алгебраическая сумма отклонений вариантов от их средней арифметической.

Поэтому СЛО применяют редко, только в случаях, когда суммирование показателей без учета знаков имеет экономический смысл. Например, анализ состава рабочих, ритмичность производства, оборот внешней торговли.

3) Дисперсия – это средний квадрат отклонений индивидуальных значений от средней арифметической (не имеет единиц измерения).

В общем виде взвешенная дисперсия исчисляется по формуле:

или простая дисперсия:

.

Дисперсия альтернативного признака:

4) Среднее квадратическое отклонение (СКО) ‑ это есть квадратный корень из среднего квадрата отклонений отдельных значений признака от средней арифметической:

– для несгруппированных данных;

– для сгруппированных данных (для вариационного ряда).

3. Относительные показатели вариации (коэффициент вариации). В статистической практике часто возникает необходимость сравнения вариаций различных признаков. Например, большой интерес представляет сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. для подобных сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией зарплаты, выраженной в рублях.

Для осуществления такого сравнения, а также сравнения колеблемости одного и того же признака в нескольких совокупностях с различным средним арифметическим используют относительный показатель вариации – коэффициент вариации (КВ).

КВ – представляет собой выраженное в процентах отношение СКО к средней арифметической.

,

это и есть коэффициент вариации. Это относительная мера вариации и позволяет сравнивать степень варьирования в разных вариационных рядах.

4. Виды дисперсии.

Определение : Дисперсия – это средний квадрат отклонений всех значений признака ряда распределения от средней арифметической.

Свойства дисперсии:

1) Дисперсия постоянной величины равна нулю ();

2) Дисперсия не меняется, если все варианты увеличить или уменьшить на одно и то же число ();

3) Если все варианты умножить на число , дисперсия увеличится в раз ;

4) Дисперсия от средней меньше, чем средний квадрат отклонений от любого числа на – свойство минимальности дисперсии от средней ().

Использование свойств дисперсии позволяет упрощать ее расчеты, особенно в случаях, когда вариационный ряд составляет арифметическую прогрессию или имеет равные интервалы. В этих случаях сначала находят дисперсию от условного нуля, а затем используют 4-е свойство, переходят к дисперсии от средней.

Виды дисперсий для сгруппированных данных, условия их применения в статистических исследованиях.

Если совокупность данных сгруппирована на группы по какому-то признаку, то в этом случае выделяются 3 вида дисперсий:

Общая дисперсия

Вариация – это изменение (колеблемость) значений признака в пределах изучаемой совокупности при переходе от одного объекта (группы объектов), или от одного случая к другому. Абсолютные и относительные показатели вариации, характеризующие колеблемость значений варьирующего признака, позволяют, в частности, измерить степень связи и взаимозависимости между признаками, определить степень однородности совокупности, типичности и устойчивости средней, определить величину погрешности выборочного наблюдения, статистически оценить закон распределения совокупности и т. п.

В этой теме необходимо уяснить сущность (смысл), назначение и способы вычисления каждого показателя вариации, рассматриваемого в курсе теории статистики: размах вариации, среднее линейное отклонение, средний квадрат отклонений (дисперсию), среднее квадратическое отклонение, относительные коэффициенты вариации (коэффициент осцилляции, коэффициент среднего линейного отклонения, коэффициент вариации).

Размах вариации (R ) представляет собой разность между максимальным (х max) и минимальным (х min) значениями признака в совокупности (в ряду распределения):

R = х max - х min. (5.1)

Мерой других показателей вариации является разность не между крайними значениями признака, а средняя разность между каждым значением признака и средней величиной этих признаков. Разность между отдельным значением признака и средней называют отклонением.

Среднее линейное отклонение вычисляется по следующим формулам:

по индивидуальным (несгруппированным) данным

; (5.2)

по вариационным рядам (сгруппированным данным)

. (5.3)

Так как алгебраическая сумма отклонений индивидуальных значений признака от средней (согласно нулевому свойству) всегда равна нулю, то при расчете среднего линейного отклонения используется арифметическая сумма отклонений, взятая по модулю, т.е.
.

Среднее линейное отклонение имеет ту же размерность, что и признак, для которого оно исчисляется.

Дисперсия и среднее квадратическое отклонение. Среднее линейное отклонение относительно редко применяется для оценки вариации признака. Поэтому обычно вычисляются дисперсия ( 2) и среднее квадратическое отклонение (). Эти показатели применяются не только для оценки вариации признака, но и для измерения связи между ними, для оценки величины ошибки выборочного наблюдения и других целей.

Дисперсия признака рассчитывается по формулам:

по первичным данным

; (5.4)

по вариационным рядам

. (5.5)

Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии:

по первичным данным

; (5.6)

по вариационным рядам

. (5.7)

Среднее квадратическое отклонение так же, как и среднее линейное отклонение, имеет ту же размерность, что и сам исходный признак.

Дисперсию можно определить и как разность между средним квадратом вариантов и квадратом их средней величины, т. е.
. (5.8)

В этом случае по первичным данным дисперсия равна:

(5.9)

Применительно к сгруппированным данным, расчет дисперсии этим способом в развернутом виде представим в таком виде:

. (5.10)

Для рядов распределения с равными интервалами значение дисперсии можно вычислить, применяя способ условных моментов, т. е.

, (5.11)

где
- первый условный момент; (5.12)

- второй условный момент. (5.13)

Среднее квадратическое отклонение по способу условных моментов определяется по формуле:

(5.14)

Преобразуя выражение расчета дисперсии по способу условных моментов, получим формулу вида:
(5.15)

На основе одних и тех же исходных данных получим одинаковое значение дисперсии.

Относительные показатели вариации вычисляются как отношение ряда абсолютных показателей вариации к их средней арифметической и выражаются в процентах:

коэффициент осцилляции -
; (5.16)

коэффициент относительного линейного отклонения -
; (5.17)

коэффициент вариации -
. (5.18)

Задача 1 . Рассмотрим способы расчета показателей вариации на основе данных табл. 5.1.

Таблица 5.1. Исходные данные для расчета показателей вариации

Затраты времени на производство деталей мин

Количество деталей, шт. (f)

Середина интервала (х)

; к = 2

Приведенный ряд распределения ранжированный, поэтому здесь легко найти минимальное значение признака, оно равно 8 мин. (10 - 2), и максимальное, равное 18 мин. (16 + 2). Значит, размах вариации признака в этом ряду составит 10 мин., т. е.

R = x max – x min = 18 – 8 = 10 мин.

Вычислим среднее линейное отклонение. Прежде всего необходимо вычислить среднюю величину . Все вычисления будем вести в табличной форме (табл. 5.1.), отводя для каждой вычислительной операции графу в таблице.

Поскольку исходные данные представлены рядом распределения, то

мин.

мин.

Покажем способы расчета дисперсии:

а) обычным способом (по определению):

;

б) как разность между средним квадратом и квадратом средней величины:

Для определения величины дисперсии по этой формуле необходимо вычислить средний квадрат вариантов признака по формуле:

;

 2 =178,6 – (13,2) 2 =4,36;

в) по способу условных моментов:

;

;

г) на основе преобразования формулы расчета дисперсии по способу условных моментов имеем:

Дисперсия – число отвлеченное, не имеющее единиц измерения.

Среднее квадратическое отклонение вычислим путем извлечения корня квадратного из дисперсии:

мин.

По способу условных моментов величину среднего квадратического отклонения определим так:

Вычислим относительные показатели вариации:

%;

%;

%.

Основным относительным показателем вариации является коэффициент вариации (V). Он используется для сравнительной оценки меры колеблемости признаков, выраженных в различных единицах измерения.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков (в частности альтернативной изменчивости качественных признаков). В этом случае каждая единица изучаемой совокупности либо обладает каким-то свойством, либо нет (например, каждый взрослый человек либо работает, либо нет). Наличие признака у единиц совокупности обозначают 1, а отсутствие –0; долю же единиц совокупности, обладающих изучаемым признаком, обозначают p, а не обладающих им – q. Дисперсия альтернативного признака определяется по формуле:

; (5.19)

p + q = 1 (5.20)

Если, например, доля поступивших в университет равна 30%, а не поступивших – 70%, то дисперсия равна 0,21(0,3 · 0,7). максимальное значение произведения pq равно 0,25 (при условии, когда одна половина единиц обладает данным признаком, а другая половина нет: (0,5 · 0,5 = 0,25).

Способ разложения общей дисперсии. Для оценки влияния различных факторов, определяющих колеблемость индивидуальных значений признака, воспользуемся разложением общей дисперсии на составляющие: на так называемую групповую дисперсию и среднюю из внутригрупповых дисперсий:

, (5.21)

где
– общая дисперсия, характеризующая вариацию признака как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности.

Вариацию признака, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия  2 , которая является мерой колеблемости частных средних по группам
вокруг общей средней и исчисляется по формуле:

, (5.22)

где n j – число единиц совокупности в каждой группе;

j – порядковый номер группы.

Вариацию признака, обусловленную влиянием всех прочих факторов, кроме группировочного (факторного), характеризует в каждой группе внутригрупповая дисперсия:

, (5.23)

где i – порядковый номер x и f в пределах каждой группы.

По совокупности в целом средняя из внутригрупповых дисперсий определяется по формуле:

(5.24)

Отношение межгрупповой дисперсии  2 к общей
даст коэффициент детерминации:

(5.25)

который характеризует долю вариации результативного признака, обусловленную вариацией факторного признака, положенного в основание группировки.

Показатель, полученный как корень квадратный из коэффициента детерминации, называется коэффициентом эмпирического корреляционного отношения, т.е.:

(5.26)

Он характеризует тесноту связи между результативным и факторным (положенным в основу группировки) признаками. Численное значение коэффициента эмпирического корреляционного отношения имеет два знака: . При решении вопроса о том, с каким знаком его следует брать, необходимо иметь ввиду: если вариация факторного и результативного признаков идет синхронно в одном и том же направлении (возрастает или убывает), то корреляционные отношение берется со знаком плюс; если же изменение этих признаков идет в противоположных направлениях, то оно берется со знаком минус.

Для вычисления групповых и межгрупповых дисперсий можно применять любой из описанных выше способов исчисления среднего квадрата отклонений.

Задача 2. Вычислим все названные дисперсии по исходным данным табл. 5.2.

Таблица 5.2. Распределение посевной площади озимой пшеницы по урожайности

Номер участка

Урожайность, ц/га

Посевная площадь, га

Вычислим среднюю урожайность озимой пшеницы по всем участкам (общая средняя):

ц/га.

Общую дисперсию найдем по формуле:

В гр. 6 табл. 5.2. вычислим значения для расчета среднего квадрата вариантов признака:

.

Находим общую дисперсию:

Урожайность зависит от многих факторов (качество почвы, размер внесения органических и минеральных удобрений, качество семян, сроки сева, уход за посевами и др.) Общая дисперсия в данном случае измеряет колеблемость урожайности за счет всех факторов.

Задача 3. Разобьем совокупность участков на две группы: I группа – посевные площади, на которых не вносились органические удобрения; II – площади, на которых они вносились. К первой группе отнесем участки 1-4, а ко второй – 4-8. По данным этих групп рассчитаем остальные из необходимых нам дисперсий, используя уже произведенные в табл. 5.2. вычисления.

Таблица 5.3. Расчетные данные для вычисления межгрупповой и групповых дисперсий

Номер участка

Урожайность, ц/га (х)

Посевная площадь, га (f)

Номер участка

Урожайность, ц/га (х)

Посевная площадь, га (f)

Определяем:

для I группы:

для II группы:

а) групповую среднюю

а) групповую среднюю

ц/га;

ц/га;

б) средний квадрат вариантов признака

;

;

в) групповую дисперсию

в) групповую дисперсию

Определяем среднюю из групповых дисперсий:

.

Находим межгрупповую дисперсию:

Средняя из групповых дисперсий измеряет колеблемость признака за счет всех прочих факторов, кроме положенного в основание группировки (разграничения на группы), а межгрупповая – за счет именно этого фактора. Сумма этих дисперсий должна дать общую дисперсию, а именно:

Отношение межгрупповой дисперсии к общей в нашем примере даст следующее значение коэффициента детерминации:

, или 71,8%,

т. е. вариация урожайности озимой пшеницы на 71,8% зависит от вариации размеров внесения органических удобрений. Остальные же 28,2% вариации урожайности зависит от влияния всех остальных факторов, кроме размеров внесения органических удобрений.

Коэффициент эмпирического корреляционного отношения составит:

.

Это говорит о том, что внесение органических удобрений оказывает весьма существенное влияние на урожайность.

Показатели вариации

Средняя величина не позволяет судить о тех колебаниях (вариациях), которым подвергается изучаемый признак в данной совокупности. Одних средних величин для анализа недостаточно. Совершенно разные по своему разбросу вокруг среднего совокупности могут иметь одну и то же среднюю арифметическую. Для нахождения величин вариации в статистике применяют специальные показатели, которые называют показателями вариации. Исследование вариации в статистике имеет большое значение, так как помогает понять сущность изучаемого явления.

Перечислим основные показатели вариации и приведем формулы для их вычисления.

Для характеристики размера вариации в статистике применяют абсолютные показатели вариации: размах вариации, среднее линейное отклонение, средне квадратическое отклонение, дисперсию.

Размах вариации -- разность между максимальными и минимальными значениями признака в изучаемой совокупности, т. е.

Размах вариации легко находится по рангам ранжированного ряда распределения.

Более точно характеризует вариацию среднее линейное отклонение, которое находится как среднее арифметическое отклонений индивидуальных значений от средней без учета знака этих отклонений, т. е.

Если исходные данные сгруппированы, то мы можем находить взвешенное среднее линейное отклонение, причем в качестве веса можно применять и частоту (ц), и относительную частоту (/).

Более объективно на практике меру вариации отражает дисперсия (средний квадрат отклонений). О ней говорилось в главе 2. В данном случае речь идет об оценки дисперсии, так как значения вероятностей не известны.

Если мы имеем несгруппированный ряд распределения, то дисперсия определяется формулой

Заметим, что оценка дисперсии, получаемая по формуле (6.28) является смещенной. Пользуясь ей, мы будем совершать некоторую систематическую ошибку в меньшую сторону. Несмещенная оценка для дисперсии находится по формуле

Как правило, формула (6.30) применяется в тех случаях, когда изучаемая совокупность невелика, не более 40 единиц. В тех случаях, когда п > 40, используют формулу (6.29).

Когда исходные данные сгруппированы, вычисляют взвешенные оценки дисперсии

Извлекая из дисперсии арифметический квадратный корень, получаем еще одну характеристику (о ней тоже говорилось в главе 2) -- среднее квадратичное отклонение, или стандарт (точнее его оценку).

Если изучаемая совокупность достаточно велика, то ее, как правило, разбивают на группы по какому-либо признаку. Поэтому наряду с изучением вариации признака по всей совокупности в целом можно изучать вариации для каждой составляющей ее группы, а также между самими группами. Если совокупность расчленяется по какому-то одному фактору, то изучение вариации достигается путем нахождения и анализа трех видов дисперсий: общей, межгрупповой, внутригрупповой.

Общая дисперсия (D x) определяет вариацию по всей совокупности под влиянием всех факторов, которые обусловили эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х (х ар) и вычисляется по формулам (6.29), (6.31), (6.32).

Межгрупповая дисперсия Ф Хмг) характеризует систематическую вариацию результативного порядка, который обусловлен влиянием признака, положенного в основу группировки. Она равна среднему квадрату отклонений групповых средних х аргр от общей средней арифметической х ар, т. е.

где, к - количество групп;

ц. - частота (количество единиц) в группе г;

/. - относительная частота группы г.

Внутригрупповая дисперсия D Xez отражает случайную вариацию (часть вариации), обусловленную влиянием неучтенных факторов и не зависимую от признака, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х. от средней арифметической этой группы х аргр и находится по формулам:

если группа содержит не более 40 наблюдений;

если группа содержит более 40 наблюдений - количество единиц в конкретной группе).

Применяются и формулы для взвешенной дисперсии:

Найдя внутригрупповые дисперсии по каждой группе можно вычислить среднюю из внутригрупповых дисперсий по формулам:

или используя соотношение (6.13).

По правилу сложения дисперсий общая дисперсия должна быть равна сумме межгрупповой и средней из внутригрупповых дисперсий, т. е.

Вариация качественного (альтернативного) признака (признак, которым каждая единица совокупности может обладать или не обладать) находится с помощью дисперсии:

где S - доля единиц совокупности, обладающая качественным признаком;

v - доля единиц совокупности, не обладающая качественным признаком.

Заметим, что S + v = 1.

Среднее квадратическое отклонение качественного признака находится по формуле

Например, если на 10000 населения районного центра 3500 имеют высшее образование, а 6500 не имеют, то

Дисперсия качественного признака равна

Максимальное значение дисперсии качественного признака получается в том случае, если S = v = 0,5. Оно будет равно 0,25.

Для характеристики меры разброса изучаемого признака находятся показатели вариации в относительных единицах. Некоторые из них мы приведем.

Коэффициент осцилляции отражает относительный разброс крайних значений вокруг средней арифметической

Относительное линейное отклонение характеризует долю усредненного значения абсолютных отклонений от средней арифметической, т. е.

Коэффициент вариации, представляющей собой относительное квадратическое отклонение, т. е.

По величине коэффициента вариации можно судить об интенсивности вариации признака, а поэтому и об однородности состава изучаемой совокупности. Чем больше величина коэффициента вариации, тем больше разброс значений признака вокруг средней арифметической, а соответственно, тем больше неоднородность совокупности. Имеется шкала определения степени однородности совокупности в зависимости от значения коэффициента вариации:

  • - если V x
  • - если 30%
  • - если V x > 60%, то совокупность считается неоднородной.

Заметим, что приведенная шкала достаточна условна.

Основными характеристиками формы распределения являются асимметрия и эксцесс. О них достаточно подробно говорилось в главе 2. Здесь речь пойдет об их оценках, так как количество измерений конечно и вероятности неизвестны. Обозначать асимметрию (скос) и эксцесс будем теми же буквами, что и в главе 2, но сверху будем добавлять тильду (~).

Для оценки степени асимметричности распределения обычно применяют моментный коэффициент асимметрии, который находится по формуле

где Дз - оценка третьего центрального момента, которую можно определить по формулам:

Степень существенности коэффициента асимметрии оценивается с помощью средней квадратической ошибки коэффициента асимметрии, который зависит от объема изучаемой совокупности (п) и находится по следующей формуле:

Если отношение , то асимметрия считается существенной, а если , то асимметрию можно признать несущественной, вызванной влиянием случайных причин.

Главный недостаток моментного коэффициента асимметрии А х состоит в том, что его величина зависит от нахождения в совокупности резко выделяющихся вариант. Для таких совокупностей этот коэффициент пригоден мало, так как его большая (абсолютная) величина объясняется преобладающим вкладом в величину оценки третьего центрального момента нетипичных значений, а не асимметричностью распределения основной части вариант.

Структурные коэффициенты асимметрии характеризуют асимметричность только в центральной части распределения, т. е. основной массы вариант и в отличие от моментного коэффициента асимметрии не зависят от крайних значений признака.

Как правило, применяют структурный коэффициент асимметрии, предложенный К. Пирсоном:

Другая характеристика формы распределения - это эксцесс. Его оценку в статистике можно получить по формуле

где Д 4 - оценка четвертого центрального момента, которую можно найти по формулам

Для оценки существенности эксцесса распределения находят среднюю квадратическую ошибку эксцесса:

Если отклонение то отклонение от нормального

распределения считается существенным, в противном случае оно признается незначительным и объясняется случайными причинами.

Теперь приведем конкретный расчетный пример, в котором определим ряд характеристик, приведенных выше, а также затронем вопросы, не разобранные в этой главе. В этом случае наряду с вычислениями рассмотрим кратко и некоторые необходимые теоретические вопросы.

Заметим, что приводимый пример является чисто учебным, данные для него взяты, как говорится, “с потолка”. Кроме того, рассматриваемый ряд наблюдений содержит всего 20 наблюдений для простоты счета, потому что у многих студентов появляются сложности даже при расчете средних величин. В настоящее время имеется большое количество пакетов программ для определения статистических характеристик, так что вручную уже никто не считает. Необходимо помнить, что большое значение имеет качество исходных данных: если они некачественные то и результат будет таким же, статистика и математика в этом случае не помогут.

Пример 6.2

Предположим, что в наше распоряжение поступил статистический материал о количестве зарегистрированных ДТП в районном центре N. Он оформлен в виде таблицы (табл. 6.3), данные в ней приводятся на числа текущего года.

Таблица 6.3

Количество ДТП (х,)

Количество ДТП (х.)

В данном случае количество ДТП - это случайная величина X, а результаты наблюдений, приведенные в табл. 6.3 - совокупность значений, принятых этой случайной величиной, т. е. X = {Xj, х 2 ..., х 20 }. Данные, приведенные в табл. 6.3, надо упорядочить, например расположить их по возрастанию значений изучаемого признака х. (г = 1,20). Если одно и то же значение повторяется несколько раз, то его повторим. В результате получаем статистический ряд распределения (см. табл. 6.4).

По ранжированному ряду (см. табл. 6.4) можно построить, например, статистическую функцию распределения F(x), рассмотренную нами в главе 2.

F(x) - разрывная ступенчатая функция, непрерывная слева и имеющая п скачков, (п - количество наблюдений), причем величина каждого скачка равна 1 /п. Так как некоторые наблюдения совпадают, то скачки сливаются и их число будет равно числу наблюдаемых значений случайной величины X. В нашем случае F(x) будет иметь 15 скачков, откуда следует, что строить ее по ранжированному ряду нерационально, а делать это надо по группированному ряду, что будет рассмотрено несколько позднее.

Таблица 6.4

По ранжированному ряду (табл. 6.4) можно определить оценки числовых характеристик наблюдаемой случайной величины X (количество ДТП), например среднюю арифметическую, дисперсию, среднее квадратическое отклонение, размах вариации и др.

Вычислим, например, размах вариации и среднее арифметическое:

Все числовые характеристики будем определять до целых, так как не бывает десятых и сотых долей ДТП. Можно вычислить и другие числовые характеристики по данным табл. 6.4, но мы это сделаем по группированному ряду.

По статистическому ряду распределения построим группированный ряд, о котором говорилось в главе 4. Заметим, что длины интервалов в нем необязательно должны быть одинаковы, но в каждом из них должны быть наблюдения, т. е. не должно быть пустых интервалов. В том случае если значение случайной величины X попадает ни границу между разрядами, мы будем делить его поровну между соседними разрядами, т. е. к значению каждого их них добавлять по 1/2.

Приближенно найти оптимальное количество групп (разрядов) с равными интервалами можно по формуле Стерджесса:

где к - количество разрядов;

п - количество наблюдений.

Но данная формула применима в том случае, если распределение изучаемой случайной величины X приближается к нормальному, а мы этого не знаем. Поэтому формулой Стерджесса пользоваться не будем (в нашем случае она дает следующий результат к « 5,3 « 5).

Полученный группированный ряд приведен в табл. 6.5. В ней кроме разрядов, частот, относительных частот, приведены плотности частоты и теоретические вероятности, которые понадобятся в дальнейшем.

Таблица 6.5

Заметим, что

где f* - плотность относительной частоты, т. е. отношение относительной частоты к длине интервала(в на

шем случае она для всех разрядов одинакова).

Имея группированный ряд (см. табл. 6.5), можно приближенно построить статистическую функцию распределения F(x) В качестве значений X, для которых определяется F(x), возьмем границы разрядов. Статистическая функция распределения для нашего примера приведена на рис. 6.1.


Теперь по группированному ряду (см. табл. 6.5) построим гистограмму, откладывая по оси абсцисс разряды, а по оси ординат соответствующие плотности относительных частот f v В результате получим совокупность прямоугольников, площадь каждого из которых равна соответствующей относительной частоте (рис. 6.2.).

Заметим, что гистограмму можно строить, используя и частоты ц..

Теперь используя группированный статистический ряд, получим искомые числовые характеристики изучаемой случайной величины X (количество ДТП), т. е. среднюю арифметическую и некоторые показатели вариации. В качестве веса будем использовать относительную частоту / (частость) (можно использовать, как мы уже говорили, в качестве веса относительную частоту (а.).

Вычислим среднеарифметическое весовое:

В качестве х. берем середину соответствующего интервала. Заметим, что х ар получилось таким же, что и по ранжированному ряду.

Находим дисперсию:

Определяем среднее квадратическое отклонение:

Среднее квадратическое отклонение округлим до десятых.

Находим среднее линейное отклонение:

Вычисляем коэффициент вариации: т. е. нашу совокупность можно считать однородной.

Определяем коэффициент осцилляции:

По формулам (6.21) и (6.23) вычисляем моду и медиану. При вычислении этих характеристик используем частоты ц..

Находим моментный коэффициент асимметрии:

Для этого сначала определяем оценку третьего центрального момента:

Поэтому, А х ~ -0,031, т. е. имеем очень небольшую отрицательную асимметрию.

Степень существенности асимметрии оценим с помощью средней квадратической ошибки коэффициента асимметрии по формуле

Так как , то асимметрия несущественна и вызвана влиянием случайных причин.

Теперь вычисляем эксцесс по формуле Для это

го сначала находим оценку четвертого центрального момента:

Поэтому эксцесс равент. е. наше распределение

немного прижато к оси абсцисс.

Для определения существенности эксцесса распределения вычислим его среднюю квадратическую ошибку, используя формулу (6.55). Получим

Так как отношение меньше 3, то отклонение от

Заметим, что среднее квадратическое отклонение по величине всегда больше среднего линейного отклонения. В нашем случае

Соотношение зависит от наличия в совокупности резких отклонений и может быть индикатором “засоренности” ее нетипичными, выделяющимися из основной массы единицами. Для нормального распределения отношение

Для нашего примера имеем

Заменяя числовые характеристики случайной величины их оценками, мы совершаем некоторую ошибку. Желательно оценить эту ошибку и найти вероятность (надежность) того, что она не превзойдет некоторого малого положительного s (точность).

В рассматриваемом нами примере заменили М[Х] на ос ар, а D[X] на D x . Оценим точность и надежность этих оценок по результатам нашего примера.

Чтобы оценить точность и надежность оценки, надо знать ее закон распределения. Во многих случаях этот закон оказывается близок к нормальному. Так как среднее статистическое значение случайной величины X - это сумма достаточно большого числа независимых случайных величин, то по центральной предельной теореме распределения близко к нормальному с математическим ожиданием

и дисперсией а значит со стандартом

Для того чтобы определить параметры нормального распределения по которому находится оценка х ар, заменяем в формулах (6.57)-(6.59) истинные параметры М[Х ], D и а(х) их оценками x ap , D x , д х и получаем

Допуская, что случайная величина х ар имеет нормальное распределение с параметрами М[х ар ] и D, находим приближенно вероятность того, что оценка х ар отклоняется от своего математического ожидания менее чем на s.

где Ф 0 (х) - нормированная функция Лапласа, о которой уже говорилось в главе 2. Для нее составлены таблицы (см. приложение 5).

Используем данные рассматриваемого нами примера и оценим точность и надежность х ар. Для нашего примера имеем: х ар = 90; D x = 57,5; д х = 7,6. Найдем вероятность того, что, полагая М[Х] * х ар, не совершим ошибки более чем е - 3.

По формулам (6.60)-(6.62) получили:

По таблице приложения 5 находим Ф о (1,765) = 0,46164, т. е. вероятность того, что ошибки от замены М[Х] на х ар не превысит 3 приближенно равна 0,92 (92%). Эту вероятность можно считать достаточной.

Доказывается, что при п > 20 оценка D x независимо от распределения случайной величины X приближенно распределена по нормальному закону с параметрами:

Заменяя в формулах (6.64)-(6.66) D[X] ее статистической оценкой D x получим:

Используя данные примера, по формулам (6.67)и (6.69) получим:

Теперь по формуле (6.63) находим вероятность того, что оценка D x отклонится от своего истинного значения D[X] меньше чем на е = 3.


По таблице приложения 5 находим ФД0Д6) = 0,06356, т. е. вероятность того что оценка от замены D[X] на D x будет менее 3 равна 0,13 (13%), что явно недостаточно. У нас всего 20 наблюдений, а формулы (6.64)-(6.66) работают при п > 20.

Мы уже говорили, что наш пример учебный. В реальных задачах данных значительно больше, поэтому и вероятность, полученная по формуле (6.63), будет значительно выше.

Полученная нами гистограмма (см. рис. 6.2.) - это графическое изображение нашего распределения. Но пользоваться гистограммой при дальнейших исследованиях неудобно. Поэтому ставиться вопрос о том, как подобрать для данного конкретного распределения аналитическую зависимость (формулу), которая выражала бы лишь существенные черты нашего распределения. Данную задачу называют, выравниваем статистических распределений. Обычно выравнивают гистограммы, т. е. заменяют ее некоторой теоретической кривой, имеющей определенное аналитическое выражение. А затем это выражение принимают за плотность распределения /(х).

В рассматриваемом примере мы выравниваем построенную нами гистограмму по нормальному закону с параметрами х ар = 90; а х = 7,6, т. е. в выражении для плотности нормального распределения

Заменяем М[Х] и а[Х] их оценками и получаем

В качестве значений х берем границы интервалов в нашем группированном ряду, подставляем их в формулу (6.70) и получаем:

Полученные данные наносим на рис 6.2 и получаем плавную кривую.

Теперь проверим гипотезу Н о о нормальном законе распределения с плотностью f(x). Гипотезе Н о противопоставляется альтернативная гипотеза Н 1 которая говорит о том, что случайная величина X не подчиняется нормальному закону с параметрами х ар = 90; а х = 7,6.

Для того чтобы сделать вывод о том, согласуются ли данные наблюдений с выдвинутой нами гипотезой, применяют критерий согласия. Критерием согласия называется критерий проверки гипотезы о законе распределения. Он применяется для проверки согласия предполагаемого вида закона распределения с опытными данными.

Существуют различные критерии согласия: Пирсона, Фишера, Колмогорова и др.

При проверке гипотез могут допускаться ошибки двух видов. Ошибка первого рода состоит в том, что отвергается верная нулевая гипотеза Н о; ошибка второго рода - в том, что отвергается верная альтернативная гипотеза Н г

Вероятность ошибки первого рода (а) называется уровнем значимости критерия. Чем меньше а, тем меньше вероятность отклонить верную гипотезу Н о Допустимую а обычно задают заранее. Как правило, применяют стандартные значения а = 0,01; 0,05; 0,1.

Вероятность ошибки второго рода обозначают через р. Величину (1 - р) - вероятность недопущения ошибки второго рода (принять верную гипотезу и отвергнуть неверную гипотезу Н 0) - называют мощностью критерия.

Сначала используем для проверки гипотезы о нормальном распределении критерий Пирсона (х 2)- Приведем краткие теоретические сведения. Предположим, что проведено п опытов в каждом из которых случайная величина X приняла определенное значение, т. е. х 1 х 2 ....., х к - число возможных значений

случайной величины X). В результате получаем статистический ряд распределения (табл. 6.6).

Таблица 6.6

где - соответствующие вероятности.

Считаем, что отклонения / от Р имеют случайные причины. Для проверки правдоподобия выдвинутой гипотезы надо выбрать какую-то меру расхождения между статистическими и теоретическими распределениями.

В качестве такой меры расхождения при использовании критерия Пирсона берется сумма квадратов отклонений (/. - Р.), взятых с некоторыми весами С { , т. е.

Веса С. вводят, так как отклонения, относящиеся к разным значениям Р., нельзя считать равноправными по значимости.

Пирсон доказал, что если взять

то при большом числе опытов п закон распределения величины R a обладает следующими свойствами: он практически не зависит от закона распределения случайной величины X, мало зависит от числа опытов п, зависит только от количества значений случайной величины Х(к) и при п -> оо приближается к распределению х 2 Поэтому меру расхождения в данном случае обозначают % 2 , т. е.

Вводим п под знак суммы, учитывая, что, и после

преобразований получаем

Распределение х 2 зависит от параметра называемого числом степеней свободы (г с), который определяется следующим образом:

где S e -- количество независимых условий, которые наложены на относительные частоты. Для нашего примера S e = 3. Мы потребовали, чтобы выполнялись условия:

Для распределения % 2 составлены таблицы (см. приложение 6). Для нашего примера проверим гипотезу о нормальном распределении с помощью критерия Пирсона.

Вернемся к табл. 6.5, где осталась одна незаполненная графа (Р.) - это теоретические вероятности попадания в интервал случайной величины X, имеющей нормальное распределение с параметрами х ар = 90; а х = 7,6.

Для их нахождения используем формулу (2.44). Получаем:

где Ф о (х) - нормированная функция Лапласа, для которой, как мы уже говорили, составлены таблицы (см. приложение 5).

Полученные значения вероятностей занесем в табл. 6.5. Далее по формуле (6.74) получим:

Число степеней свободы в нашем случае равно г, = 6 - 3 = 3. Уровень значимости принимаем равным 0,1, т. е. а = 0,1. По таблице распределения х 2 (см. приложение 6) по уровню значимости а = 0,1 и по числу степеней свободы г = 3 находим %т = 6,25.

Так как Хт > Х Р, то гипотеза о нормальном распределении не противоречит данным наблюдений и ее можно принять с уровнем значимости 0,1. Если под рукой нет таблицы распределения х 2 , для оценки случайности расхождения /. от Р. можно использовать критерий Романовского

Если соотношение (6.76) меньше трех, то расхождение между фактическим и теоретическим распределениями носит случайный характер, а в противном случае они существенны.

Для данных примера имеем , поэтому гипотезу о нормальном распределении тоже можно принять.

Теперь применим для проверки гипотезы о нормальном распределении критерий согласия Колмогорова.

Критерий Колмогорова основан на нахождении максимального расхождения между накопленными частотами или относительными частотами экспериментального распределения и вероятностями теоретического распределения. Он определяется по формулам:

если пользоваться накопленными относительными частотами;

если пользоваться накопленными частотами, где d M - максимальная величина расхождений между накопленными относительными частотами и вероятностями;

D M - максимальная разность между реальными и теоретическими частотами.

Будем использовать формулу (6.77), и необходимые данные разместим в табл. 6.8.

Из табл. 6.8 следует, что, поэтому по формуле

(6.75) получаем

Таблица 6.8

Накопленные f и Р

Затем по таблицам Р() (см. приложение 8) находим Р(Х к) = 1. Поэтому можно полагать, что расхождения между относительными частотами и теоретическими вероятностями носят случайный характер, а, следовательно, гипотеза о нормальном распределении не противоречит данным наблюдений.

В заключение еще раз повторим, что наш пример носит учебный характер. Надо иметь в виду, что при использовании критерия Пирсона количество наблюдений должно быть не менее нескольких десятков, в каждом разряде должно быть не менее пяти наблюдений, а количество разрядов должно быть примерно 10-15.

Вопросы для самопроверки

  • 1. Какие виды средних величин применяют в статистике?
  • 2. Как определяются средняя гармоническая простая и взвешенная?
  • 3. Как определяются средняя геометрическая простая и взвешенная?
  • 4. Как определяется средняя арифметическая простая и взвешенная?
  • 5. Как вычисляются средняя квадратическая и средняя кубическая?
  • 6. Какие показатели вариации вы знаете?
  • 7. Что представляют собой размах вариации и среднее линейное отклонение? По каким формулам они вычисляются?
  • 8. Что такое дисперсия и среднее квадратическое отклонение? По каким формулам они вычисляются?
  • 9. По какой формуле находится дисперсия качественного признака?
  • 10. Что представляет собой коэффициент вариации? Каково его значение для экономического анализа?
  • 11. Что представляет собой правило сложения дисперсии?
  • 12. Что представляют собой асимметрия и эксцесс, и по каким формулам они находятся?

Вариационными называют ряды распределения, построенные по количественному признаку. Значения количественных признаков у отдельных единиц совокупности не постоянны, более или менее различаются между собой. Такое различие в величине признака носит название вариации. Отдельные числовые значения признака, встречающиеся в изучаемой совокупности, называют вариантами значений. Наличие вариации у отдельных единиц совокупности обусловлено влиянием большого числа факторов на формирование уровня признака. Изучение характера и степени вариации признаков у отдельных единиц совокупности является важнейшим вопросом всякого статистического исследования. Для описания меры изменчивости признаков используют показатели вариации.

Другой важной задачей статистического исследования является определение роли отдельных факторов или их групп в вариации тех или иных признаков совокупности. Для решения такой задачи в статистике применяются специальные методы исследования вариации, основанные на использовании системы показателей, с помощью которых измеряется вариация. В практике исследователь сталкивается с достаточно большим количеством вариантов значений признака, что не дает представления о распределении единиц по величине признака в совокупности. Для этого проводят расположение всех вариантов значений признака в возрастающем или убывающем порядке. Этот процесс называют ранжированием ряда. Ранжированный ряд сразу дает общее представление о значениях, которые принимает признак в совокупности.

Недостаточность средней величины для исчерпывающей характеристики совокупности заставляет дополнять средние величины показателями, позволяющими оценить типичность этих средних путем измерения колеблемости (вариации) изучаемого признака. Использование этих показателей вариации дает возможность сделать статистический анализ более полным и содержательным и тем самым глубже понять сущность изучаемых общественных явлений.

Для измерения вариации признака применяются различные абсолютные и относительные показатели. К абсолютным показателям вариации относятся среднее линейное отклонение, размах вариации, дисперсия, среднее квадратическое отклонение.

Размах вариации (R) представляет собой разность между максимальным и минимальным значениями признака в изучаемой совокупности: R = Xmax – Xmin. Этот показатель дает лишь самое общее представление о колеблемости изучаемого признака, так как показывает разницу только между предельными значениями вариантов. Он совершенно не связан с частотами в вариационном ряду, т. е. с характером распределения, а его зависимость может придавать ему неустойчивый, случайный характер только от крайних значений признака. Размах вариации не дает никакой информации об особенностях исследуемых совокупностей и не позволяет оценить степень типичности полученных средних величин.

Для характеристики вариации признака нужно обобщить отклонения всех значений от какой-либо типичной для изучаемой совокупности величины. Такие показатели вариации, как среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, основаны на рассмотрении отклонений значений признака отдельных единиц совокупности от средней арифметической.

Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных значений отклонений отдельных вариантов от их средней арифметической:

– абсолютное значение (модуль) отклонения варианта от средней арифметической; f– частота.

Существует и другой способ усреднения отклонений вариантов от средней арифметической. Этот очень распространенный в статистике способ сводится к расчету квадратов отклонений вариантов от средней величины с их последующим усреднением. При этом мы получаем новый показатель вариации – дисперсию.

Дисперсия – средняя из квадратов отклонений вариантов значений признака от их средней величины:

В экономико-статистическом анализе вариацию признака принято оценивать чаще всего с помощью среднего квадратического отклонения. Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии:

Среднее линейное и среднее квадратическое отклонения показывают, на сколько в среднем колеблется величина признака у единиц исследуемой совокупности, и выражаются в тех же единицах измерения, что и варианты.

В статистической практике часто возникает необходимость сравнения вариации различных признаков. Например, большой интерес представляет сравнение вариаций возраста персонала и его квалификации, стажа работы и размера заработной платы и т. д. Для подобных сопоставлений показатели абсолютной колеблемости признаков – среднее линейное и среднее квадртическое отклонение – не пригодны. Нельзя, в самом деле, сравнивать колеблемость стажа работы, выражаемую в годах, с колеблемостью заработной платы, выражаемой в рублях и копейках.

При сравнении изменчивости различных признаков в совокупности удобно применять относительные показатели вариации. Эти показатели вычисляются как отношение абсолютных показателей к средней арифметической (или медиане). Коэффициент вариации – наиболее часто применяемый показатель относительной колеблемости, характеризующий однородность совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33 % для распределений, близких к нормальному.

Тема 6. Виды и методы анализа рядов динамики

  1. Ряды динамики. Виды рядов динамики.
  2. Основные показатели рядов динамики
  3. Средние показатели рядов динамики

1. Явления общественной жизни, изучаемые социально-экономической статистикой, находятся в непрерывном изменении и развитии. С течением времени – от месяца к месяцу, от года к году – изменяются численность населения и его состав, объем производимой продукции, уровень производительности труда и т. д., поэтому одной из важнейших задач статистики является изучение изменения общественных явлений во времени – процесса их развития, их динамики. Эту задачу статистика решает путем построения и анализа рядов динамики (временных рядов).

Ряд динамики (хронологический, динамический, временной ряд) – это последовательность упорядоченных во времени числовых показателей, характеризующих уровень развития изучаемого явления. Ряд включает два обязательных элемента: время и конкретное значение показателя (уровень ряда).

Каждое числовое значение показателя, характеризующее величину, размер явления, называется уровнем ряда. Кроме уровней каждый ряд динамики содержит указания о тех моментах либо периодах времени, к которым относятся уровни.

При подведении итогов статистического наблюдения получают абсолютные показатели двух видов. Одни из них характеризуют состояние явления на определенный момент времени: наличие на этот момент каких-либо единиц совокупности или наличие того или иного объема признака. К таким показателям относится численность населения, парк автомобилей, жилищный фонд, товарные запасы и т. д. Величину таких показателей можно определить непосредственно только по состоянию на тот или иной момент времени, а потому эти показатели и соответствующие ряды динамики и называются моментными.

Другие показатели характеризуют итоги какого-либо процесса за определенный период (интервал) времени (сутки, месяц, квартал, год и т. п.). Такими показателями являются, например, число родившихся, количество произведенной продукции, ввод в действие жилых домов, фонд заработной платы и др. Величину этих показателей можно подсчитать только за какой-нибудь интервал (период) времени, поэтому такие показатели и ряды их значений называются интервальными.

Каждый уровень интервального ряда уже представляет собой сумму уровней за более короткие промежутки времени. При этом единица совокупности, входящая в состав одного уровня, не входит в состав других уровней, поэтому в интервальном ряду динамики уровни за примыкающие друг к другу периоды времени можно суммировать, получая итоги (уровни) за более продолжительные периоды (так, суммируя месячные уровни, получим квартальные, суммируя квартальные, получим годовые, суммируя годовые – многолетние).

В моментном динамическом ряду одни и те же единицы совокупности обычно входят в состав нескольких уровней, поэтому суммирование уровней моментного ряда динамики само по себе не имеет смысла, так как получающиеся при этом итоги лишены самостоятельной экономической значимости.

При построении и перед анализом ряда динамики нужно прежде всего обратить внимание на то, чтобы уровни ряда были сопоставимы между собой, так как только в этом случае динамический ряд будет правильно отражать процесс развития явления. Сопоставимость уровней ряда динамики – это важнейшее условие обоснованности и правильности выводов, полученных в результате анализа этого ряда. При построении динамического ряда надо иметь в виду, что ряд может охватывать большой период времени, в течение которого могли произойти изменения, нарушающие сопоставимость (территориальные изменения, изменения круга охвата объектов, методологии расчетов и т. д.).

При изучении динамики общественных явлений статистика решает следующие задачи:

Измеряет абсолютную и относительную скорость роста либо снижения уровня за отдельные промежутки времени;

Дает обобщающие характеристики уровня и скорости его изменения за тот или иной период;

Выявляет и численно характеризует основные тенденции развития явлений на отдельных этапах;

Дает сравнительную числовую характеристику развития данного явления в разных регионах или на разных этапах;

Выявляет факторы, обусловливающие изменение изучаемого явления во времени;

Делает прогнозы развития явления в будущем.

2 . Простейшими показателями анализа, которые используются при решении ряда задач, в первую очередь при измерении скорости изменения уровня ряда динамики, являются абсолютный прирост, темпы роста и прироста, а также абсолютное значение (содержание) одного процента прироста. Расчет этих показателей основан на сравнении между собой уровней ряда динамики. При этом уровень, с которым производится сравнение, называется базисным, так как он является базой сравнения. Обычно за базу сравнения принимается либо предыдущий, либо какой-либо предшествующий уровень, например первый уровень ряда.

Если каждый уровень сравнивается с предыдущим, то полученные при этом показатели называются цепными, так как они представляют собой как бы звенья «цепи», связывающей между собой уровни ряда. Если же все уровни связываются с одним и тем же уровнем, выступающим как постоянная база сравнения, то полученные при этом показатели называются базисными.

Часто построение ряда динамики начинают с того уровня, который будет использован в качестве постоянной базы сравнения. Выбор этой базы должен быть обоснован историческими и социально-экономическими особенностями развития изучаемого явления. В качестве базисного целесообразно брать какой-либо характерный, типичный уровень, например конечный уровень предыдущего этапа развития (или средний его уровень, если на предыдущем этапе уровень то повышался, то понижался).

Абсолютный прирост показывает, на сколько единиц увеличился (или уменьшился) уровень по сравнению с базисным, т. е. за тот или иной промежуток (период) времени. Абсолютный прирост равен разности между сравниваемыми уровнями и измеряется в тех же единицах, что и эти уровни:

где уi – уровень i-го года; yi-1 – уровень предшествующего года; y0 – уровень базисного года.

Абсолютный прирост за единицу времени (месяц, год) измеряет абсолютную скорость роста (или снижения) уровня. Цепные и базисные абсолютные приросты связаны между собой: сумма последовательных цепных приростов равна соответствующему базисному приросту, т. е. общему приросту за весь период.

Более полную характеристику роста можно получить только тогда, когда абсолютные величины дополняются относительными. Относительными показателями динамики являются темпы роста и темпы прироста, характеризующие интенсивность процесса роста.

Темп роста (Тр) – статистический показатель, который отражает интенсивность изменения уровней ряда динамики и показывает, во сколько раз увеличился уровень по сравнению с базисным, а в случае уменьшения – какую часть базисного уровня составляет сравниваемый уровень; измеряется отношением текущего уровня к предыдущему или базисному:

Между цепными и базисными темпами роста, выраженными в форме коэффициентов, существует определенная взаимосвязь: произведение последовательных цепных темпов роста равно базисному темпу роста за весь соответствующий период.

Темп прироста (Тпр) характеризует относительную величину прироста, т. е. представляет собой отношение абсолютного прироста к предыдущему или базисному уровню:

Темп прироста, выраженный в процентах, показывает, на сколько процентов увеличился (или уменьшился) уровень по сравнению с базисным, принятым за 100 %.

При анализе темпов развития никогда не следует упускать из виду, какие абсолютные величины – уровни и абсолютные приросты – скрываются за темпами роста и прироста. Нужно, в частности, иметь в виду, что при снижении (замедлении) темпов роста и прироста абсолютный прирост может возрастать.

В связи с этим важно изучать еще один показатель динамики – абсолютное значение (содержание) 1 % прироста, который определяется как результат деления абсолютного прироста на соответствующий темп прироста:

3. С течением времени изменяются не только уровни явлений, но и показатели их динамики – абсолютные приросты и темпы развития, поэтому для обобщающей характеристики развития, для выявления и измерения типичных основных тенденций и закономерностей и решения других задач анализа используются средние показатели временного ряда – средние уровни, средние абсолютные приросты и средние темпы динамики.

При вычислении средних показателей динамики необходимо иметь в виду, что к этим средним показателям полностью относятся общие положения теории средних величин. Это означает прежде всего, что динамическая средняя будет типичной, если она характеризует период с однородными, более или менее стабильными условиями развития явления. Выделение таких периодов – этапов развития – в определенном отношении аналогично группировке. Если же динамическая средняя величина исчислена за период, в течение которого условия развития явления существенно менялись, т. е. период, охватывающий разные этапы развития явления, то такой средней величиной нужно пользоваться с большой осторожностью, дополняя ее средними величинами за отдельные этапы.

Наиболее просто вычисляется средний уровень интервального ряда динамики абсолютных величин с равностоящими уровнями. Расчет производится по формуле простой средней арифметической:

где n – число фактических уровней за последовательные равные отрезки времени.

Для моментного ряда с разностоящими уровнями расчет среднего уровня ряда производится по формуле

Средний абсолютный прирост показывает, на сколько единиц увеличивался или уменьшался уровень по сравнению с предыдущим периодом в среднем за единицу времени (в среднем ежемесячно, ежегодно и т. д.). Средний абсолютный прирост характеризует среднюю абсолютную скорость роста (или снижения) уровня и всегда является интервальным показателем. Он вычисляется путем деления общего прироста за весь период на длину этого периода в тех или иных единицах времени:

Расчет среднего абсолютного цепного прироста:

Расчет среднего абсолютного базисного прироста:

где – цепные абсолютные приросты за последовательные промежутки времени; n – число цепных приростов; У0 – уровень базисного периода.

Средний темп роста, выраженный в форме коэффициента, показывает, во сколько раз увеличивается уровень по сравнению с предыдущим периодом в среднем за единицу времени (в среднем ежегодно, ежемесячно и т. п.).

Для средних темпов роста и прироста сохраняет силу та же взаимосвязь, которая имеет место между обычными темпами роста и прироста:

Средний темп прироста (или снижения), выраженный в процентах, показывает, на сколько процентов увеличивался (или снижался) уровень по сравнению с предыдущим периодом в среднем за единицу времени (в среднем ежегодно, ежемесячно и т. п.). Средний темп прироста характеризует среднюю интенсивность роста, т. е. среднюю относительную скорость изменения уровня.

Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени. К показателям вариации относятся: размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, коэффициент вариации.

Абсолютные показатели:
размах вариации R, представляющий собой разность между максимальным и минимальным значениями признака: .

Размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением ее размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику. Простейшим показателем такого типа является среднее линейное отклонение.

Среднее линейное отклонение представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (при этом всегда предполагают, что среднюю вычитают из варианта: ()).

Среднее линейное отклонение для несгруппированных данных:

,

где n – число членов ряда; для сгруппированных данных:

,

где — сумма частот вариационного ряда.

Дисперсия признака представляет собой средний квадрат отклонений вариантов от их средней величины, она вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных).

Простая дисперсия для несгруппированных данных:

;

взвешенная дисперсия для вариационного ряда:

.

Дисперсия обладает определенными свойствами, два из которых:

1) если все значения признака уменьшить или увеличить на одну и ту же постоянную величину А, то дисперсия от этого не изменится;

2) если все значения признака уменьшить или увеличить в одно и то же число раз (i раз).

То дисперсия соответственно уменьшится или увеличится в раз. Используя второе свойство дисперсии, разделив все варианты на величину интервала, можно получить формулу вычисления дисперсии в вариационных рядах с равными интервалами по способу моментов:

,

где -дисперсия, исчисленная по способу моментов;

i – величина интервала;

– новые (преобразованные) значения вариантов (А – условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой);

— момент второго порядка;

— квадрат момента первого порядка.

Среднее квадратическое отклонение равно корню квадратному из дисперсии: для несгруппированных данных:


,

для вариационного ряда:


.

Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака в совокупности; оно показывает, на сколько в среднем отклоняются конкретные варианты от их среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, поэтому экономически хорошо интерпретируется.

Относительные показатели:
Коэффициент вариации представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:

.

Также коэффициент вариации используется как характеристика однородности совокупности. Если , то колеблемость незначительная, если , то колеблемость умеренная-средняя, если , то колеблемость значительная, если , то совокупность однородная.

Коэффициент осцилляции:

.

Относительное линейное отклонение:

.

Вариация признаков обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Общая дисперсия измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значение признака х от общей средней величины и может быть вычислена как простая дисперсия или взвешенная дисперсия.

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней :

,

где f – численность единиц в группе.

Внутригрупповая (частная) дисперсия отражает случайную вариацию, т.е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировка. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы x i (групповой средней) и может быть исчислена как простая дисперсия

или как взвешенная дисперсия .

На основании внутригрупповой дисперсии по каждой группе, т.е. на основании можно определить общую среднюю из внутригрупповых дисперсий: .

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:

.

Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью – неизвестную. Чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.

Поэтому в статистическом анализе широко используется эмпирический коэффициент детерминации — показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:

.

Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обуславливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи – единице.

Эмпирическое корреляционное отношение – это корень квадратный из эмпирического коэффициента детерминации: .

Он показывает тесноту связи между группировочным и результативным признаками. Эмпирическое корреляционное отношение может принимать значения от 0 до 1. Если связь отсутствует, то корреляционное отношение равно нулю, т.е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации. Если связь функциональная, то корреляционное отношение будет равно единице. В этом случае дисперсия групповых средних равна общей дисперсии , т.е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака. Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.

Задание 2. Относительные показатели

Вариант 10. Имеются следующие данные о численности населения за 1999 г. и территории по двум странам:

Страна

Численность населения (млн. чел.)

Территория (тыс. км 2)

Молдова

64.6

Украина

49.7

603.7

Определить:

    Плотность населения по обеим странам.

    Относительный показатель сравнения по численности населения.

    Решение

    Плотность населения рассчитывается как относительный показатель интенсивности (ОПИ), характеризующий степень распространения или уровень развития того или иного явления в определенной среде. Он рассчитывается как отношение показателя, характеризующего явление, к показателю, характеризующему среду распространения явления.

    ОПИ Молдова =чел/км 2 . Т.е. плотность населения Молдавы 31,15 человека на 1 км 2 .

    ОПИ Азербайджан =чел/км 2 . Т.е. плотность населения Украины 82,33 человека на 1 км 2 .

    ОПСр=. Т.е. территория Украины в 20,708 раза (или на 1970%) больше территории Молдавии.

    Задание 3. Средние показатели

    Вариант 10. Имеются следующие данные о распределении численности безработных женщин, зарегистрированных службами занятости, по возрастным группам на конец 1999 г. (тыс.чел.):

    Возраст

    менее 20

    20-25

    25-30

    30-35

    35-40

    40-45

    45-50

    50 и старше

    Численность безработных

    12,7

    11,3

    Найти среднее значение возраста зарегистрированной безработной.

    Решение

    Для того, чтобы рассчитать среднюю арифметическую интервального ряда, надо сначала перейти к условному дискретному ряду из средних значений интервалов. Если имеются интервалы без указания нижней границы или верхней границы (50 и старше), то соответствующее значение устанавливают таким образом, чтобы получился ряд с равновеликими интервалами. В данном случае условный дискретный ряд имеет вид:

    Возраст

    17,5

    22,5

    27,5

    32,5

    37,5

    42,5

    47,5

    52,5

    Численность населения

    12,7

    11,3


    ,

    где x i i -тое значение признака,

    n i – частота x i , k – число различных значений признака в совокупности.

    . Т.е. среднее значение возраста 35,0 лет.

    Задание 4. Ряды динамики

    Вариант 10. Имеются следующие данные о динамике среднегодовой численности населения Украины (млн. чел.):

    Годы

    1995

    1996

    1997

    1998

    1999

    Численность населения

    51,3

    50,9

    50,4

    50,0

    49,7

    Определить:

    Абсолютные приросты (цепные и базисные).

    Средний абсолютный прирост.

    Темпы роста (цепные и базисные).

    Темпы прироста (цепные и базисные).

    Абсолютное значение 1% прироста.

  1. Среднегодовой темп роста.

    Решение

    Абсолютный прирост характеризует размер увеличения или уменьшения изучаемого явления за определенный период времени. Он определяется как разность между данным уровнем и предыдущим (цепной) или первоначальным (базисный).

    Для динамического ряда , состоящего из n+1 уровней, абсолютный прирост определяется таким образом:

    цепной , где – текущий уровень ряда, –уровень, предшествующий .

    базисный , где – текущий уровень ряда, – начальный уровень ряда.

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    Средний абсолютный прирост рассчитывается по формуле

    ,

    где – конечный уровень ряда.

    Т. е. среднегодовая численность населения Украины за данный период времени снижалась в среднем на 0,4 млн. человек в год.

    Темпом роста называется отношение данного уровня явления к предыдущему (цепной) или начальному (базисный) уровню, выраженное в процентах. Темпы роста вычисляются по формулам:

    цепной .

    базисный .

    Темпом прироста называется отношение абсолютного прироста к предыдущему (цепной) или начальному (базисный) уровню, выраженное в процентах. Темпы прироста вычисляются по формулам:

    цепной .