Первая задача статистики – выявить связь между показателями и придать ей аналитическую форму зависимости.
Основой для этого являются математические функции в виде уравнений:
а) – прямолинейная зависимость (либо)
б) криволинейные зависимости:
- – логарифмическая;
- – параболическая;
- – гиперболическая;
- – показательная;
- – степенная.
Решить математическое уравнение – определить параметры и т.д.:
- с помощью метода наименьших квадратов: сумма квадратов отклонений фактических y от выровненных должна быть минимальной. (для линейной зависимости – по формулам в теме «Ряды динамики»);
- при численности обследуемой совокупности до 30 единиц необходимо проверить параметры на типичность, т.е. не являются ли параметры уровня регрессии результатом действия случайных величин. Используется t – критерий Стьюдента (специальные таблицы с уровнем значимости α и числом степеней свободы k).
Для этого рассчитываются фактические значения t и сравниваются с табличными:
и , где n – численность совокупности,
– среднее квадратическое отклонение случайно величины, а – среднее квадратическое отклонение фактического признака.
Параметры уравнения регрессии и признаются типичными, если tфакт больше tтабличного :
Полученное уравнение регрессии называют математической моделью связи, сущность которой состоит в то, что она определяет среднюю величину результативного признака в зависимости от вариации фактического признака .
Вторая задача – определить полученные оценки тесноты связи между и, она характеризует практическую значимость построенной модели. Для статистической оценки связи применяются показатели вариации:
а) общая дисперсия результативного признака, отображающая влияние всех факторов на
б) факторная дисперсия, отображающая вариацию только от воздействия
в) остаточная дисперсия – характеризует вариацию y от всех прочих факторов (неучтённых, случайных).
Соотношение между факторной и общей дисперсии характеризует меру тесноты связи между и называется коэффициентом детерминации.
(доля фактической дисперсии в общей, т.е. какая часть общей вариации результативного признака объясняется ).
Второй показатель тесноты связи называется коэффициентом корреляции:
(для ЭВМ).
При прямолинейной связи рассчитывается линейный коэффициент корреляции:
,
R = r только при прямолинейной связи.
Показатели тесноты связи проверяются на существенность – по критерию t (Стъюдента) и F (Фишера).
, должен быть больше – тогда существенен коэффициент .
Для R – по критерию Фишера:
, – число параметров в уравнении; c и двумя числами степеней свободы , . должен быть больше .
Для получения выводов о практической значимости показателей тесноты связи даётся оценка по шкале Чеддока:
R(r) |
Сила связи |
|
0 |
отсутствие связи |
|
0,1-0,3 |
слабая |
|
0,3-0,5 |
умеренная |
|
0,5-0,7 |
заметная |
|
0,7-0,9 |
высокая |
(модель пригодна) |
0,9-0,99 |
Весьма высокая (близкая к функциональной, R=1) |
Для выбора адекватного (наиболее соответствующего фактическим данным) уравнения регрессии из множества уравнений применяется показатель средней ошибки аппроксимации:
чем она меньше, тем модель адекватнее.