пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

Коэффициент детерминации

https://studfiles.net/preview/4431620/

 

КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ ДЛЯ ПРОСТОЙ ЛИНЕЙНОЙ РЕГРЕССИИ

Рассмотрим вначале коэффициент детерминации для простой линейной регрессии, называемый также коэффициентом парной детерминации.

На основе соображений, изложенных в разделе 3.1, теперь относительно легко найти меру точности оценки регрессии. Мы показали, что общую дисперсию 1.gif можно разложить на две составляющие — на «необъясненную» дисперсию 2.gif и дисперсию 3.gif обусловленную регрессией. Чем больше 4.gif по сравнению с 5.gifтем больше общая дисперсия формируется за счет влияния объясняющей переменной х и, следовательно, связь между двумя переменными у их более интенсивная. Очевидно, удобно в качестве показателя интенсивности связи, или оценки доли влияния переменной х на 6.gif использовать отношение

image1.gif

Это отношение указывает, какая часть общего (полного) рассеяния значений у обусловлена изменчивостью переменной х. Чем большую долю в общей дисперсии составляет 7.gif тем лучше выбранная функция регрессиисоответствует эмпирическим данным. Чем меньше эмпирические значения зависимой переменной отклоняются от прямой регрессии, тем лучше определена функция регрессии. Отсюда происходит и название отношения (3.6) — коэффициент детерминации 8.gif Индекс при коэффициенте указывает на переменные, связь между которыми изучается. При этом вначале в индексе стоит обозначение зависимой переменной, а затем объясняющей.

Из определения коэффициента детерминации как относительной доли очевидно, что он всегда заключен в пределах от 0 до 1:

image2.gif

Если 9.gif то все эмпирические значения 10.gif (все точки поля корреляции) лежат на регрессионной прямой. Это означает, что 11.gif для 12.gif В этом случае говорят о строгом линейном соотношении (линейной функции) между переменными у их. Если 13.gif дисперсия, обусловленная регрессией, равна нулю, а

«необъясненная» дисперсия равна общей дисперсии. В этом случае 14.gif Линия регрессии тогда параллельна оси абсцисс. Ни о какой численной линейной зависимости переменной у от 15.gif в статистическом ее понимании не может быть и речи. Коэффициент регрессии при этом незначимо отличается от нуля.

Итак, чем больше 16.gif приближается к единице, тем лучше определена регрессия.

Коэффициент детерминации есть величина безразмерная и поэтому он не зависит от изменения единиц измерения переменных у и х (в отличие от параметров регрессии). Коэффициент 17.gif не реагирует на преобразование переменных.

Приведем некоторые модификации формулы (3.6), которые, с одной стороны, будут способствовать пониманию сущности коэффициента детерминации, а с другой стороны, окажутся полезными для практических вычислений. Подставляя выражение для 18.gif в (3.6) и принимая во внимание (1.8) и (3.1), получим:

image3.gif

Эта формула еще раз подтверждает, что «объясненная» дисперсия, стоящая в числителе (3.6), пропорциональна дисперсии переменной х, так как 19.gif является оценкой параметра регрессии.

Подставив вместо 20.gif его выражение (2.26) и учитывая определения дисперсий 21.gif а также средних х и у, получим формулу коэффициента детерминации, удобную для вычисления:

image4.gif

или

image5.gif

Из (3.9) следует, что всегда 22.gif С помощью (3.9) можно относительно легко определить коэффициент детерминации. В этой формуле содержатся только те величины, которые используются для вычисления оценок параметров регрессии и, следовательно, имеются в рабочей таблице. Формула (3.9) обладает тем преимуществом, что вычисление коэффициента детерминации по ней производится непосредственно по эмпирическим данным. Не нужно заранее находить оценки параметров и значения регрессии. Это обстоятельство играет немаловажную роль для последующих исследований, так как перед проведением регрессионного анализа мы можем проверить, в какой степени определена исследуемая регрессия включенными в нее объясняющими

переменными. Если коэффициент детерминации слишком мал, то нужно искать другие факторы-переменные, причинно обусловливающие зависимую переменную. Следует отметить, что коэффициент детерминации удовлетворительно отвечает своему назначению при достаточно большом числе наблюдений. Но в любом случае необходимо проверить значимость коэффициента детерминации. Эта проблема будет обсуждаться в разделе 8.6.

Вернемся к рассмотрению «необъясненной» дисперсии, возникающей за счет изменчивости прочих факторов-переменных, не зависящих от х, а также за счет случайностей. Чем больше ее доля в общей дисперсии, тем меньше, неопределеннее проявляется соотношение между у и х, тем больше затушевывается связь между ними. Исходя из этих соображений мы можем использовать «необъясненную» дисперсию для характеристики неопределенности или неточности регрессии. Следующее соотношение служит мерой неопределенности регрессии:

image6.gif

Легко убедиться в том, что

image7.gif

и

image8.gif

Отсюда очевидно, что не нужно отдельно вычислять меру неопределенности, а ее оценку легко получить из (3.11).

Теперь вернемся к нашим примерам и определим коэффициенты детерминации для полученных уравнений регрессий.

Пример 1

Вычислим коэффициент детерминации по данным примера из раздела 2.4 (зависимость производительности труда от уровня механизации работ). Используем для этого формулу (3.9), а промежуточные результаты вычислений заимствуем из табл. 3:

image9.gif

Отсюда заключаем, что в случае простой регрессии 93,8% общей дисперсии производительности труда на рассматриваемых предприятиях обусловлено вариацией показателя механизации работ. Таким образом, изменчивость переменной х почти полностью объясняет вариацию переменной у.

Для этого примера коэффициент неопределенности 23.gif т. е. только 6,2% общей дисперсии нельзя объяснить зависимостью производительности труда от уровня механизации работ.

Пример 2

Вычислим коэффициент детерминации по данным примера из раздела 2.5 (зависимость объема производства от основных фондов). Необходимые

промежуточные результаты вычислений приведены в разделе 2.5 при определении оценок коэффициентов регрессии:

image10.gif

Таким образом, 91,1% общей дисперсии объема производства исследуемых предприятий обусловлено изменчивостью значений основных фондов на этих предприятиях. Данная регрессия почти полностью исчерпывается включенной в нее объясняющей переменной. Коэффициент неопределенности составляет 0,089, или 8,9%.

Следует отметить, что приведенные в данном разделе формулы предназначены для вычисления по результатам выборки большого объема коэффициента детерминации в случае простой регрессии. Но чаще всего приходится довольствоваться выборкой небольшого объема 24.gif. В этом случае вычисляют исправленный коэффициент детерминации 25.gif учитывая соответствующее число степеней свободы. Формула исправленного коэффициента детерминации для общего случая 26.gif объясняющих переменных будет приведена в следующем разделе. Из нее легко получить формулу исправленного коэффициента детерминации в случае простой регрессии 27.gif


14.06.2019; 02:23
хиты: 73
рейтинг:0
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь