пользователей: 30398
предметов: 12406
вопросов: 234839
Конспект-online
РЕГИСТРАЦИЯ ЭКСКУРСИЯ

Линейная регрессия. Прямые линии среднеквадратической регрессии

 

 

Рассмотрим двумерную случайную величину (X, Y), где X и У—зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:

korel12.JPG

где α и β — параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них—метод наименьших квадратов.

Функцию g(X)=αX+β называют «наилучшим приближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Y—g(X)]2 принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

линейная среднеквадратическая регрессия y на x

где mx=M(X), my=M(Y), σx=√D(X),  σy=√D(Y),  r=µxy/(σxσy)—коэффициент корреляции величин X и Y.

Доказательство. Введем в рассмотрение функцию двух независимых аргументов α и β: 
Учитывая, что М (X—mx)=M(Y—my) = 0, М[(X—mх)∙(Y—my)] = µxy = rσxσy, и выполнив выкладки, получим

F(α, β) = σy2+ β2 σx2—2r σxσyβ+(my—α—βmx)2. (*)

Исследуем функцию F(α, β) на экстремум, для чего приравняем нулю частные производные:

korel14.JPG

Отсюда,

korel15.JPG

Легко убедиться, что при этих значениях α и β рассматриваемая функция принимает наименьшее значение.

Итак, линейная средняя квадратическая регрессия Y и X имеет вид:

линейная среднеквадратическая регрессия

или

g(x)=my+r(σy/σx)(X-mx)

Коэффициент β=rσy/σx называют коэффициентом регрессии Y на X, а прямую

называют прямой среднеквадратической регрессии Y на X. Подставив найденные значения α и β в соотношение (*), получим минимальное значение функции F (α, β), равное σy2(1—r2). Величину σy2(1—r2) называют остаточной дисперсией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, которую допускают при замене У линейной функцией g(X)=α + βX. При r = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от X. 
Итак, если коэффициент корреляции г = ± 1, то Y и X связаны линейной функциональной зависимостью. 
Аналогично можно получить прямую среднеквадратической регрессии X на Y:

x-mx=r(σx/σy)(y-my)

(rσx/σy — коэффициент регрессии X на Y) и остаточную дисперсию σx2(1—r2) величины X относительно Y. 
Если r = ± 1, то обе прямые регрессии, как видно из уравнений, совпадают. 
Из уравнений прямых среднеквадратической регрессии следует, что обе прямые регрессии проходят через точку (mx; my), которую называют центром совместного распределения величин X и Y.

 


11.01.2018; 19:06
хиты: 121
рейтинг:0
Точные науки
математика
теория вероятности
для добавления комментариев необходимо авторизироваться.
  Copyright © 2013-2024. All Rights Reserved. помощь