Линейная регрессия. Прямые линии среднеквадратической регрессии

Корреляция

Рассмотрим двумерную случайную величину (X, Y), где X и У—зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:

где α и β — параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них—метод наименьших квадратов.

Функцию g(X)=αX+β называют «наилучшим приближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Y—g(X)]2 принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

линейная среднеквадратическая регрессия y на x

где mx=M(X), my=M(Y), σx=√D(X), σy=√D(Y), r=µxy/(σxσy)—коэффициент корреляции величин X и Y.

Доказательство. Введем в рассмотрение функцию двух независимых аргументов α и β:
Учитывая, что М (X—mx)=M(Y—my) = 0, М[(X—mх)∙(Y—my)] = µxy = rσxσy, и выполнив выкладки, получим

F(α, β) = σy2+ β2 σx2—2r σxσyβ+(my—α—βmx)2. (*)

Исследуем функцию F(α, β) на экстремум, для чего приравняем нулю частные производные:

Отсюда,

Легко убедиться, что при этих значениях α и β рассматриваемая функция принимает наименьшее значение.

Итак, линейная средняя квадратическая регрессия Y и X имеет вид:

линейная среднеквадратическая регрессия

или

g(x)=my+r(σy/σx)(X-mx)

Коэффициент β=rσy/σx называют коэффициентом регрессии Y на X, а прямую

называют прямой среднеквадратической регрессии Y на X. Подставив найденные значения α и β в соотношение (*), получим минимальное значение функции F (α, β), равное σy2(1—r2). Величину σy2(1—r2) называют остаточной дисперсией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, которую допускают при замене У линейной функцией g(X)=α + βX. При r = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от X.
Итак, если коэффициент корреляции г = ± 1, то Y и X связаны линейной функциональной зависимостью.
Аналогично можно получить прямую среднеквадратической регрессии X на Y:

x-mx=r(σx/σy)(y-my)

(rσx/σy — коэффициент регрессии X на Y) и остаточную дисперсию σx2(1—r2) величины X относительно Y.
Если r = ± 1, то обе прямые регрессии, как видно из уравнений, совпадают.
Из уравнений прямых среднеквадратической регрессии следует, что обе прямые регрессии проходят через точку (mx; my), которую называют центром совместного распределения величин X и Y.