Включение в уравнение множественной регрессии того или иного набора факторов, связано прежде всего с исследованием природы взаимосвязи исследуемого показателя.
Факторы, включаемые во множественную регрессию, должны отвечать след требованиям: 1) Они должны быть колличественно измеримы, т.е если необходимо включать в модель качественный фактор, не имеющий колличественного измерения, то ему количесвтенную измеренность. Например, в модели урожайности, кач-во почвы задается в виде баллов бонтировки.
2) Фактор не должны быть интеркоррелированны (коррел-я между факторами), тем более находиться в точной функциональной связи. Включение в модель факторов с высокой интеркорреляц-ей
у = а + b1 * х1 + b2 * х2 + ... + bp * xp + E
rxy - интеркорреляция м/у факторами
Если rxy < rx1x2 - это может привести к нежелательным последствиям. Система нормальных уравнений может оказаться плохо обусловленной и повлчь за собой неустойчивость и ненадежность коэф-та регрессии.
Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются не интерпретируемыми.
В уравнении регрессии предполагается, что факторы х1, х2 не зависимы друг от друга: rx1х2 = 0. Тогда можно говорить, что параметр b1 измеряет силу влияния фактора х1 на результат у, при известном значении х2
Если корреляция между факторами rx1х2 = 1, то с изменением фактора х1 фатор х2 не может оставться неизменным. Отсюда b1 и b2 нельзя интерпертировать как показатели раздельного влияния на у. Например, рассм. регрессию себестоим-ти еденицы продукции (у) от з/п работника (х) и производ-ти его труда (z)
у = 22600 - 5х -10z +Е
Коэф-т регрессии при переменной Z показывает, что с ростом производительности на одну еденицу себестоимость еденицы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда. Вместе с тем, праметр при х, нельзя интерпретировать как снижение себестоимости еденицы продукции за счет роста з/п. Отрицаельное значение коэф-та регрессии при переменной х в данном случае обусловлено высокой корреляцией между факторами x,z ( rxz = 0,95) . Поэтому роста з/п при неизменной производительности труда быть не может.
Включаемые во множественную регрессию факторы, должы объяснить вариацию независимой переменной. Если строится модель с набором Р факторов, то для нее расчитывается показатель детерминации, который фиксирует доли объясненной вариации результативного признака, за счет рассматриваемых в регрессии Р факторов.
Влияние других неучтенных в модели факторов, оценивается как 1 - f2 с соответсвующей остаточной дисперсией. При дополнительном включении в регрессию р + 1f коэф-т детерминации должен возрастать, а остаточная дисперсия соответсвенно уменьшается.
Rp+12 > Rp2
Dост р+1 < Dост р
Если же этого не происходит и данные паказатели практически мало отличаются друг от друга, то включаемые в еденицу дополнительный фактор р+1 не улучшает модель, и практически является лишним фактором. Например, если для регрессии, включающей 5 факторв коэф-та детерминации r2 = 0.857, включение 6 фактора дало r2 = 0.858, то врядли целесообразно дополительно включать в модель этот фактор. Насыщение модели лишними факторами не только не снижает величину Dост и не увеличивает r2, но и приводит к статистической незначимости параметров ререгссии по t-критерию Стьюдента.
Таким образом, хотя теоретически регрес-я модель позволяет учесть любое число факторов , фактичести в этом нет необходимости. Обзор факторов произ-ва на основе качественного теорико - экономического анализа. Однако, теоретический анализ часто не позволяет однозначно ответить на вопрос о качесвенной взаимосвязи рассматр-х признаков и целесообразности включения фактора в модель, поэтому отбор фактора происходит в две стадии: 1) первый фактор отбирается, исходя из сущности проблемы ; 2) второй, на основе матрицы показат-й корреляции выбирают t статитстики для параметров регрессии
Коэф-т интеркоррел-ии позволяет исключить из модели дублирующие факторы. Считается, что две переменные явно коллинеарны (т.е наход-ся между собой в лине-й зависимости) если rxiхj >=0,7
Поскольку одним из условий посторения уравнения множественной регр-ии является независимость действия факторов (т.е rxiхj >=0,7) коллинеарность нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга, и один из них рекомендуется искулючить из регрессии. Предпочтение отдаетсяне фактору, тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исслед-я комплексного взаимод-я факторов в условиях независимости друг от друга.
Пусть, например, y = f (x,z,v)
Матрица парных коэф-ов корр-ии
y | x | z | v | |
---|---|---|---|---|
y | 1 | |||
x | 0.8 | 1 | ||
z | 0.7 | 0.8 | 1 | |
v | 0.6 | 0.5 | 0.2 | 1 |
rxy > rzy x
rxv > rzv z!