Многофакторный регрессионный и корреляционный анализ линейный многофакторный. Многофакторный корреляционный и регрессионный анализ

В подразд. 10.2 была рассмотрена однофакторная линейная модель. Но чаще всего изучаемые нами природные и общественные явления зависят не от одного, а от целого ряда факторов. Корреляционная зависимость результативного признака от нескольких факторных признаков называется уравнением множественной регрессии. Рассмотрим линейную многофакторную модель, к ней часто можно свести криволинейные модели.

Главные задачи, которые стоят при построении уравнения множественной регрессии таковы:

  • 1) надо отобрать те факторные признаки, которые оказывают наибольшее влияние на признак следствия;
  • 2) правильно выбрать регрессионную модель.

Если данные пункты выполнены правильно, то все остальное дело техники. Мы рассматриваем пока линейную многофакторную регрессию, поэтому задача выбора модели перед нами не стоит, нужно только определиться с количеством факторных признаков, влияющих на признак следствие. Решение первой задачи основано на рассмотрении матрицы парных коэффициентов корреляции (о ней будет сказано ниже). Принимаются во внимание и частные коэффициенты детерминации для каждого факторного признака. Их значения говорят об объясняющей способности каждого из факторных признаков. Заметим, что уравнение многофакторной регрессии должно быть как можно проще. Чем проще тип уравнения, тем очевиднее интерпретация параметров, входящих в него, и лучше его использование с целью анализа и прогноза. Поэтому чаще всего используют линейное уравнение множественной регрессии, которое имеет вид

Параметры а р а 2 , ..., а т, Ъ уравнения множественной регрессии (10.55) можно находить по МНЕ. Затем с помощью корреляционного анализа делают проверку адекватности полученной модели и, если модель адекватна, делают ее интерпретацию. Так поступают в том случае, если заранее известно, например на основании предшествующих исследований, что все основные признаки-факторы, оказывающие влияние на результативный признак, учтены (мы не говорим о выборе типа модели, так как пока рассматриваем только линейную модель).

Если мы не уверены в том, что учтены все факторные признаки, или, наоборот, учтены лишние, сначала проводим корреляционный анализ (находим парные коэффициенты корреляции, частные коэффициенты корреляции, совокупный коэффициент множественной корреляции), а потом, уточнив модель, строим уравнение множественной линейной регрессии по МНК.

Покажем, как находятся параметры a v а 2 , ..., а т, Ъ уравнения регрессии (10.55) по МНК. Условие МНК в этом случае имеет вид

Теперь подставляем (10.55) в (10.56) и получаем

Теперь записываем необходимые условия экстремума функции, содержащей (m + 1) переменных (a v а 2 ,..., а т, Ъ).

Находим частные производные функции F по неизвестным параметрам а 1 ,а 2 ,а т,Ъ и получаем следующее:

После преобразования системы (10.59) получаем так называемую систему нормальных уравнений:

Решая систему нормальных уравнений (10.60) (они линейные), определяем неизвестные параметры множественной линейной регрессионной модели: a v а 2 , ..., а т, Ъ. Разумеется, решение системы проводят на ПЭВМ, например, методом Гаусса или одной из его модификаций (в том случае, если количество неизвестных параметров не превышает нескольких сотен). В том случае, если количество искомых параметров несколько тысяч, можно использовать итерационные методы решения системы нормальных уравнений (10.60), например, методом Якоби или методом Зейделя.

После нахождения неизвестных параметров уравнения множественной линейной регрессии надо провести проверку ее адекватности с помощью корреляционного анализа.

Так как на изучаемый результативный признак влияет не один факторный признак, а несколько факторных признаков), то появляется задача изолированного измерения тесноты связи результативного признака с каждым из признаков- факторов, а также задача определения тесноты связи между результативным признаком и всеми факторными признаками, включенными в модель множественной регрессии.

При рассмотрении линейной однофакторной модели мы находим один парный коэффициент корреляции (вернее его оценку) между признаком-следствием и факторным признаком. В случае множественной линейной модели число парных коэффициентов корреляции будет равно:

где C (2 m+1) - число сочетаний из (m + 1) по два, а (га +1)! - читается (га + 1) факториал и равно: (га + 1)! = 1-2-...-га(га + 1). Заметим, что 0! = 1. Все коэффициенты парной корреляции рассчитываются по формуле (10.15) (их называют еще коэффициентами нулевого порядка).

Найденные коэффициенты парной корреляции удобно записывать в виде матрицы коэффициентов парной корреляции. Напомним, что матрица - это прямоугольная таблица, содержащая некоторые математические объекты, в данном случае коэффициенты парной корреляции. Число строк и столбцов матрицы коэффициентов парной корреляции будет равно, т. е. она будет квадратной. Так как коэффициент парной корреляции - это симметричная мера связи (f i; - = при i*j), то матрица коэффициентов корреляции записывается или как верхняя, или как нижняя треугольная, на главной диагонали которой расположены единицы, так как и т. д. Поэтому матрица коэффициентов парной корреляции (коэффициентов нулевого порядка) имеет вид:


На основе коэффициентов нулевого порядка (см. (10.61)) можно найти коэффициенты частной корреляции первого порядка, если элиминируется (устраняется) корреляция с одной переменной. Например,

В формуле (10.62) исключаем влияние признака х.

На основе коэффициентов частной корреляции первого порядка определяют коэффициенты частной корреляции второго порядка. В этом случае элиминируется корреляция с двумя переменными, например,

В формуле (10.63) исключили влияние факторов х 2 и х 3 . На основе коэффициентов частной корреляции второго порядка находят коэффициенты частной корреляции третьего порядка и т. д. Коэффициенты частной корреляции являются мерами линейной зависимости и принимают значения от -1 до 1. Квадрат коэффициента частной корреляции называется коэффициентом частной детерминации.

Показателем тесноты связи, которая устанавливается между признаком-следствием и факторными признаками факторных признаков) является совокупный коэффициент множественной корреляции К уХ]Х2 ... Хт. Если известны парные коэффициенты корреляции, то его можно найти по формуле:

Квадрат совокупного коэффициента множественной корреляции Ry X X х , который называется совокупным коэффициентом множественной детерминации, показывает, какая доля вариации результативного признака объясняется влиянием факторных признаков, которые включены в уравнение множественной регрессии. Возможные значения -R yX]X2 ... Xm и Щ х х х могут находиться в пределах отрезка . Следовательно, чем ближе Щ Хг х 2 _ х к единице, тем вариация результативного признака в большей мере характеризуется влиянием учтенных факторных признаков.

Подробно рассмотрим частный случай линейной множественной регрессии - двухфакторную линейную регрессию и приведем конкретный числовой пример.

Уравнение двухфакторной линейной регрессии записывается следующим образом:

где - расчетные значения результативного признака;

х и, х 2 . - полученные в результате проведения статистического наблюдения значения факторных признаков;

a v а 2 , Ъ - параметры уравнения регрессии, подлежащие определению.

Для нахождения параметров уравнения регрессии вида (10.65) используем МНК. Условие МНК в данном случае имеет вид:

Функция (10.66) - функция трех независимых аргументов: a v а 2 , Ъ. Запишем необходимое условие экстремума этой функции:

После нахождения частных производных имеем:

После преобразования системы (10.68) получаем систему нормальных уравнений:

Для решения системы (10.69) используем метод Крамера (о методе Крамера можно причитать, например, в ). Для нахождения решения системы (10.69) можно применить и метод Гаусса.

Сначала находим определитель системы, который не должен равняться нулю:

Определители A v A , А 3 расписываются так же, как определитель А (эти разложения не приведены, чтобы не загромождать вывод).

Зная значение определителей А, А х, Д 2 , А, находим искомые параметры уравнения регрессии по следующим формулам:

Теперь найдем коэффициенты парной корреляции (коэффициенты нулевого порядка), их количество будет равно

Поэтому матрица коэффициентов парной корреляции (10.61) в данном случае будет иметь вид:

В нашем случае парные коэффициенты корреляции находятся по формулам:

А ковариации (корреляционные моменты) находятся из выражений:


Коэффициенты частной корреляции первого порядка в данном случае находятся по следующим формулам:

г определяется по уже приведенной формуле (10.62)


(в этой формуле исключено влияние факторного признака а^).


(в этой формуле исключено влияние результативного признака у).

Теперь по формуле (10.64) определяем совокупный коэффициент множественной корреляции. Для случая двухфакторной линейной модели формула (10.64) примет вид:

Как уже говорилось, величина Щ Х]Х. 2 называется совокупным коэффициентом множественной детерминации. Он показывает, какая часть дисперсии результативного признака у объясняется за счет двух учтенных факторных признаков и х 2 . Заметим, что на основе парных коэффициентов корреляции и средних квадратических отклонений можно определить параметры линейной двухфакторной регрессионной модели вида (10.65) (см. например ).

Теперь приведем конкретный числовой пример. Для этого используем исходные данные примера 10.2. Поместим эти данные в табл. 10.12.

По данным табл. 10.12 вычисляем коэффициенты системы нормальных уравнений (10.69):


Таблица 10.12

Преступления (у {)

Хищения оружия

Административные правонарушения (х,.)

Следовательно, система нормальных уравнений (10.69) имеет вид:

Решаем полученную систему (10.76) методом Крамера:

Теперь по формулам (10.70) находим искомые параметры уравнения регрессии:

Поэтому получаем следующее уравнение двухфакторной линейной регрессии.

Многофакторный корреляционно - регрессионный анализ

Таблица 4. Исходные данные.

уровеньбезраб-цы

доходнасел-я

индексцен

индексВРП

Для анализа необходимо из нескольких факторов произвести предварительный отбор факторов для регрессионной модели. Сделаем это по итогам расчета коэффициента корреляции, т.е. возьмем те факторы, связь которых с результативным признаком будет выражена в большей степени. Рассмотрим следующие факторы:

Доход на душу населения - x 1 (%)

Индекс потребительских цен - x 2 (%)

Индекс ВРП - x 3 (%)

Рассчитаем коэффициент корреляции для линейной связи и для имеющихся факторов - x 1 , x 2 и x 3:

Для фактора x 1 получаем коэффициент корреляции: r 1 = 0,042

Для фактора x 2 получаем коэффициент корреляции: r 2 =0,437

Для фактора x 3 получаем коэффициент корреляции: r 3 =0,151

По полученным данным можно сделать вывод о том, что:

1)Связь между x 1 и y отсутствует, так как коэффициент корреляции меньше 0,15. Таким образом, возникает необходимость исключить данный фактор из дальнейших исследований.

2)Связь между x 2 и y прямая (так как коэффициент корреляции положительный) и умеренная, так как она находится между 0,41 и 0,50. Поэтому, будем использовать фактор в дальнейших расчётах.

3)Связь между x 3 и y прямая (так как коэффициент корреляции положительный) и слабая. Тем не менее, будем использовать фактор в дальнейших расчетах.

Таким образом, два наиболее влиятельных фактора - Индекс потребительских цен - x 2 и индекс ВРП - x 3 . Для имеющихся факторов x 2 и x 3 составим уравнение множественной регрессии.

Проверим факторы на мультиколлинеарность, для чего рассчитаем коэффициент корреляции r x2x3 . Подставив имеющиеся данные (из таблицы 10) в формулу, имеем следующее значение: r x2x3 =0,747. Полученный коэффициент говорит об очень высокой связи, поэтому дальнейший анализ по обоим факторам вестись не может. Однако в учебных целях продолжим анализ.

Проводим оценку существенности связи с помощью коэффициента множественной корреляции: R=0,512

Так как R < 0,8, то связь признаем не существенной, но, тем не менее, в учебных целях, проводим дальнейшее исследование.

Уравнение прямой имеет следующий вид: y = a + bx 1 + cx 3

Для определения параметров уравнения необходимо решить систему:

Решив систему, получим уравнение: Y=41,57-0,042 x 1 -0,183x 3

Для данного уравнения найдем ошибку аппроксимации:

А> 5%, то данную модель нельзя использовать на практике.

Проведем оценку параметров на типичность. Рассчитаем значения величин:

m a =0,886; m b =0,0003; m с =0,017;

t a =41,57/0,886=46,919; t b =-0,042/0,0003=-140; t c =-0,183/0,017=-10,77.

Сравним полученные выше значения t для б = 0,05 и числа степеней свободы (n-2) с теоретическим значением t-критерия Стьюдента, который t теор = 2,1788. Расчетные значения t b и t с < t теор, значит данные параметры не значимы и данное уравнение не используется для прогнозирования.

где: n - число уровней ряда; к - число параметров; R - коэффициент множественной корреляции.

После расчета получаем: F=1,41

Сравним F расч с F теор для числа степеней свободы U 1 = 9 и U 2 = 2, видим, что 1,41 < 19,40, то есть F расч < F теор - связь признаётся не существенной, то есть корреляция между факторами x 2 , x 3 и у не существенна.

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей. Исследование взаимосвязи случайных величин биржевых ставок приводит к теории корреляции, как разделу теории вероятностей и корреляционному анализу, как разделу математической статистики. Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

Формально корреляционная модель взаимосвязи системы случайных величин может быть представлена в следующем виде: , где Z - набор случайных величин, оказывающих влияние на

Экономические данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Математические модели строятся и используются для трех обобщенных целей:

  • - для объяснения;
  • - для предсказания;
  • - для управления.

Представление экономических и других данных в электронных таблицах в наши дни стало простым и естественным. Оснащение же электронных таблиц средствами корреляционно-регрессионного анализа способствует тому, что из группы сложных, глубоко научных и потому редко используемых, почти экзотических методов, корреляционно-регрессионный анализ превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент. Однако, в силу его сложности, освоение его требует значительно больших знаний и усилий, чем освоение простых электронных таблиц.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели. В экономике значимое уравнение используется, как правило, для прогнозирования изучаемого явления или показателя.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные таблицы делают такой анализ легко доступным. Таким образом, регрессионные вычисления и подбор хороших уравнений - это ценный, универсальный исследовательский инструмент в самых разнообразных отраслях деловой и научной деятельности (маркетинг, торговля, медицина и т. д.). Усвоив технологию использования этого инструмента, можно применять его по мере необходимости, получая знание о скрытых связях, улучшая аналитическую поддержку принятия решений и повышая их обоснованность.

Корреляционно-регрессионный анализ считается одним из главных методов в маркетинге, наряду с оптимизационными расчетами, а также математическим и графическим моделированием трендов (тенденций). Широко применяются как однофакторные, так и множественные регрессионные модели.

Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков.

Он определяется как метод, применяемый тогда, когда данные наблюдения можно считать случайными и выбранными из генеральной совокупности, распределенной по многомерному нормальному закону. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.

Корреляция - это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

  • 1. Парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными).
  • 2. Частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
  • 3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным признаком и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить “полезность” факторных признаков при построении уравнений множественной регрессии. Величина коэффициентов корреляции служит также оценкой соответствия уравнению регрессии выявленным причинно-следственным связям.

Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.

В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.

Пример 1.Даны следующие данные:

№ предприя-тия

Уров.издержек обращ.(y)

Грузооборот, тыс.руб(x1)

Фондоемкость руб/тыс.т(x2)

Необходимо провести многофакторный корреляционно-регрессионный анализ.

Чтобы провести многофакторный корреляционно-регрессионный анализ нужно составить следующую таблицу:

Таблица 1

№ предприятия

Уров.издержек обращ.(y)

Грузооборот, тыс.руб(x1)

Фондоемкость руб/тыс.т(x2)

ср. знач-е:

(x1-x1среднее)^2

(x2-x2среднее)^2

(y-y среднее)^2

Исходя из таблицы 1 получаем таблицу 2:

Таблица 2

0,03169Z2-0,6046Z1

Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.

Впервые это понятие было введено Пирсоном в 1908 году.

Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:

  • - теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи;
  • - выбор формы связи (уравнения регрессии);
  • - отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию);
  • - вычисление параметров уравнения регрессии и коэффициентов корреляции;
  • - проверка адекватности полученной модели;
  • - интерпретация полученных результатов.

На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос - рост - пол; синдром пингвина).

Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.

Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.

Отбор факторов может быть проведен на основании:

метода пошагового исключения;

метода пошаговой регрессии.

Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.

Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков, даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.

При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции () характеризующие тесноту связи между факторами и:

Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.

Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным - коэффициентам регрессии.

Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков. Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%):

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:

где - коэффициент регрессии при - том факторе, - среднее значение -того фактора, - среднее значение результативного признака.

· коэффициенты показывают, на какую часть среднего квадратического отклонения изменяется результативный признак с изменением - того факторного признака на величину его среднего квадратического отклонения.

где - среднее квадратическое отклонение -того фактора, - среднее квадратическое отклонение результативного признака.

Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака.

Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.

В рамках многомерного корреляционного анализа рассматривают две типовые задачи:

  • - оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных;
  • - оценка тесноты связи одной переменной со всеми остальными.

В рамках решения первой задачи определяются частные коэффициенты корреляции - показатели, характеризующие тесноту связи между тым и тым признаками при элиминации всех остальных признаков.

В многомерном корреляционном анализе рассматриваются две типовые задачи:

Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.

Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.

Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.

Для их определения может быть использована матрица выборочных коэффициентов корреляции:

где - количество признаков, - выборочный парный коэффициент корреляции.

Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:

где - определитель матрицы

С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.

Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле:

где - алгебраическое дополнение соответствующего элемента корреляционной матрицы

Частный коэффициент корреляции может принимать значения от -1 до 1.

Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.

Впервые это понятие было введено Пирсоном в 1908 году.

Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:

Теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи;

    выбор формы связи (уравнения регрессии);

    отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию);

    вычисление параметров уравнения регрессии и коэффициентов корреляции;

    проверка адекватности полученной модели;

    интерпретация полученных результатов.

На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос – рост – пол; синдром пингвина).

Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.

Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.

Отбор факторов может быть проведен на основании:

    метода пошагового исключения;

    метода пошаговой регрессии.

Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.

Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков , даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.

При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции () характеризующие тесноту связи между факторамии:

.

Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.

Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным- коэффициентам регрессии.

Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков.

Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%):.

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:

где - коэффициент регрессии при- том факторе,- среднее значение-того фактора,- среднее значение результативного признака.

Коэффициенты показывают, на какую часть среднего квадратического отклоненияизменяется результативный признакс изменением- того факторного признакана величину его среднего квадратического отклонения.

где - среднее квадратическое отклонение-того фактора,- среднее квадратическое отклонение результативного признака.

Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака .

Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.

В рамках многомерного корреляционного анализа рассматривают две типовые задачи:

    оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных;

    оценка тесноты связи одной переменной со всеми остальными.

В рамках решения первой задачи определяются частные коэффициенты корреляции – показатели, характеризующие тесноту связи междутым итым признаками при элиминации всех остальных признаков.

В многомерном корреляционном анализе рассматриваются две типовые задачи:

    Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.

    Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.

Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.

Для их определения может быть использована матрица выборочных коэффициентов корреляции.:

,

где - количество признаков,- выборочный парный коэффициент корреляции.

Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:

Где- определитель матрицы

С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.

Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле

Где- алгебраическое дополнение соответствующего элемента корреляционной матрицы

Частный коэффициент корреляции может принимать значения от -1 до 1.