Статистическое изучение взаимосвязи показателей. Статистическое изучение взаимосвязи социально-экономических явлений Непараметрические методы оценки связи

9.1. Причинность, регрессия, корреляция

В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины, ведет к изменению другого – следствия.

Признаки по их значению для изучения взаимосвязи делятся на два вида: факторные и результативные.

Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ изучаемого явления, т.е. исследование его природы методами экономической теории, социологии, конкретной экономики. Второй этап – построение модели связи. Третий, последний этап – интерпретация результатов, вновь связан с качественными особенностями изучаемого явления.

В статистике различают функциональную связь и стохастическую. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Такая связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между признаками и явлениями ввиду их большого разнообразия классифицируются по ряду оснований: по степени тесноты связи, направлению и аналитическому выражению.

Степень тесноты корреляционной связи количественно может быть оценена с помощью коэффициента корреляции, величина которого определяет характер связи (табл. 1).

Таблица 1 - Количественные критерии тесноты связи

По направлению выделяют связь прямую и обратную .

При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи с увеличением значений факторного признака значения результативного убывают, и наоборот.

По аналитическому выражению выделяют связи: прямолинейные (или просто линейные) и нелинейные . Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, показательной, экспоненциальной и т.п.), то такую связь называют нелинейной или криволинейной.

Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; аналитических группировок; статистических графиков; корреляции.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Например, изменение двух величин представлено следующими данными.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции . В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис.).

При отсутствии тесных связей имеет место беспорядочное расположение точек на графике.

Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака на него оказывают влияние многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер.

Корреляция – это статистическая взаимосвязь между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания (средней величины) другой.

В статистике принято различать следующие виды зависимостей .

1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаком (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Кроме того, величина коэффициента корреляции служит оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

9.2. Оценка тесноты связи

Теснота корреляционной связи между факторным и результативным признаками может исчисляться с помощью таких коэффициентов : эмпирический коэффициент корреляционной связи (коэффициент Фехнера); коэффициент ассоциации; коэффициент взаимной сопряженности Пирсона и Чупрова; коэффициент контингенции; ранговые коэффициенты корреляции Спирмэна и Кендэла; линейный коэффициент корреляции; корреляционное отношение и др.

Наиболее совершенно тесноту связи характеризует линейный коэффициент корреляции: , где – средняя из произведений значений признаков ху ; – средние значения признаков х и у ; - средние квадратические отклонения признаков х и у. Он используется в том случае, если связь между признаками линейная

Линейный коэффициент корреляции может быть положительным или отрицательным.

Положительная его величина свидетельствует о прямой связи, отрицательная – об обратной. Чем ближе к ±1, тем связь теснее. При функциональной связи между признаками = ±1. Близость к 0 означает, что связь между признаками слабая.

9.3. Методы регрессионного анализа

С понятием корреляции тесно связано понятие регрессии . Первая служит для оценки тесноты связи, вторая - исследует ее форму. Корреляционно-регрессионный анализ , как общее понятие, включает в себя измерение тесноты и направления связи (корреляционный анализ) и установление аналитического выражения (формы) связи (регрессионный анализ).

После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. Для этого подбирают класс функций, связывающий результативный показатель у и аргументы х 1 , х 2 ,… х k , отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров связи и анализируют свойства полученного уравнения.

Функция, описывающая зависимость среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии . Регрессия – линия, вид зависимости средней результативного признака от факторного.

Наиболее разработанной в теории статистики является методология парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у

Уравнение прямолинейной корреляционной связи имеет вид: .

Параметры а 0 и а 1 называют параметрами уравнения регрессии.

Для определения параметров уравнения регрессии используется способ наименьших квадратов, который даёт систему двух нормальных уравнений:

.

Решая эту систему в общем виде, можно получить формулы для определения параметров уравнения регрессии: ,

УПРАЖНЕНИЯ

Задача 9.1. 15 заводов проранжированы в порядке возрастания рентабельности производства.

№ предприятия

Рентабельность производства, %

Выработка одного работающего, т / чел

Себестоимость единицы продукции, руб.

Установите наличие и форму корреляционной связи между рентабельностью производства и выработкой, рентабельностью производства и себестоимостью единицы продукции с помощью методов статистических графиков и регрессионного анализа.

1. Курс теории статистики для подготовки специалистов финансово-экономического профиля: учебник/ Салин В. Н. - М. : Финансы и статистика, 2006. - 480 с.

2. Общая теория статистики: учебник для студентов вузов / М. Р. Ефимова, Е. В. Петрова, В. Н. Румянцев. - 2-е изд., испр. и доп. - М. : ИНФРА-М, 2006. - 414 с.

3. Практикум по общей теории статистики: учебное пособие / М.Р. Ефимова, О.И. Ганченко, Е.В. Петрова. - Изд. 3-е, перераб. и доп. - М. Финансы и статистика, 2007. - 368 с.

4. Практикум по статистике / А.П. Зинченко, А.Е, Шибалкин, О.Б. Тарасова, Е.В. Шайкина; Под ред. А.П. Зинченк. – М.: КолосС, 2003. – 392 с.

5. Статистика: Учебник для студ. учреждений сред. проф. образования / В.С. Мхитарян, Т.А. Дуброва, В.Г. Минашкин и др.; Под ред. В.С. Мхитаряна. – 3-е изд., стер. – М.: Издательский центр «Академия», 2004. -272 с.

6. Статистика: учебник для студентов вузов / Санкт-Петербург. гос. ун-т экономики и финансов; под ред. И. И. Елисеевой. - М. : Высшее образование, 2008. - 566 с.

7. Теория статистики: учебник для студентов экономических специальностей вузов / Р. А. Шмойлова [и др.] ; ред. Р. А. Шмойлова. - 5-е изд. - М. : Финансы и статистика, 2008. - 656 с.

Изучение современного производства показывает, что каждое явление находится в тесной взаимосвязи и взаимодействии.

При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой группы называются признаками-факторами (факторными признаками), а признаки, которые являются результатом влияния этих факторов, называются результативными (как на объем выпуска влияет техническая оснащенность производства, тогда объем производства – результативный, а техническая оснащенность – факторный признак). Различают два вида зависимостей между экономическими явлениями – функциональную и стохастическую. При функциональной связи каждой определенной системе значений факторных признаков соответствуют одно или несколько строго определенных значений результативного признака. Примеры функциональной зависимости можно привести из области физических явлений (S = v·t).

Стохастическая (вероятностная) связь проявляется только в массовых явлениях. В данной связи каждой определенной системе значений факторных признаков соответствует некоторое множество значений результативного признака. Изменение факторных признаков приводит не к строго определенному изменению результативного признака, а к изменению только распределения его значений. Это обусловлено тем, что зависимая переменная, кроме выделенной переменной, подвержена влиянию ряда неконтролируемых или неучтенных факторов, а также тем, что измерение переменных неизбежно сопровождается некоторыми случайными ошибками. Поскольку значения зависимой переменной подвержены случайному разбросу, они не могут быть предсказаны с достаточной точностью, а только указаны с определенной вероятностью (число бракованных деталей за смену, количество простоев за смену и т.д.).

Стохастическую связь называют корреляционной. Корреляция в широком смысле слова означает связь, соотношение между объективно существующими явлениями и процессами. Регрессия – это частный случай корреляции. В то время, как в корреляционном анализе оценивается сила стохастической связи, в регрессионном анализе исследуется ее форма, т.е. находится уравнение корреляционной связи (уравнение регрессии).

Рассмотрим различные виды корреляции и регрессии.

По числу переменных различают регрессию:

1) парную – регрессия между двумя переменными (прибыль производительность труда);

2) множественную – регрессия между зависимой переменной y и несколькими переменными (производительность труда уровень механизации производства, квалификации рабочих).

Относительно формы зависимости различают:

линейную регрессию; нелинейную регрессию.

В зависимости от характера регрессии различают:

1) прямую регрессию. Она имеет место, если с увеличением или уменьшением значений факторных переменных значения результативной переменной также увеличиваются или уменьшаются;

2) обратную регрессию. В этом случае с увеличением или уменьшением значений факторного признака результативный признак уменьшается или увеличивается.

Относительно типа соединений явлений различают:

1) непосредственную регрессию. В этом случае явления соединены непосредственно между собой (прибыль затраты);

2) косвенную регрессию. Она имеет место тогда, если факторная и результативная переменная не состоят непосредственно в причинно-следственных отношениях и факторная переменная через какую-то другую переменную действует на результативную переменную (число пожаров и урожайность зерновых (метеорологические условия));

3) ложная или абсурдная регрессия. Она возникает при формальном подходе к исследуемым явлениям. В результате можно придти к ложным и даже бессмысленным зависимостям (число импортируемых фруктов и рост дорожно-транспортных происшествий со смертельным исходом).

Аналогична классификация и корреляции.

Изучение взаимозависимостей в экономике имеет большое значение. Статистика не только отвечает на вопрос о реальном существовании связи между явлениями, но и дает количественную характеристику этой зависимости. Зная характер зависимости одного явления от другого, можно объяснить причины и размеры изменений в явлении, а также планировать необходимые мероприятия для дальнейшего его изменения. Чтобы результаты корреляционного анализа нашли практическое применение и дали желаемый результат, должны выполняться определенные требования:

1) однородность единиц, подвергающихся корреляционному анализу (предприятия выпускают однотипную продукцию, одинаковый характер технологического процесса и тип оборудования);

2) достаточное число наблюдений;

3) включаемые в исследование факторы должны быть независимы друг от друга.

Для исследования функциональных связей применяются балансовый и индексный методы. Для изучения стохастических связей используют метод параллельных рядов, метод аналитических группировок, дисперсионный анализ и анализ регрессий и корреляций.

Простейшим приемом обнаружения связей является сопоставление двух параллельных рядов. Сущность метода состоит в том, что сначала показатели, характеризующие факторный признак, ранжируются, а затем параллельно им располагаются соответствующие показатели результативного признака. Сравнение построенных таким образом рядов дает возможность не только подтвердить само наличие связи, но и выявить ее направление.

В случае, когда сравниваемые ряды состоят из большого числа единиц, направления связи для разных единиц может оказаться различным. В этом случае целесообразнее воспользоваться корреляционными таблицами. В корреляционной таблице факторный признак (х) располагают в строках, а результативный (у) – в столбцах. Числа, расположенные на пересечении строк и столбцов таблицы, показывают частоту повторения данного сочетания х и у. Построение корреляционной таблицы начинают с группировки единиц наблюдения по значениям факторного и результативного признаков. Если частоты в корреляционной таблице расположены по диагонали из левого верхнего угля в правый нижний угол, то можно предположить наличие прямой корреляционной зависимости. Если же частоты расположены по диагонали справа налево, то предполагают наличие обратной связи между признаками.

Другим методом обнаружения связи является построение групповой таблицы (метод аналитических группировок). Совокупность значений фактора х разбивают на группы и по каждой группе вычисляют среднее значение результативного признака. Предполагается, что при достаточно большом числе наблюдений в каждой группе влияние прочих случайных факторов при расчете групповой средней будет взаимопогашаться и яснее выявится зависимость результативного признака от факторного и, следовательно, различия в величине средних будут связаны только с различиями в величине данного факторного признака. Если бы связи между факторным и результативным признаком не было, то все групповые средние были бы приблизительно одинаковы по величине.

Простейшим показателем тесноты связи является коэффициент корреляции знаков (коэффициент Г.Фехнера):

,

где – число совпадений знаков отклонений индивидуальной величины от средней;

– число несовпадений знаков отклонений индивидуальной величины от средней.

Этот коэффициент позволяет получить представление о направлении связи и приблизительную характеристику ее тесноты. Для его расчета вычисляют средние значения результативного и факторного признаков, а затем проставляют знаки отклонений для всех значений взаимосвязанных признаков Кф = [-1;+1]. Если знаки всех отклонений совпадут, то и Кф = 1 – прямая связь, если знаки всех отклонений будут разными, то Кф = - 1, что свидетельствует о наличии обратной связи.

Таблица 28

Численность рабочих и балансовая прибыль

Численность рабочих, чел.

Балансовая прибыль, тыс.руб.

Знак отклонений индивидуальной величины признака от средней

Совпадение (a), несовпадение (b)

Тыс. руб.

, таким образом, между признаками существует слабая обратная связь.

Для приблизительной оценки направления и тесноты связи между признаками, представленными двумя рядами, можно также использовать коэффициент корреляции рангов. При определении коэффициента корреляции рангов значения х ранжируются, а затем ранжируются и соответствующие им значения у. В результате получаем ранги, т.е. места, номера единиц совокупности в упорядоченном ряду. При этом в случае наличия одинаковых вариантов каждому из них присваивается среднее арифметическое значение их рангов.

Коэффициент ранговой корреляции Спирмена:

,

где d – разность между рангами соответствующих величин двух признаков;

n – число единиц в ряду.

Коэффициент корреляции рангов принимает значения [-1; 1]. Если – тесная прямая связь, – тесная обратная связь, – связь отсутствует. Коэффициент корреляции рангов имеет определенные преимущества перед другими характеристиками направления и тесноты связи: его можно определять при исследовании данных, которые не поддаются нумерации, но ранжируются (оттенки, качество).

Для числовой характеристики тесноты связи могут быть использованы показатели вариации результативного признака: общая его дисперсия и межгрупповая дисперсия ().

Коэффициент ранговой корреляции Кендэла:

,

где q – число рангов, расположенных в обратном порядке.

В практике статистических исследований часто приходится анализировать альтернативные распределения, когда совокупность распределяется по каждому признаку на две группы с противоположными характеристиками. Тесноту связи в этом случае можно оценить с помощью коэффициента контингенции:

.

Таблица 29

Зависимость успеваемости студентов от пола

Контингент студентов

сдавших экзамены

не сдавших экзамены

.

Следовательно, между полом студента и его успеваемостью связь практически отсутствует.

Коэффициент ассоциации рассчитывается следующим образом:

Рассмотренные ранее статистические методы исследования взаимосвязей часто оказываются недостаточными, ибо они не позволяют выразить имеющуюся связь в виде определенного математического уравнения. Методы параллельных рядов и аналитических группировок эффективны лишь при малом числе факторных признаков, в то время, как социально-экономические явления складываются обычно под воздействием множества причин. Эти ограничения устраняет метод анализа корреляций и регрессий.

Метод анализа корреляций и регрессий заключается в построении и анализе экономико-математической модели в виде уравнения регрессии, выражающего зависимость явления от определяющих его факторов. Например, зависимость объема производства (у) (млн. руб.) от его технической оснащенности (х) (%) выражается следующей зависимостью:

.

Можно предполагать, что с увеличением технической оснащенности на 1%, объем производства увеличится в среднем на 21,4 млн. руб.

Метод анализа корреляций и регрессий состоит из следующих этапов:

предварительный анализ; сбор информации и ее первичная обработка; построение модели (уравнения регрессии); оценка и анализ модели.

На первом этапе необходимо в общем виде сформулировать задачу исследования (изучение влияния различных факторов на уровень производительности труда). Далее следует определить методику измерения результативного показателя (производительность труда может быть определена натуральным, трудовым или стоимостным методами). Необходимо также определить число факторов, оказывающих наиболее существенное влияние на формирование результативного признака.

На этапе сбора и обработки информации исследователю необходимо помнить, что изучаемая совокупность должна быть достаточно большой по объему. Исходные данные должны быть качественно и количественно однородны.

При построении корреляционной модели (уравнения регрессии) возникает вопрос о типе аналитической функции, характеризующей механизм взаимосвязи между признаками. Эта связь может быть выражена:

прямой линией ; параболой второго порядка ; гиперболой ; показательной функцией и др.

То есть, возникает вопрос о выборе формы связи. По виду эмпирической регрессии предполагают, какой тип кривой может быть описан. Далее решается уравнение регрессии. Затем с помощью специальных критериев оценивается их адекватность и выбирается та форма связи, которая обеспечивает наилучшее приближение и достаточную статистическую достоверность. Выбрав форму связи и построив уравнение регрессии в общем виде, необходимо найти численное значение его параметров. Для нахождения параметров используют способ наименьших квадратов. Суть его состоит в следующем.

8.1. Основные понятия корреляционного и регрессионного анализа

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной . Если изучаются более чем две переменные – множественной .

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи – и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

8.2. Парная корреляция и парная линейная регрессия

Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы:

\ Y
\
X \
Y 1 Y 2 ... Y z Итого Y i
X 1 f 11 12 ... f 1z
X 1 f 21 22 ... f 2z
... ... ... ... ... ... ...
X r f k1 k2 ... f kz
Итого ... n
... -

В основу группировки положены два изучаемых во взаимосвязи признака – Х и У. Частоты f ij показывают количество соответствующих сочетаний Х и У. Если f ij расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания f ij допустимо утверждать о связи между Х и У. При этом, если f ij концентрируется около одной из двух диагоналей, имеет место прямая или обратная линейная связь.

Наглядным изображением корреляционной таблице служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладывают значения Х, по оси ординат – У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.

В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения – одно по X, другое по У. Рассчитаем для каждого Х i среднее значение У, т.е. , как

Последовательность точек (X i , ) дает график, который иллюстрирует зависимость среднего значения результативного признака У от факторного X, – эмпирическую линию регрессии, наглядно показывающую, как изменяется У по мере изменения X.

По существу, и корреляционная таблица, и корреляционное поле, и эмпирическая линия регрессии предварительно уже характеризуют взаимосвязь, когда выбраны факторный и результативный признаки и требуется сформулировать предположения о форме и направленности связи. В то же время количественная оценка тесноты связи требует дополнительных расчетов.

Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле

Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.

Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r| < 0,30, то связь слабая; при |r| = (0,3÷0,7) – средняя; при |r| > 0,70 – сильная, или тесная. Когда |r| = 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие. что требует дополнительной проверки и других измерителей, рассматриваемых ниже.

Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель

где n число наблюдений;
а 0 , а 1 – неизвестные параметры уравнения;
e i – ошибка случайной переменной У.

Уравнение регрессии записывается как

где У iтеор – рассчитанное выравненное значение результативного признака после подстановки в уравнение X.

Параметры а 0 и а 1 оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки ag и а, получают, когда

т.е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а 0 и а 1 . Ее минимизация осуществляется решением системы уравнений

Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:

Аппарат линейной регрессии достаточно хорошо разработан и, как правило, имеется в наборе стандартных программ оценки взаимосвязи для ЭВМ. Важен смысл параметров: а 1 – это коэффициент регрессии, характеризующий влияние, которое оказывает изменение Х на У. Он показывает, на сколько единиц в среднем изменится У при изменении Х на одну единицу. Если а, больше 0. то наблюдается положительная связь. Если а имеет отрицательное значение, то увеличение Х на единицу влечет за собой уменьшение У в среднем на а 1 . Параметр а 1 обладает размерностью отношения У к X.

Параметр a 0 – это постоянная величина в уравнении регрессии. На наш взгляд, экономического смысла он не имеет, но в ряде случаев его интерпретируют как начальное значение У.

Например, по данным о стоимости оборудования Х и производительности труда У методом наименьших квадратов получено уравнение

У = -12,14 + 2,08Х.

Коэффициент а, означает, что увеличение стоимости оборудования на 1 млн руб. ведет в среднем к росту производительности труда на 2.08 тыс. руб.

Значение функции У = a 0 + а 1 Х называется расчетным значением и на графике образует теоретическую линию регрессии.

Смысл теоретической регрессии в том, что это оценка среднего значения переменной У для заданного значения X.

Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных – с другой. Когда же требуется охарактеризовать связь всего указанного множества независимых переменных с результативным признаком, говорят о множественной корреляции или множественной регрессии.

8.3. Оценка значимости параметров взаимосвязи

Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции:

В первом приближении нужно, чтобы . Значимость r xy проверяется его сопоставлением с , при этом получают

где t расч – так называемое расчетное значение t-критерия.

Если t расч больше теоретического (табличного) значения критерия Стьюдента (t табл) для заданного уровня вероятности и (n-2) степеней свободы, то можно утверждать, что r xy значимо.

Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие t расч > t табл. В противном случае доверять полученной оценке параметра нет оснований.

Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:

где n – число наблюдений;
m – число параметров уравнения регрессии.

F расч также должно быть больше F теор при v 1 = (m-1) и v 2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д.

8.4. Непараметрические методы оценки связи

Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.

Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.

Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.

Рассмотрим методику анализа таблиц взаимной сопряженности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей.

Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9 % детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9 % детей. родители которых трудятся в сельском хозяйстве, работают в промышленности (34 из 88) и т.д.

Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4 %, являются детьми работников сельского хозяйства; более чем у 50 % в сфере интеллектуального труда родители относятся к той же социальной группе и т.д.

Однако важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):

где f 2 – показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:

К 1 и К 2 – число групп по каждому из признаков. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1.

В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д.

При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.

Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (r) и Кендэлла (t). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.

Предыдущая

2. Методы выявления корреляционной связи

3. Однофакторный корреляционно-регрессионный анализ

4. Многофакторный корреляционно-регрессионный анализ

5. Непараметрические показатели связи

1. Виды взаимосвязей и понятие корреляционной зависимости

Все статистические показатели находятся между собой в определённых связях и соотношениях.

Задача статистического исследования состоит в том, чтобы определить характер данной взаимосвязи.

Существуют следующие виды взаимосвязей:

1. Факторные. В этом случае связи проявляются в согласованной вариации различных признаков у одной и той же совокупности. При этом один из признаков выступает как фактор, а другой - как следствие. Изучение этих связей производится методом группировок, а также теорией корреляции.

2. Компонентные. К данному виду относятся такие взаимосвязи, при которых изменение какого-то сложного явления целиком определяется изменением компонентов, входящих в это сложное явление как множители (X=x·f). Для этого применяется индексный метод.

Например, с помощью системы взаимосвязанных индексов узнают, как изменился товарооборот за счёт изменения количества проданных товаров и цен.

3. Балансовые. Применяются при анализе связей и пропорций в образовании ресурсов и их распределении. Баланс представляет систему показателей, которая состоит их двух сумм абсолютных величин, связанных между собой знаком равенства,

а + б = в + г .

Например, баланс материальных ресурсов:

остаток + поступление = расход + остаток

начальный конечный

Признаки (показатели) при изучении взаимосвязей делятся на 2 вида:

Признаки , обуславливающие изменение других, называютфакторными , или простофакторами .

Признаки , изменяющиеся под действием факторных признаков, являютсярезультативными .

Различают 2 вида взаимосвязей: функциональные истохастические .

Функциональной называют такую связь, при которой определенному значению факторного признака соответствует только одно значение результативного признака.

Если причинная зависимость проявляется не в каждом случае, а в общем, среднем при большом числе наблюдений, то такая связь называется стохастической .

Частным случаем стохастической связи является корреляционная связь , при которой изменение среднего значения результативного признака обусловлено изменением факторного.

Особенности стохастических (корреляционных) связей:

Обнаруживаются не в единичных случаях, а в общем и среднем при большом числе наблюдений;

- неполные, они учитывают не все действующие факторы, а только существенные;

Необратимы. Например, функциональную связь можно превратить в

другую функциональную связь. Если мы говорим, что урожайность

сельхозпродукции зависит от количества внесенных удобрений, то обратное утверждение лишено смысла.

По направлению выделяют связьпрямую иобратную . Припрямой связи с увеличением факторного признака происходит увеличение результативного. В случаеобратной связи с увеличением факторного признака происходит уменьшение результативного.

По аналитическому выражению выделяют связилинейные (прямолинейные) инелинейные (криволинейные) . Если связь между явлениями выражена уравнением прямой линии, то оналинейная . Если связь выражена уравнением кривой линии (параболы, гиперболы, степенной, показательной и т.п.), то онанелинейная .

По количеству факторов , действующих на результативный признак, различают связиоднофакторные имногофакторные . Если один признак-фактор и результативный признак, то связь – однофакторная (парная регрессия). Если признаков-факторов 2 и более, то связь многофакторная (множественная регрессия).

Связи различают еще по степени тесноты связи (см. таблицу Чэддока).

Исследование объективно существующих связей между социально-экономическими явлениями и процессами является важнейшей задачей теории статистики. В процессе

статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственныеотношения – это такая связь явлений и процессов, когда изменение одного из них – причины ведет к изменению другого – следствия.

Финансово-экономические процессы представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих процессов необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики. Второй этап – построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее. Третий, последний этап – интерпретация результатов, вновь связан с качественными особенностями изучаемого явления. Статистика разработала множество методов изучения связей. Выбор метода изучения связи зависит от познавательной цели и задач исследования.

Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными , или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называются результативными .

В статистике различают функциональную и стохастическую зависимости. Функциональной называют такую связь, при которой определенному значению факторногопризнака соответствует одно и только одно значение результативного признака.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты,

направлению и аналитическому выражению.

По степени тесноты связи различают:

С увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака. Так, рост объемов производства способствует увеличению прибыли предприятия. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака, то есть обратная – это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака. Так, снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности.

По аналитическому выражению выделяют связи прямолинейные (или просто ли-

нейные ) и нелинейные . Если статистическая связь между явлениями может быть при-

близительно выражена уравнением прямой линии, то ее называют линейной связью вида.


Top