Главная › Дружба › Теория статистики. Статистическое изучение взаимосвязей Методы выявления корреляционной связи

Теория статистики. Статистическое изучение взаимосвязей Методы выявления корреляционной связи

Исследование объективно существующих связей между социально-экономическими явлениями и процессами является важнейшей задачей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов.

Причинно-следственные отношения - это связь явлений и процессов, при которой изменение одного из них - причины - ведет к изменению другого - следствия.

Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

ГС основе первого этапа статистического изучения взаимосвязей лежит качественный анализ, основанный на исследовании природы социального или экономического явления методами экономической теории, социологии, конкретной экономики.

Второй этап - построение модели связи, базируется на методах статистики: группировках, средних величинах, корреляционном и регрессионном методах анализа и т.д.

Третий этап - интерпретация результатов, связан с качественными особенностями изучаемого явления.

Статистика разработала множество методов изучения связей между признаками. Выбор конкретного метода зависит от познавательной цели и задач исследования.

Признаки по их сущности и значению для изучения взаимосвязи делятся на результативные и факторные.

Результативными называются признаки, изменяющиеся под действием факторных признаков, а факторными - признаки, обусловливающие изменения других, связанных с ними признаков.

В статистике различают функциональную и стохастическую зависимости.

Функциональной называют такую зависимость, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака.

Стохастическая зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений.

Корреляционная связь является частным случаем стохастической связи, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

Степень тесноты связи оценивается с помощью коэффициентов корреляции (табл. 7.1).

Таблица 7.1. Критерии оценки тесноты связи

По направлению выделяют связь прямую и обратную.

Прямой называется связь, при которой с увеличением или уменьшением значений одного признака происходит увеличение или уменьшение значений другого признака. При этом возможны два варианта интерпретации прямой связи между признаками. Например, увеличение объемов строительно-монтажных работ по виду экономической деятельности "Строительство" способствует увеличению прибыли строительной компании; снижение материалоемкости продукции способствует снижению ее себестоимости.

Обратной называется связь, при которой с увеличением или уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака. Например, снижение себестоимости единицы производимой продукции влечет за собой рост се рентабельности.

По аналитическому выражению различают связи прямолинейные (или просто линейные) и нелинейные.

Если статистическая связь между признаками описывается уравнением прямой вида

то ее называют линейной связью.

Если статистическая связь между признаками описывается любой нелинейной функцией, например параболой

или гиперболой

то такую связь называют нелинейной.

Для определения взаимосвязей между признаками в статистике используют методы:

приведения параллельных данных;
аналитических группировок (см. гл. 4);
графический;
корреляционный;
регрессионный.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере.

Пример. Имеются данные о доходах местного бюджета и числе муниципальных образований субъектов Дальневосточного федерального округа (табл. 7.2). Методом приведения параллельных данных определим взаимосвязь между этими показателями.

Таблица 7.2. Основные показатели муниципальных образований в субъектах Дальневосточного федерального округа РФ на 1 января 2010 г.

На основе данных табл. 7.2 построим ряд приведенных данных путем ранжирования (упорядочения) субъектов Дальневосточного федерального округа по числу муниципальных образований. Соответственно им проставим значения доходов местного бюджета (табл. 7.3).

Таблица 7.3. Приведенные данные по основным показателям муниципальных образований в субъектах Дальневосточного федерального округа РФ на 1 января 2010 г.

Субъект	Число муниципальных образований х.	Доходы местного бюджета у-у млн руб.
1. Сахалинская область
2. Еврейская автономная область
3. Магаданская область
4. Чукотский автономный округ
5. Камчатский край
6. Приморский край
7. Хабаровский край
8. Амурская область
9. Республика Саха (Якутия)

По данным табл. 7.3 можно наблюдать, что с увеличением числа муниципальных образований доходы местных бюджетов в основном также возрастают. Исключение составляют Сахалинская (на 25 муниципальных образований приходится 27 211 мли руб. доходов местного бюджета) и Амурская области - наименее доходная (на 316 муниципальных образований приходится 14 921 млн руб. доходов местного бюджета). Можно сделать предположение, что связь между изучаемыми признаками прямая.

Метод аналитических группировок позволяет выявить направление связи между признаками. В качестве группировочного признака выступает факторный признак. Каждая выделенная группа характеризуется изменением среднего значения результативного признака.

Графический метод используют для изображения взаимосвязи двух признаков с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис. 7.1).

Корреляция - это статистическая зависимость между случайными величинами, не имеющая строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

Рис. 7.1.

В статистике принято различать следующие виды корреляции:

1) парная - связь между двумя признаками (результативным и факторным, или двумя факторными);
2) частная - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
3) множественная - зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный метод анализа используют для количественного определения тесноты и направления связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Знаки при коэффициентах корреляции характеризуют направление связи между признаками.

Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое выражение взаимосвязи между признаками.

Регрессионный метод анализа заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторных признаков).

При построении моделей регрессии должны соблюдаться следующие требования:

1) возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей;
2) количественное (числовое) выражение всех факторных признаков;
3) наличие достаточно большого объема исследуемой выборочной совокупности;
4) описание причинно-следственных связей между явлениями и процессами линейной или приводимой к линейной формами зависимости;
5) отсутствие количественных ограничений на параметры модели связи;
6) постоянство территориальной и временной структуры изучаемой совокупности.

Соблюдение данных требований позволяет построить модель, наилучшим образом описывающую реальные социально-экономические явления и процессы.

Основные понятия корреляционного и регрессионного анализа

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной . Если изучаются более чем две переменные – множественной .

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи – и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственнокорреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачирегрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

Аннотация: Для большинства статистических исследований важно выявить существующие взаимосвязи между протекающими явлениями и процессами. Почти все наблюдаемые явления экономической жизни общества, какими бы независимыми они ни казались на первый взгляд, как правило, - следствие действия определенных факторов. Например, прибыль, получаемая предприятием, связана со множеством показателей: численностью работников, их образованием, стоимостью основных производственных фондов и т. п.

12.1. Понятие о функциональной и корреляционной связи

Между общественными и экономическими явлениями имеется два основных типа связи - функциональная и статистическая (называемая также стохастической, вероятностной или корреляционной). Перед тем как рассмотреть их подробнее, введем понятия независимых и зависимых признаков.

Независимыми, или факторными, называют признаки, которые вызывают изменения других, связанных с ними признаков. Признаки, изменение которых под воздействием определенных факторов требуется проследить, называют зависимыми, или результативными.

При функциональной связи изменение независимых переменных приводит к получению точно определенных значений зависимой переменной.

Наиболее часто функциональные связи проявляются в естественных науках, например в механике функциональной является зависимость расстояния, пройденного объектом, от скорости его движения и т. п.

При статистической связи каждому значению независимой переменной Х соответствует множество значений зависимой переменной Y, причем не известно заранее, какое именно. Например, мы знаем, что прибыль коммерческого банка определенным образом связана с размером его уставного капитала (этот факт не подлежит сомнению). Тем не менее, нельзя вычислить точную величину прибыли при заданном значении последнего показателя, так как она зависит еще и от множества других факторов, помимо размера уставного капитала, среди которых имеются и случайные. В нашем случае, скорее всего, мы определим лишь среднее значение прибыли, которое будет получено в целом по совокупности банков со сходным объемом уставного капитала. Таким образом, статистическая связь отличается от функциональной наличием действия на зависимую переменную большого числа факторов.

Заметим, что статистическая связь проявляется лишь "в общем и среднем" при большом числе наблюдений за явлением. Так, интуитивно мы можем предполагать, что существует зависимость между объемом основных фондов предприятия и получаемой им прибылью, а именно с увеличением первого размер прибыли возрастает. Но на это можно возразить и привести пример предприятия, обладающего достаточным количеством современного производственного оборудования, но тем не менее терпящего убытки. В данном случае мы имеем наглядный пример статистической связи, которая проявляется лишь в больших совокупностях, содержащих десятки и сотни единиц в отличие от функциональной, подтверждающейся для каждого наблюдения.

Корреляционной является статистическая связь между признаками, при которой изменение значений независимой переменной Х приводит к закономерному изменению математического ожидания случайной величины Y.

Пример 12.1. Предположим, что имеются данные по предприятиям о размере нераспределенной прибыли предыдущего года, объеме инвестиций в основной капитал и о суммах, выделенных на приобретение ценных бумаг (тыс. ден. ед.):

Таблица 12.1.

Номер предприятия	Нераспределенная прибыль предыдущего года	Приобретение ценных бумаг	Инвестиции в основные фонды
1	3 010	190	100
2	3 100	182	250
3	3 452	185	280
4	3 740	170	270
5	3 980	172	330
6	4 200	160	420
7	4 500	145	606
8	5 020	120	690
9	5 112	90	800
10	5 300	30	950

Из таблицы видно, что имеется прямое соответствие между нераспределенной прибылью предприятия и его инвестициями в основной капитал : при увеличении нераспределенной прибыли объем инвестиций также возрастает. Теперь обратим внимание на связь между показателем нераспределенной прибыли и объемом приобретенных ценных бумаг. Здесь она носит совершенно иной характер: увеличение первого показателя приводит к прямо противоположному эффекту - стоимость приобретенных ценных бумаг за редким исключением (что уже однозначно исключает наличие функциональной связи) уменьшается. Такой визуальный анализ данных , при котором наблюдения ранжируются по возрастанию или убыванию независимой величины х, а затем анализируется изменение значений зависимой величины у, называется методом приведения параллельных данных.

В рассмотренном примере в первом случае связь прямая, т.д. увеличение (уменьшение) одного показателя влечет увеличение (уменьшение) другого (наблюдается соответствие в изменениях показателей), а во втором - обратная, т.д. уменьшение одного показателя вызывает рост другого или же увеличение одного соответствует снижению другого.

Прямая и обратная зависимости характеризуют направление связи между признаками, которую можно проиллюстрировать графически с помощью поля корреляции. При его построении в прямоугольной системе координат на оси абсцисс располагают значения независимой переменной х, а на оси ординат - зависимой у. Пересечение координат обозначают точками, которые символизируют наблюдения. По форме рассеяния точек на корреляционном поле судят о форме и тесноте связи. На рисунке 12.1 приводятся корреляционные поля, соответствующие различным формам связи.

Рис. 12.1.

а - прямая (положительная) связь ;

б - обратная (отрицательная) связь ;

в - отсутствие связи

Раздел статистической науки, занимающийся исследованием причинных связей между социально-экономическими явлениями и процессами, имеющими количественное выражение , - это корреляционно-регрессионный анализ . По существу имеются два отдельных направления анализа - корреляционный и регрессионный. Однако в связи с тем, что на практике они применяются чаще всего комплексно (исходя из результатов корреляционного анализа проводят регрессионный), их объединяют в один вид.

Проведение корреляционно-регрессионного анализа предполагает решение следующих задач:

Из перечисленных задач первые две относят непосредственно к задачам корреляционного анализа, три последующие - к регрессионному анализу и только по отношению к количественным показателям.

12.1.1. Требования к статистической информации, исследуемой методами корреляционно-регрессионного анализа

Методы корреляционно-регрессионного анализа можно применить не ко всем статистическим данным. Перечислим основные требования, предъявляемые к анализируемой информации:

используемые для исследования наблюдения должны являться случайно выбранными из генеральной совокупности объектов. В противном случае исходные данные, представляющие собой определенную выборку из генеральной совокупности, не будут отражать ее характер, полученные по ним выводы о закономерностях развития окажутся бессмысленными и не имеющими никакой практической ценности;
требование независимости наблюдений друг от друга. Зависимость наблюдений друг от друга называется автокорреляцией, для ее устранения в теории корреляционно-регрессионного анализа созданы специальные методы;
исходная совокупность данных должна быть однородной, без аномальных наблюдений. И действительно, одно-единственное, резко выделяющееся наблюдение может привести к катастрофическим последствиям для регрессионной модели, ее параметры окажутся смещенными, выводы абсурдными;
желательно, чтобы исходные данные для анализа подчинялись нормальному закону распределения. Нормальный закон распределения используется для того, чтобы при проверке значимости коэффициентов корреляции и построении для них интервальных границ можно было использовать определенные критерии. Если же проверять значимость и строить интервальные оценки не требуется, переменные могут иметь любой закон распределения. В регрессионном анализе при построении уравнения регрессии требование нормальности распределения исходных данных предъявляется лишь к результативной переменной Y, независимые факторы рассматриваются как неслучайные величины и могут в действительности иметь любой закон распределения. Как и в случае корреляционного анализа, требование нормальности распределения нужно для проверки значимости регрессионного уравнения, его коэффициентов и нахождения доверительных интервалов;
число наблюдений, по которым устанавливается взаимосвязь признаков и строится модель регрессии, должно превышать количество факторных признаков хотя бы в 3-4 раза (а лучше в 8-10 раз). Как отмечалось выше, статистическая связь проявляется только при значительном числе наблюдений на основе действия закона больших чисел, причем, чем связь слабее, тем больше требуется наблюдений для установления связи, чем сильнее - тем меньше;
факторные признаки Х не должны находиться между собой в функциональной зависимости. Значительная связь независимых (факторных, объясняющих) признаков между собой указывает на мультиколлениарность. Ее наличие приводит к построению неустойчивых регрессионных моделей, "ложных" регрессий.

12.1.2. Линейная и нелинейная связи

Линейная связь выражается прямой линией, а нелинейная - какой-либо кривой линией. Линейная связь выражается уравнением прямой: y = a 0 + a i *x. Прямая наиболее привлекательна с точки зрения простоты расчета параметров уравнения. К ней прибегают всегда, в том числе и в случаях нелинейных связей, когда нет угрозы значительных потерь в точности оценок. Однако для некоторых зависимостей представление их в линейной форме приводит к большим ошибкам (ошибкам аппроксимации) и, как следствие, к ложным выводам. В этих случаях используют нелинейные регрессионные функции, которые в общем случае могут иметь любой произвольный вид, тем более что современное программное обеспечение позволяет быстро их построить. Чаще всего для выражения нелинейной связи используются следующие нелинейные уравнения: степенное, параболическое, гиперболическое, логарифмическое.

Параметры этих моделей, как и в случаях линейных зависимостей, оцениваются также на основе метода наименьших квадратов (см. п. 12.3.1).

12.2. Корреляционно-регрессионный анализ

Основными задачами корреляционного анализа являются определение наличия связи между отобранными признаками, установление ее направления и количественная оценка тесноты связи. Для этого в корреляционном анализе сначала оценивается матрица парных коэффициентов корреляции, затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации. После нахождения значений коэффициентов проверяют их значимость . Конечный результат корреляционного анализа - это отбор факторных признаков Х для дальнейшего построения уравнения регрессии, позволяющего количественно описать взаимосвязь.

Рассмотрим этапы корреляционного анализа подробнее.

12.2.1. Парные (линейные) коэффициенты корреляции

Корреляционный анализ начинается с расчета парных (линейных) коэффициентов корреляции.

Парный коэффициент корреляции представляет собой меру линейной зависимости между двумя переменными на фоне действия остальных переменных, входящих в модель.

В зависимости от того, какой порядок вычислений более удобен исследователю, расчет данного коэффициента проводят по одной из следующих формул:

Парный коэффициент корреляции изменяется в пределах от -1 до +1. Абсолютное значение, равное единице, свидетельствует о том, что связь функциональная: -1 - обратная (отрицательная), +1 - прямая (положительная). Нулевое значение коэффициента указывает на отсутствие линейной связи между признаками.

Качественную оценку полученным количественным значениям парных коэффициентов корреляции можно дать на основе шкалы, представленной в табл. 12.2.

Примечание: положительное значение коэффициента говорит о том, что связь между признаками прямая, отрицательное - обратная.

12.2.2. Оценка существенности связи

После того, как значения коэффициентов получены, следует проверить их значимость. Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются определенной выборкой из некоей генеральной совокупности объектов, исчисленные по этим данным парные коэффициенты корреляции будут выборочными. Таким образом, они лишь оценивают связь исходя из той информации, которую несут отобранные единицы наблюдения. Если исходные данные "хорошо" отражают структуру и закономерности генеральной совокупности, то и исчисленный по ним коэффициент корреляции будет показывать реальную связь, присущую в действительности всей исследуемой совокупности объектов. Если данные не "копируют" взаимосвязи совокупности в целом, то и рассчитанный коэффициент корреляции сформирует ложное представление о зависимости. В идеале, чтобы установить этот факт, требуется исчислить коэффициент корреляции на основе данных всей совокупности и сравнить его с исчисленным по отобранным наблюдениям. Однако на практике, как правило, этого сделать нельзя, так как зачастую неизвестна вся генеральная совокупность или же она слишком велика. Поэтому о том, насколько реально коэффициент представляет действительность, можно судить лишь приблизительно. На основе логики легко прийти к выводу, что, очевидно, с увеличением числа наблюдений (при ) доверие к исчисленному коэффициенту будет увеличиваться.

Значимость парных коэффициентов корреляции проверяется одним из двух способов: с помощью таблицы Фишера - Йейтса или по t-критерию Стьюдента. Рассмотрим способ проверки с помощью таблицы Фишера - Йейтса как наиболее простой.

В начале проверки задается уровень значимости (чаще всего обозначаемый буквой греческого алфавита "альфа" - ), который показывает вероятность принятия ошибочного решения. Возможность совершить ошибку вытекает из того факта, что для определения взаимосвязи используются данные не всей совокупности, а лишь ее части. Обычно принимает следующие значения: 0,05; 0,02; 0,01; 0,001. Например, если = 0,05, то это означает, что в среднем в пяти случаях из ста принятое решение о значимости (или незначимости) парных коэффициентов корреляции будет ошибочным; при = 0,001 - в одном случае из тысячи и т.д.

Вторым параметром при проверке значимости является число степеней свободы v, которое в данном случае вычисляется как v = n - 2. По таблице Фишера - Йейтса находится критическое значение коэффициента корреляции r кр. ( = 0,05, v = n - 2). Коэффициенты, значения которых по модулю больше найденного критического значения, считаются значимыми.

Пример 12.2. Предположим, что в первом случае имеется 12 наблюдений, и по ним вычислили парный коэффициент корреляции, который оказался равным 0,530, во втором - 92 наблюдения, и рассчитанный парный коэффициент корреляции составил 0,36. Но если мы проверим их значимость, в первом случае коэффициент окажется незначимым, а во втором - значимым, невзирая на то, что он по величине гораздо меньше. Оказывается, в первом случае слишком мало наблюдений, что повышает требования, и критическая величина парного коэффициента корреляции при уровне значимости = 0,05 составляет 0,576 (v = 12 - 2), а во втором - наблюдений значительно больше и достаточно превысить критическое значение 0,205 (v = 92 - 2), чтобы коэффициент корреляции при том же уровне оказался значимым. Таким образом, чем меньше наблюдений, тем всегда будет выше критическое значение коэффициента.

Проверка значимости по существу решает вопрос, случайны или нет полученные результаты расчетов.

12.2.3. Определение множественного коэффициента корреляции

Следующий этап корреляционного анализа связан с расчетом множественного (совокупного) коэффициента корреляции.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других переменных, рассматриваемых в корреляционном анализе.

Если изучается связь между результативным признаком y и лишь двумя факторными признаками х 1 и х 2 , то для вычисления множественного коэффициента корреляции можно использовать следующую формулу, компонентами которой являются парные коэффициенты корреляции:

где r - парные коэффициенты корреляции.

Таблица 1 – Расчет отклонений Млн.нац.руб.

Название банка	Собственный капитал коммерческих банков,	Сумма активов коммерческих банков,

Белагропром-банк
Белпромстрой-банк
Приор-банк
Белвнешэконом-банк
Белбиз-несбанк
Белорус-банк
Комплекс-банк

1) Рассчитаем и по следующим формулам:

2) Рассчитаем коэффициент Фехнера. Его расчет основывается на сопоставлении знаков парных отклонений по факторному и результативному признакам.

где С – количество совпадающих отклонений, шт.;

Так как находится в пределах от 0,3 до 0,5, то связь можно считать слабой

Для проведения дальнейшего анализа взаимосвязи составим таблицу 2

Таблица 2 – расчет значения результата по уравнению связи (y ) Млн.нац.руб

	Название банка

	Белагропром-банк
	Белпромстрой-банк
	Приор-банк
	Белвнешэконом-банк
	Белбиз-несбанк
	Белорус-банк
	Комплекс-банк

Где - это коэффициент парно-линейной регрессии

Это свободный параметр уравнения регрессии

1)Рассчитаем параметры парной линейной регрессии

(млн.нац.руб.)

В среднем по совокупности увеличение собственного капитала коммерческих банков на 1 рубль приводит к увеличению суммы активов коммерческих банков на 16 млн.нац.руб.

(млн.нац.руб.)

В отчетном периоде среднее совокупное влияние неучтенных факторов или в среднем по группе сумма активов коммерческих банков увеличилась на 288 млн.нац.руб.

2)Составим уравнение регрессии с вычисленными параметрами

3) Получаем следующий график:

Рассчитаем количественные характеристики тесноты связи:

1) Линейный коэффициент корреляции () – это стандартизированный коэффициент регрессии, выраженный не в абсолютных единицах измерения признака, а в долях среднего квадратического изменения результата.

Расчетное значение коэффициента находится от 0,7 до 1, что показывает прямую сильную взаимосвязь исследуемых признаков.

2) Коэффициент детерминации () – показывает какая часть вариации результата обусловлена вариацией исследуемого фактора.

Коэффициент детерминации показывает, что 73% вариации суммы активов коммерческих банков обусловлено вариацией собственных капиталов коммерческих банков. Отсюда следует, что 27% приходится на долю других факторов (не включенных в исследование)

3) Корреляционное отношение:

Расчетное значение корреляционного отношения находится от 0,7 до 1, что показывает прямую сильную взаимосвязь исследуемых признаков.

После расчета коэффициента детерминации и корреляционного отношения, должно выполняться следующее условие:

в моей работе условие выполняется.

4) Коэффициент эластичности:

При увеличении на 1% среднего собственного капитала, в среднем по совокупности приводит к увеличению суммы активов на 0,861 %

Проведем статистическую оценку надежности и точности расчетов показателей тесноты связи.

Где (n -2)- количество степеней свободы для рассматриваемой совокупности

Сравним расчетные значения F -критерия с табличными

Таблица 3 – Значение t - критерия Стьюдента при уровнях доверительной вероятности 0,5; 0,05; 0,01:

Сравнение расчетных значений с табличными, подтверждает сильную взаимосвязь признаков, так как соответствует низкому уровню вероятности 0 значения проверяемых показателей тесноты связи.

ω 2 =0 - означает что применение прямой линии для оценки формы регрессии обоснованы.

5. Рассчитываем коэффициент корреляции ранга

Подтверждает сильную прямую связь.

Осуществим прогнозирование на основании уравнения регрессии.

Оценим изменение суммы активов коммерческих банков, при условии что в следующем отчетном периоде собственный капитал коммерческих банков увеличиться на 7%.

Y прогн. =289,307+288,186+16,012*7,81=702,547

Т.к. было выявлено, что в отчетном периоде были факторы, положительно влияющие на суммы активов коммерческих банков, то прогнозное увеличение исследуемого фактора, т.е. собственного капитала коммерческих банков, на 7 % обеспечивает дальнейший прирост суммы активов коммерческих банков.

ЗАКЛЮЧЕНИЕ

В данной курсовой работе рассмотрено статистическое изучение взаимосвязи социально-экономических явлений. Первая глава моей работы посвящена сущности исследования взаимосвязей социально-экономических признаков, вторая - основным понятия инфляции, показателям ее измерения, а также методике расчета. В практической части мною была изучена зависимость суммы активов коммерческих банков и собственного капитала.

В общем виде задача статистики в области изучения взаимосвязей состоит не только в количественной оценке их наличия, направления и силы связи, но и в определении формы влияния факторных признаков на результативный. Для ее решения применяют методы корреляционного и регрессионного анализа.

Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа – выбор типа модели, установление степени влияния независимых переменных на зависимую и определение расчетных значений зависимой переменной.

Решение всех названных задач приводит к необходимости комплексного использования этих методов.

На основе анализа инфляции были сделаны следующие выводы.

Инфляция – это сложный многопрофильный процесс, наносящий серьезный ущерб экономике страны, ее населению. Инфляция в настоящее время в той или иной степени охватывает практически все страны мира. Борьба с ней с целью ее снижения требует больших сил и материальных затрат.

Вся прогрессивная экономическая мысль человечества, положила немало усилий для борьбы с инфляцией, но инфляция окончательно побеждена не была, т.к. появились новые и более сложные ее формы.

Интенсивный инфляционный пресс всегда сопровождает преобразование административно-коммерческой системы в рыночную. Корни его находятся в структурно-системных диспропорциях развивающегося хозяйства. Для борьбы с инфляцией необходимо разработать и реализовать комплекс мероприятий, сочетающий меры денежно-кредитной политики и государственной политики по стимулированию экономического роста, структурной политики и социальной политики. Необходимо преодолеть межведомственные разногласия и определиться с методикой подсчета роста цен. В целях более объективного отражения ситуации с ростом цен в экономике целесообразно рассчитывать инфляцию также и по росту оптовых цен.

В конце работы хочу подчеркнуть, что Россия имеет все возможности для выхода из инфляционного тупика, т.к., несмотря на все трудности, она без всякого сомнения остается сверхдержавой, обладающей громадными ресурсами и в значительной степени определяющей обстановку во всем мире.

Изучение зависимости суммы активов коммерческих банков и собственного капитала было проведено при помощи корреляционно-регрессионого анализа парной линейной зависимости признаков. Интерпретация полученных показателей показала сильную прямую взаимосвязь суммы активов от собственного капитала коммерческих банков. В отчетном периоде были выявлены резервы увеличения суммы активов, т.е. факторы, не учтенные в исследовании, которые положительно влияли на сумму активов коммерческих банков. Прогноз изменения суммы активов подтверждает необходимость работы с неучтенными факторами.

ЛИТЕРАТУРА

Андрианов В. Деньги и инфляция. //Общество и экономика № 1 2002г.

Гусаров В.М. Статистика: Учебное пособие для вузов. – М: ЮНИТИ-ДАНА, 2001 – 463с.

Кудрин А. Инфляция: российские и мировые тенденции. //Вопросы экономики №10 2007 г.

Чернова Т.В. Экономическая статистика: Учебное пособие. Таганрог: Изд-во ТРТУ, 1999. 140 с.

ИЗУЧЕНИЕ

СОЦИАЛЬНО

ЭКОНОМИЧЕСКИХ

ЯВЛЕНИЙ

социально

экономических

явлений

социально

экономических

явлений

взаимосвязи

7.Статистическое изучение вариации социально -экономических явлений
Реферат >> Маркетинг
Независимо от типа планируемой выборки. 9 Статистические методы изучения взаимосвязей социально -экономических явлений 1.9.1 Причинность, регрессия, корреляция Исследование...
Регрессионный анализ в статистическом изучении взаимосвязи показателей
Реферат >> Маркетинг
... : Регрессионный анализ в статистическом изучении взаимосвязи показателей Выполнил Проверил: Тюмень, 2010 СОДЕРЖАНИЕ Введение 3 1.Статистическое изучение взаимосвязи социально -экономических явлений и процессов...
Исследование регрессионного анализа в статистическом изучении взаимосвязи показателей
Реферат >> Маркетинг
... изучение взаимосвязи социально - экономических явлений и процессов; - рассмотрение регрессионного анализа; - исследование регрессионного анализа для изучения объекта исследования. 1. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО -ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ ...

8.1. Основные понятия корреляционного и регрессионного анализа

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

8.2. Парная корреляция и парная линейная регрессия

Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы:

\ Y \ X \	Y 1	Y 2	...	Y z	Итого	Y i
X 1	f 11	12	...	f 1z
X 1	f 21	22	...	f 2z
...	...	...	...	...	...	...
X r	f k1	k2	...	f kz
Итого			...		n
			...			-

В основу группировки положены два изучаемых во взаимосвязи признака – Х и У. Частоты f ij показывают количество соответствующих сочетаний Х и У. Если f ij расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания f ij допустимо утверждать о связи между Х и У. При этом, если f ij концентрируется около одной из двух диагоналей, имеет место прямая или обратная линейная связь.

Наглядным изображением корреляционной таблице служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладывают значения Х, по оси ординат – У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.

В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения – одно по X, другое по У. Рассчитаем для каждого Х i среднее значение У, т.е. , как

Последовательность точек (X i , ) дает график, который иллюстрирует зависимость среднего значения результативного признака У от факторного X, – эмпирическую линию регрессии, наглядно показывающую, как изменяется У по мере изменения X.

По существу, и корреляционная таблица, и корреляционное поле, и эмпирическая линия регрессии предварительно уже характеризуют взаимосвязь, когда выбраны факторный и результативный признаки и требуется сформулировать предположения о форме и направленности связи. В то же время количественная оценка тесноты связи требует дополнительных расчетов.

Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле

Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.

Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r| < 0,30, то связь слабая; при |r| = (0,3÷0,7) – средняя; при |r| > 0,70 – сильная, или тесная. Когда |r| = 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие. что требует дополнительной проверки и других измерителей, рассматриваемых ниже.

Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель

где n – число наблюдений;
а 0 , а 1 – неизвестные параметры уравнения;
e i – ошибка случайной переменной У.

Уравнение регрессии записывается как

где У iтеор – рассчитанное выравненное значение результативного признака после подстановки в уравнение X.

Параметры а 0 и а 1 оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки ag и а, получают, когда

т.е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а 0 и а 1 . Ее минимизация осуществляется решением системы уравнений

Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:

Аппарат линейной регрессии достаточно хорошо разработан и, как правило, имеется в наборе стандартных программ оценки взаимосвязи для ЭВМ. Важен смысл параметров: а 1 – это коэффициент регрессии, характеризующий влияние, которое оказывает изменение Х на У. Он показывает, на сколько единиц в среднем изменится У при изменении Х на одну единицу. Если а, больше 0. то наблюдается положительная связь. Если а имеет отрицательное значение, то увеличение Х на единицу влечет за собой уменьшение У в среднем на а 1 . Параметр а 1 обладает размерностью отношения У к X.

Параметр a 0 – это постоянная величина в уравнении регрессии. На наш взгляд, экономического смысла он не имеет, но в ряде случаев его интерпретируют как начальное значение У.

Например, по данным о стоимости оборудования Х и производительности труда У методом наименьших квадратов получено уравнение

У = -12,14 + 2,08Х.

Коэффициент а, означает, что увеличение стоимости оборудования на 1 млн руб. ведет в среднем к росту производительности труда на 2.08 тыс. руб.

Значение функции У = a 0 + а 1 Х называется расчетным значением и на графике образует теоретическую линию регрессии.

Смысл теоретической регрессии в том, что это оценка среднего значения переменной У для заданного значения X.

Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных – с другой. Когда же требуется охарактеризовать связь всего указанного множества независимых переменных с результативным признаком, говорят о множественной корреляции или множественной регрессии.

8.3. Оценка значимости параметров взаимосвязи

Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции:

В первом приближении нужно, чтобы . Значимость r xy проверяется его сопоставлением с , при этом получают

где t расч – так называемое расчетное значение t-критерия.

Если t расч больше теоретического (табличного) значения критерия Стьюдента (t табл) для заданного уровня вероятности и (n-2) степеней свободы, то можно утверждать, что r xy значимо.

Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие t расч > t табл. В противном случае доверять полученной оценке параметра нет оснований.

Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:

где n – число наблюдений;
m – число параметров уравнения регрессии.

F расч также должно быть больше F теор при v 1 = (m-1) и v 2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д.

8.4. Непараметрические методы оценки связи

Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.

Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.

Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.

Рассмотрим методику анализа таблиц взаимной сопряженности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей.

Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9 % детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9 % детей. родители которых трудятся в сельском хозяйстве, работают в промышленности (34 из 88) и т.д.

Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4 %, являются детьми работников сельского хозяйства; более чем у 50 % в сфере интеллектуального труда родители относятся к той же социальной группе и т.д.

Однако важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):

где f 2 – показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:

К 1 и К 2 – число групп по каждому из признаков. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1.

В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д.

При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.

Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (r) и Кендэлла (t). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.