Оценка значимости частного коэффициента корреляции. Критерий корреляции пирсона

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.

Как неоднократно отмечалось, для статистического вывода о на­личии или отсутствии корреляционной связи между исследуемыми пе­ременными необходимо произвести проверку значимости выборочного коэффициента корреляции. В связи с тем что надежность статистиче­ских характеристик, в том числе и коэффициента корреляции, зависит от объема выборки, может сложиться такая ситуация, когда величина коэффициента корреляции будет целиком обусловлена случайными колебаниями в выборке, на основании которой он вычислен. При существенной связи между переменными коэффициент корреляции должен значимо отличаться от нуля. Если корреляционная связь меж­ду исследуемыми переменными отсутствует, то коэффициент корреля­ции генеральной совокупности ρ равен нулю. При практических ис­следованиях, как правило, основываются на выборочных наблюдениях. Как всякая статистическая характеристика, выборочный коэффициент корреляции является случайной величиной, т. е. его значения случай­но рассеиваются вокруг одноименного параметра генеральной совокуп­ности (истинного значения коэффициента корреляции). При отсутствии корреляционной связи между переменными у и х коэффициент корре­ляции в генеральной совокупности равен нулю. Но из-за случайного характера рассеяния принципиально возможны ситуации, когда не­которые коэффициенты корреляции, вычисленные по выборкам из этой совокупности, будут отличны от нуля.

Могут ли обнаруженные различия быть приписаны случайным ко­лебаниям в выборке или они отражают существенное изменение усло­вий формирования отношений между переменными? Если значения выборочного коэффициента корреляции попадают в зону рассеяния, обусловленную случайным характером самого показателя, то это не является доказательством отсутствия связи. Самое большее, что при этом можно утверждать, сводится к тому, что данные наблюдений не отрицают отсутствия связи между переменными. Но если значение вы­борочного коэффициента корреляции будет лежать вне упомянутой зоны рассеяния, то делают вывод, что он значимо отличается от нуля, и можно считать, что между переменными у и х существует статистиче­ски значимая связь. Используемый для решения этой задачи критерий, основанный на распределении различных статистик, называется крите­рием значимости.

Процедура проверки значимости начинается с формулировки ну­левой гипотезы H 0 . В общем виде она заключается в том, что между па­раметром выборки и параметром генеральной совокупности нет каких- либо существенных различий. Альтернативная гипотеза H 1 состоит в том, что между этими параметрами имеются существенные различия. Например, при проверке наличия корреляции в генеральной совокуп­ности нулевая гипотеза заключается в том, что истинный коэффициент корреляции равен нулю (Н0 : ρ = 0). Если в результате проверки ока­жется, что нулевая гипотеза не приемлема, то выборочный коэффи­циент корреляции r ух значимо отличается от нуля (нулевая гипотеза отвергается и принимается альтернативная Н1). Другими словами, предположение о некоррелированности случайных переменных в ге­неральной совокупности следует признать необоснованным. И нао­борот, если на основе критерия значимости нулевая гипотеза прини­мается, т. е. r ух лежит в допустимой зоне случайного рассеяния, то нет оснований считать сомнительным предположение о некоррелиро­ванности переменных в генеральной совокупности.

При проверке значимости исследователь устанавливает уровень значимости α, который дает определенную практическую уверенность в том, что ошибочные заключения будут сделаны только в очень ред­ких случаях. Уровень значимости выражает вероятность того, что ну­левая гипотеза Н0 отвергается в то время, когда она в действительности верна. Ясно, что имеет смысл выбирать эту вероятность как можно меньшей.

Пусть известно распределение выборочной характеристики, яв­ляющейся несмещенной оценкой параметра генеральной совокупности. Выбранному уровню значимости α соответствуют под кривой этого распределения заштрихованные площади (см. рис. 24). Незаштрихованная площадь под кривой распределения определяет вероятность Р = 1 - α. Границы отрезков на оси абсцисс под заштрихованными площадями называют критическими значениями, а сами отрезки обра­зуют критическую область, или область отклонения гипотезы.

При процедуре проверки гипотезы выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствую­щим критическим значением. При этом следует различать односторон­нюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи при статистическом исследова­нии. Двусторонняя критическая область необходима в том случае, когда при сравнении параметра выборки и параметра генеральной со­вокупности требуется оценить абсолютную величину расхождения между ними, т. е. представляют интерес как положительные, так и от­рицательные разности между изучаемыми величинами. Когда же надо убедиться в том, что одна величина в среднем строго больше или мень­ше другой, используется односторонняя критическая область (право- или левосторонняя). Вполне очевидно, что для одного и того же критического значения уровень значимости при использовании одно­сторонней критической области меньше, чем при использовании дву­сторонней. Если распределение выборочной характеристики симметрично,

Рис. 24. Проверка нулевой гипотезы H0

то уровень значимости двусторонней критической области равен α, а односторонней - (см. рис. 24). Ограничимся лишь общей по­становкой проблемы. Более подробно с теоретическим обоснованием проверки статистических гипотез можно познакомиться в специальной литературе. Далее мы лишь укажем критерии значимости для различ­ных процедур, не останавливаясь на их построении.

Проверяя значимость коэффициента парной корреляции, устанав­ливают наличие или отсутствие корреляционной связи между исследуе­мыми явлениями. При отсутствии связи коэффициент корреляции гене­ральной совокупности равен нулю (ρ = 0). Процедура проверки на­чинается с формулировки нулевой и альтернативной гипотез:

Н0 : различие между выборочным коэффициентом корреляцииr и ρ = 0 незначимо,

Н1 : различие междуr и ρ = 0 значимо, и следовательно, между переменнымиу и х имеется существенная связь. Из альтернативной ги­потезы следует, что нужно воспользоваться двусторонней критической областью.

В разделе 8.1 уже упоминалось, что выборочный коэффициент кор­реляции при определенных предпосылках связан со случайной вели­чиной t , подчиняющейся распределению Стьюдента сf = п - 2 сте­пенями свободы. Вычисленная по результатам выборки статистика

сравнивается с критическим значением, определяемым по таблице рас­пределения Стьюдента при заданном уровне значимости α и f = п - 2 степенях свободы. Правило применения критерия заключается в сле­дующем: если |t | >tf , то нулевая гипотеза на уровне значимостиα отвергается, т. е. связь между переменными значима; если |t | ≤tf , то нулевая гипотеза на уровне значимостиαпринимается. Отклонение значенияr от ρ = 0 можно приписать случайной вариации. Данные выборки характеризуют рассматриваемую гипотезу как весьма возмож­ную и правдоподобную, т. е. гипотеза об отсутствии связи не вызывает возражений.

Процедура проверки гипотезы значительно упрощается, если вместо статистики t воспользоваться критическими значениями коэф­фициента корреляции, которые могут быть определены через квантили распределения Стьюдента путем подстановки в (8.38)t = tf , а иr = ρ f , а:

(8.39)

Существуют подробные таблицы критических значений, выдержка из которых приведена в приложении к данной книге (см. табл. 6). Правило проверки гипотезы в этом случае сводится к следующему: если r > ρ f , а, то можем утверждать, что связь между переменными су­щественная. Еслиr rf , то результаты наблюдений считаем непро­тиворечащими гипотезе об отсутствии связи.

Полный вариант этой заметки (с формулами и таблицами) можно скачать с этой страницы в формате PDF. Размещенный на самой странице текст является кратким изложением содержания этой заметки и наиболее важных выводов.

Оптимистам от статистики посвящается

Коэффициент корреляции (КК) -- одна из наиболее простых и популярных статистик, характеризующих связь между случайными величинами. Одновременно КК удерживает первенство по числу сделанных с его помощью ошибочных и просто бессмысленных выводов. Такое положение обусловлено сложившейся практикой изложения материала, относящегося к корреляции и корреляционным зависимостям.

Большие, маленькие и "промежуточные" значения КК

При рассмотрении корреляционной связи подробно обсуждается понятие «сильной» (почти единичной) и «слабой» (почти нулевой) корреляции, но на практике ни та, ни другая никогда не встречаются. В результате остается неясным вопрос о разумной трактовке обычных для практики «промежуточных» значений КК. Коэффициент корреляции, равный 0.9 или 0.8 , новичку внушает оптимизм, а меньшие значения приводят его в замешательство.

По мере приобретения опыта оптимизм растет, и вот уже КК, равный 0.7 или 0.6 приводит исследователя в восторг, а оптимизм внушают значения 0.5 и 0.4 . Если же исследователь знаком с методами проверки статистических гипотез, то порог «хороших» значений КК падает до 0.3 или 0.2 .

Действительно, какие значения КК уже можно считать «достаточно большими», а какие остаются «слишком маленькими»? На этот вопрос имеется два диаметрально противоположных ответа -- оптимистичный и пессимистичный. Рассмотрим сначала оптимистичный (наиболее популярный) вариант ответа.

Значимость коэффициента корреляции

Этот вариант ответа дает нам классическая статистика и он связан с понятием статистической значимости КК. Мы рассмотрим здесь только ситуацию, когда интерес представляет положительная корреляционная связь (случай отрицательной корреляционной связи совершенно аналогичен). Более сложный случай, когда проверяется только наличие корреляционной связи без учета знака, относительно редко встречается на практике.

Если для КК r выполнено неравенство r > r e (n) , то говорят, что КК статистически значим при уровне значимости е . Здесь r e (n) -- квантиль, относительно которого нас будет интересовать только то, что при фиксированном уровне значимости e его значение стремится к нулю с ростом длины n выборки. Получается, что увеличивая массив данных можно добиться статистической значимости КК даже при весьма малых его значениях. В результате при наличии достаточно большой выборки появляется соблазн признать наличие в случае КК, равного, например, 0.06 . Тем не менее, здравый смысл подсказывает, что вывод о наличии значимой корреляционной связи при r=0.06 не может быть справедливым ни при каком объеме выборки. Остается понять природу ошибки. Для этого рассмотрим подробнее понятие статистической значимости.

Как обычно, при проверке статистических гипотез смысл проводимых расчетов кроется в выборе нуль-гипотезы и альтернативной гипотезы. При проверке значимости КК в качестве нуль-гипотезы берется предположение { r = 0 } при альтернативной гипотезе { r > 0 } (напомним, что мы рассматриваем здесь только ситуацию, когда интерес представляет положительная корреляционная связь). Выбираемый произвольно уровень значимости e определяет вероятность т.н. ошибки первого рода, когда нуль-гипотеза верна (r=0 ), но отклоняется статистическим критерием (т.е. критерий ошибочно признает наличие значимой корреляции). Выбирая уровень значимости, мы гарантируем малую вероятность такой ошибки, т.е. мы почти застрахованы от того, чтобы для независимых выборок (r=0 ) ошибочно признать наличие корреляционной связи (r > 0 ). Грубо говоря, значимость коэффициента корреляции означает только то, что он с большой вероятностью отличен от нуля .

Именно поэтому размер выборки и величина КК компенсируют друг друга -- большие выборки попросту позволяют добиться большей точности в локализации малого КК по его выборочной оценке.

Ясно, что понятие значимости не дает ответа на исходный вопрос о понимании категорий "большой/маленький" применительно к значениям КК. Ответ, даваемый критерием значимости, ничего не говорит нам о свойствах корреляционной связи, а позволяет только убедиться, что с большой вероятностью выполнено неравенство r > 0 . В то же время, само значение КК содержит значительно более существенную информацию о свойствах корреляционной связи. Действительно, одинаково значимые КК, равные 0.1 и 0.9 , существенно различаются по степени выраженности соответствующей корреляционной связи, а утверждение о значимости КК r = 0.06 для практики абсолютно бесполезно, поскольку при любых объемах выборки ни о какой корреляционной связи здесь говорить не приходится.

Окончательно можно сказать, что на практике из значимости коэффициента корреляции не следуют какие бы то ни было свойства корреляционной связи и даже само ее существование . С точки зрения практики порочен сам выбор альтернативной гипотезы, используемой при проверке значимости КК, поскольку случаи r=0 и r>0 при малых r с практической точки зрения неотличимы.

Фактически, когда из значимости КК выводят существование значимой корреляционной связи , производят совершенно беспардонную подмену понятий, основанную на смысловой неоднозначности слова "значимость". Значимость КК (четко определенное понятие) обманно превращают в "значимую корреляционную связь", а это словосочетание, не имеющее строгого определения, трактуют как синоним "выраженной корреляционной связи".

Расщепление дисперсии

Рассмотрим другой вариант ответа на вопрос о "малых" и "больших" значениях КК. Этот вариант ответа связан с выяснением регрессионоого смысла КК и оказывается весьма полезным для практики, хотя и отличается гораздо меньшим оптимизмом, чем критерии значимости КК.

Интересно, что обсуждение регрессионоого смысла КК часто наталкивается на трудности дидактического (а скорее психологического) характера. Кратко прокомментируем их. После формального введения КК и пояснения смысла "сильной" и "слабой" корреляционной связи считается необходимым углубиться в обсуждение философских вопросов соотношения между корреляционными и причинно-следственными связями. При этом делаются энергичные попытки откреститься от (гипотетической!) попытки трактовать корреляционную связь как причинно-следственную. На этом фоне обсуждение вопроса о наличии функциональной зависимости (в том числе и регрессионной) между коррелирующими величинами начинает казаться попросту кощунственной. Ведь от функциональной зависимости до причинно-следственной связи всего один шаг! В результате вопрос о регрессионном смысле КК вообще обходится стороной, так же как и вопрос о корреляционных свойствах линейной регресии.

На самом деле тут все просто. Если для нормированных (т.е. имеющих нулевое матожидание и единичную дисперсию) случайных величин X и Y имеет место соотношение

Y = a + bX + N,

где N -- некоторая случайная величина с нулевым матожиданием (аддитивный шум), то легко убедиться, что a = 0 и b = r . Это соотношение между случайными величинами X и Y называется уравнением линейной регрессии.

Вычисляя дисперсию случайной величины Y легко получить следующее выражение:

D[Y] = b 2 D[X] + D[N].

В последнем выражении первое слагаемое определяет вклад случайной величины X в дисперсию Y , а второе слагаемое -- вклад шума N в дисперсию Y . Используя полученное выше выражение для параметра b , легко выразить вклады случайных величин X и N через величину r = r (напомним, что мы считаем величины X и Y нормированными, т.е. D[X] = D[Y] = 1 ):

b 2 D[X] = r 2

D[N] = 1 - r 2

С учетом полученных формул часто говорят, что для случайных величин X и Y , связанных регрессионным уравнением, величина r 2 определяет долю дисперсии случайной величины Y , линейно обусловленную изменением случайной величины X . Итак, суммарная дисперсия случайной величины Y распадается на дисперсию, линейно обусловленную наличием регрессионной связи и остаточную дисперсию , обусловленную присутствием аддитивного шума.


Рассмотрим диаграмму рассеяния двумерной случайной величины (X, Y) . При малых D[N] диаграмма рассеяния вырождается в линейную зависимость между случайными величинами, слегка искаженную аддитивным шумом (т.е. точки на диаграмме рассеяния будут в основном сосредоточены вблизи прямой X=Y ). Такой случай имеет место при значениях r , близких по модулю к единице. При уменьшении (по модулю) величины КК дисперсия шумовой составляющей N начинает давать все больший вклад в дисперсию величины Y и при малых r диаграмма рассеяния полностью теряет сходство с прямой линией. В этом случае мы имеем облако точек, рассеяние которых в основном обусловлено шумом. Именно этот случай реализуется при значимых, но малых по абсолютной величине значениях КК. Ясно, что в этом случае ни о какой корреляционной связи говорить не приходится.

Посмотрим теперь, какой вариант ответа на вопрос о "больших" и "маленьких" значениях КК предлагает нам регрессионная интерпретация КК. В первую очередь необходимо подчеркнуть, что именно дисперсия является наиболее естественной мерой рассеяния значений случайной величины. Природа этой "естественности" состоит в аддитивности дисперсии для независимых случайных величин, но это свойство имеет очень многообразные проявления, к числу которых относится и продемонстрированное выше расщепление дисперсии на линейно обусловленную и остаточную дисперсии.

Итак, величина r 2 определяет долю дисперсии величины Y , линейно обусловленную наличием регрессионной связи со случайной величиной X . Вопрос о том, какую долю линейно обусловленной дисперсии можно считать признаком наличия выраженной корреляционной связи, остается на совести исследователя. Тем не менее, становится ясно, что малые значения коэффициента корреляции (r < 0.3 ) дают настолько малую долю линейно объясненной дисперсии, что бессмысленно говорить о какой бы то ни было выраженной корреляционной связи. При r > 0.5 можно говорить о наличии заметной корреляционной связи между величинами, а при r > 0.7 корреляционная связь может рассматриваться как существенная.

КУРСОВАЯ РАБОТА

Тема: Корреляционный анализ

Введение

1. Корреляционный анализ

1.1 Понятие корреляционной связи

1.2 Общая классификация корреляционных связей

1.3 Корреляционные поля и цель их построения

1.4 Этапы корреляционного анализа

1.5 Коэффициенты корреляции

1.6 Нормированный коэффициент корреляции Браве-Пирсона

1.7 Коэффициент ранговой корреляции Спирмена

1.8 Основные свойства коэффициентов корреляции

1.9 Проверка значимости коэффициентов корреляции

1.10 Критические значения коэффициента парной корреляции

2. Планирование многофакторного эксперимента

2.1 Условие задачи

2.2 Определение центр плана (основной уровень) и уровня варьирования факторов

2.3 Построение матрицы планирования

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

2.5 Коэффициенты уравнения регрессии

2.6 Дисперсия воспроизводимости

2.7 Проверка значимости коэффициентов уравнения регрессии

2.8 Проверка адекватности уравнения регрессии

Заключение

Список литературы

ВВЕДЕНИЕ

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

Планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Рисунок 2 – Прямая корреляция

Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

Сильная, или тесная при коэффициенте корреляции r>0,70;

Средняя (при 0,50

Умеренная (при 0,30

Слабая (при 0,20

Очень слабая (при r<0,19).

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Некоторые исследователи, вычислив значение коэффициента корреляции, на этом и останавливаются. Но с точки зрения грамотной методологии эксперимента следует определить и уровень значимости (то есть степень достоверности) данного коэффициента.

Уровень значимости коэффициента корреляции вычисляется при помощи таблицы критических значений. Ниже дан фрагмент указанной таблицы, позволяющий определить уровень значимости полученного нами коэффициента.

Мы выбираем ту строку, которая соответствует объему выборки. В нашем случае n = 10. Мы выбирает в данной строке то табличное значение, которое чуть меньше эмпирического (или точно равно ему, что бывает крайне редко). Это выделенное жирным шрифтом число 0,632. Оно относится к столбцу со значением уровня достоверности p = 0,05. То есть, фактически, эмпирическое значение занимает промежуточное положение между столбцами p = 0,05 и p = 0,01, следовательно, 0,05  p  0,01. Таким образом, мы отвергаем нулевую гипотезу и приходим к выводу, что полученный результат (R xy = 0,758) значим на уровне p < 0,05 (это уровень статистической значимости): R эмп > R кр (p < 0,05) H 0 ,  Н 1 ! ст. зн.

На бытовом языке это можно проинтерпретировать следующим образом: можно ожидать, что эта сила связи будет иметь место в выборке реже, чем в пяти случаях из 100, если эта связь – следствие случайности.

    1. Регрессионный анализ

X (рост)

Y (вес)

М х = 166,6

М y = 58,3

x = 6 , 54

y = 8 , 34

Регрессионный анализ используется для изучения взаимосвязи между двумя величинами, измеренными в интервальной шкале. Этот вид анализа предусматривает построение регрессионного уравнения, позволяющего количественно описать зависимость одного признака от другого (коэффициент корреляции Пирсона указывает на наличие или отсутствие связи, но эту связь не описывает). Зная случайную величину одного из признаков и используя данное уравнение, исследователь может с определенной степенью вероятности предсказать соответствующее значение второго признака. Линейная зависимость признаков описывается уравнением следующего типа:

у = а + b y * x ,

где а - свободный член уравнения, равный подъему графика в точке х=0 относительно оси абсцисс, b – угловой коэффициент наклона линии регрессии равный тангенсу угла наклона графика к оси абсцисс (при условии, что масштаб значений на обеих осях одинаков).

Зная значения исследуемых признаков, можно определить величину свободного члена и коэффициента регрессии по следующим формулам:

а = M y b y * M x

В нашем случае:
;

а = 58,3 – 0,97 * 166,6 = -103,3

Таким образом, формула зависимости веса от роста выглядит следующим образом: у = 0,969 * х – 103,3

Соответствующий график приведен ниже.

Если необходимо описать зависимость роста от веса (х от у ), то значения а и b становятся другими и формулы необходимо соответствующим образом модифицировать:

x = а + b x * у

а = M x b x * M y

Изменяется в таком случае и вид графика.

Коэффициент регрессии находится в тесной связи с коэффициентом корреляции. Последний представляет собой среднее геометрическое из коэффициентов регрессии признаков:

Квадрат коэффициента корреляции называется коэффициентом детерминации. Его величина определяет процентное взаимное влияние переменных. В нашем случае R 2 = 0,76 2 = 0,58 . Это значит, что 58 % общей дисперсии Y объясняется влиянием переменной X, остальные 42 % обусловлены влиянием неучтенных в уравнении факторов.