Главная » Учебно-методические материалы » ВЫСШАЯ МАТЕМАТИКА, ТВ и МС, МАТ. МЕТОДЫ » Теория вероятности |
22.12.2011, 13:21 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Условимся обозначить через Х независимую переменную, а через Y зависимую переменную. 4.1. Линейная парная регрессия Пусть функция регрессии линейная, т.е. М(Y/Х=х)=α+βх. Найдем оценки а и b параметров α и β.
Решение. Экспериментальные данные изобразим в виде точек в системе декартовых координат. Ломаная линия, соединяющая эти точки, называется эмпирической линией регрессии. По виду ломанной можно предположить наличие корреляционной зависимости Y по Х между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки (рис.4.1). Рис. 4.1 Составим расчетную таблицу 4.1. Таблица 4.1
` х =7,4375, ` у =7,6875 Найдем искомые параметры, для чего подставим вычисленные по таблице суммы в соотношения (4.2): а = (61,5 × 541,75 – 510,25 ×59,50)/ (8 ×541,75 – 3540,25) = 3,73, b = (8 × 510,25 – 59,50 × 61,50)/ (8 ×541,75 – 3540,25) = 0,53. Таким образом, уравнение регрессии имеет вид . Прямая, построенная по этому уравнению, показана на рис. 4.2 вместе с исходными данными. Эта прямая является наилучшей линейной оценкой уравнения регрессии, полученной по имеющимся данным. Но это не означает, что нельзя построить оценку регрессии в виде какой-то другой зависимости (нелинейной), которая будет лучше соответствовать экспериментальным данным, чем прямая линия. Рис. 4.2 Построенная таким образом линия регрессии позволяет с некоторой вероятностью не только предсказать в интервале от х=1,5 до х=12,5 любые значения функции у при отсутствующих в табл. 4.1 значениях фактора х, но и за пределами данного интервала. Составленное уравнение регрессии можно проверить на точность зависимости между переменными (х, у) по коэффициенту точности выравнивания линии r1, отражающему степень приближения расчетных данных к фактическим значениям эмпирического ряда. Этот коэффициент определяется следующим образом: , ( 4.3) где – отклонение индивидуальных вариант от общего среднего арифметического по y; – отклонение индивидуальных экспериментальных вариант по y от расчетных по уравнению. Составим таблицу расчета данных для определения коэффициента точности выравнивания линии. Таблица 4.2
`у = 7,6875 На основании исходных данных, полученных в табл. 4.2, используя формулу (4.3), имеем Принято считать: если r1>0,95, то уравнение регрессии адекватно отражает существующую связь. При r1<0,95 необходимо найти другую математическую зависимость между признаками. В приведенном примере r1=0,87<0,95, поэтому следует подобрать другую математическую зависимость. Критерий оценки r1на точность выравнивания линии уравнения регрессии используется и для других форм регрессионной зависимости. Проверку адекватности линейной модели можно провести по графику остатков: , где уi – измеренные значения, соответствующие значениям xi; ỹi – значения функции регрессии при х=хi. Если остатки diсконцентрированы в горизонтальной полосе вдоль оси абсцисс, то линейную модель можно считать адекватной. Если зона, где расположены остатки, расширяется, это означает, что дисперсии неодинаковы при различных значениях хi. Это требует изменения регрессионной модели. Если остатки имеют тенденцию закономерно изменяться, то не учтены какие-то факторы, существенно влияющие на связь между величинами Y и х. В этом случае также нужно изменить модель и ввести неучтенные факторы. В заключение построим график остатков для предыдущего примера. Для этого используем столбцы уiи yi–ỹiтабл.4.2. Этот график приведен на рис.4.3. Рис. 4.3 Как следует из рис. 4.3, зона, где расположены остатки, расширяется, поэтому следует подобрать другую математическую зависимость. Такие же выводы получены при проверке на точность зависимости между переменными по коэффициенту точности выравнивания линии r1. 4.2. Выборочный коэффициент корреляции Если зависимость между признаками на графике указывает на линейную корреляцию, рассчитывают коэффициент корреляции r, который позволяет оценить тесноту связи переменных величин, а также выяснить, какая доля изменений признака обусловлена влиянием основного признака, какая – влиянием других факторов. Коэффициент варьирует в пределах от –1 до +1. Если r=0, то связь между признаками отсутствует. Равенство r=0 говорит лишь об отсутствии линейной корреляционной зависимости, но не вообще об отсутствии корреляционной, а тем более статистической зависимости. Если r = ±1, то это означает наличие полной (функциональной) связи. При этом все наблюдаемые значения располагаются на линии регрессии, которая представляет собой прямую.
x= 7,4375, `у = 7,6875 . Выборочный коэффициент корреляции r является оценкой коэффициента корреляции rггенеральной совокупности. Допустим, что выборочный коэффициент оказался отличным от нуля. Так как выборка отобрана случайно, то еще нельзя заключить, что коэффициент корреляции генеральной совокупности rг также отличен отнуля. В конечном счете нас интересует именно этот коэффициент, поэтому возникает необходимость проверить гипотезу о значимости (существенности) выборочного коэффициента корреляции (или, что то же, о равенстве нулю коэффициента корреляции генеральной совокупности). Для того чтобы при заданном уровне значимости a проверить нулевую гипотезу Ho: rг = 0 о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1:rг ≠ 0, надо вычислить наблюдаемое значение критерия: и по таблице П.6. критических точек распределения Стьюдента, по заданному уровню значимости и числу степеней свободы ν = n-2 найти критическую точку tкр( a, ν) для двухсторонней критической области. Если ½tнабл ½ < tкр – нет оснований отвергнуть нулевую гипотезу. Если ½tнабл ½ >tкр – нулевую гипотезу отвергают. Для данного примера найдем наблюдаемое значение критерия: . Поскольку tнабл=4,32 >tкр = 2,45 при ν= 6 и a= 0,05, то нулевую гипотезу отвергаем. Другими словами, выборочный коэффициент корреляции значимо отличается от нуля, т.е. Х и Y коррелированны. Подобный способ оценки значимости коэффициента корреляции не является безукоризненным, особенно если оцениваемый коэффициент корреляции по абсолютной величине близок к единице. Более правильную оценку значимости rг можно получить, если воспользоваться преобразованием Z, предложенным Р.А. Фишером, где (Z=f(r) см. в таблице П 9). Критерий проверки гипотезы сводится к вычислению наблюдаемого значения: и сравнению полученного tнабл с tкр(α, ∞). При tнабл ≥ tкр можно утверждать (с риском ошибиться в 100 × a % случаев), что связь имеется (rг ≠ 0). К примеру, для r= 0,87, согласно таблице П.9, Z = 1,3331. При n= 8 , что больше tкр(0,05, ∞)=1,96, поэтому можно считать коэффициент корреляции статистически значимым (т.е. можно утверждать, что rг ≠ 0). Использование преобразования Z дает возможность корректного получения интервальной оценки rг . Для этого сначала находятся доверительные границы для среднего значения M( Z): (tкр берется для ν= ∞). Затем, прибегая к помощи таблицы П.10, можно найти те значения r, которые соответствуют нижней и верхней границам для M(Z). Так для нашего примера получим (n=8; r = 0,87; Z= 1,3331; α=0,05): , т.е. 0,40 <M(Z)<2,15 Обращаясь к таблице П.10, найдем, что доверительные границы коэффициента корреляции оказываются равнымиr0,05 = 0,38÷ 0,97. Все операции по проверке значимости коэффициента корреляции можно упростить, заранее вычислив для различных абсолютных значений оценок r минимальные объемы корреляционных рядов, обеспечивающих возможность утверждать с уровнем значимости α, что rг ≠ 0, т.е. утверждения наличия линейной связи (таблица П.9). Та же таблица может служить для оценки необходимого и достаточного числа повторностей nα , чтобы при ожидаемой величине r коэффициента корреляции можно было утверждать, что связь есть (rг ≠ 0) при заданном уровне значимости α. Так, воспользовавшись таблицей П.9, мы обнаружим, что коэффициент корреляции, оценка которого равна 0,87, можно считать статистически значимым с α= 0,05, если n, по крайней мере, равно 6. У нас повторяемостьn=8, что больше 6, следовательно, коэффициент корреляции значим. И минимальная повторяемость, которая может обеспечить значимость коэффициента корреляции при r = 0,87, есть n0,05 = 6, что следует иметь в виду, если опыт планируется повторить. | http://math.immf.ru/ |