10 Regresja liniowa prim, Statystyka opisowa
[ Pobierz całość w formacie PDF ]
Parametry dwuwymiarowych zmiennych losowych
Dwuwymiarowa zmienna losowa: zdarzenie elementarne mo
ż
na opisa
ć
za pomoc
ą
uporz
ą
dkowanej pary liczb (x
i
, y
i
), np. pomiary pr
ą
du i napi
ę
cia na oporniku.
Kowariancja
S
xy
=
E
{
[
X
−
E
(
X
),
Y
−
E
(
Y
)
]
}
=
cov(
X
,
Y
)
dla zmiennej losowej ci
ą
głej
S
=
+¥
−
+¥
(
x
−
Μ
)
(
y
Μ
)
f
(
x
)
dx
dy
xy
x
y
−
¥
−
¥
dla próby n-elementowej wylosowanej z populacji
S
=
1
−
n
(
x
x
)(
y
−
y
)
xy
n
i
i
i
=1
gdy S
xy
=0, to te dwie zmienne s
ą
niezale
ż
ne.
Współczynnik korelacji liniowej
R=
S
xy
S
dla populacji generalnej
S
x
y
r
=
S
xy
S
dla próby
(1)
S
x
y
Współczynnik r jest estymatorem zgodnym (ale obci
ąż
onym, E(r)¹R) współczynnika R.
Współczynnik korelacji musi by
ć
zawarty w przedziale (-1, +1). Gdy R=0, to nie zachodzi
korelacja, zmienna X nie wpływa na zmienn
ą
Y. Korelacja jest maksymalna, gdy R=±1.
Wzory do obliczania kowariancji i współczynnika korelacji liniowej
)
[
]
n
x
y
n
x
n
y
1
n
(
)(
1
n
n
n
n
i
i
i
i
1
S
=
−
x
x
y
−
y
=
x
y
−
y
x
−
x
y
+
x
y
=
i
=
1
−
y
i
=
1
−
x
=
1
+
(
n
y
)
=
xy
n
i
i
n
i
i
i
i
n
n
n
n
i
=
1
i
=
1
i
=
1
i
=
1
i
=
1
n
x
y
i
i
1
n
1
n
n
=
−
y
x
−
x
y
+
x
y
=
x
y
−
x
y
=
1
n
n
i
i
n
2
i
i
i
=
1
i
=
1
i
=
1
(2)
−
n
(
x
x
)
2
[
] [
] [
]
1
1
1
i
n
n
n
n
S
2
=
i
=
1
=
+
x
2
−
2
x
x
n
x
2
=
+
x
2
−
2
n
x
2
n
x
2
=
−
x
2
n
x
2
=
x
n
n
i
i
n
i
n
i
(3)
i
=
1
i
=
1
i
=
1
=
1
( )
=
1
n
x
2
−
1
n
x
2
n
i
n
2
i
i
=
1
i
=
1
Zatem współczynnik korelacji liniowej z próby
n
n
x
y
−
n
x
n
y
S
i
i
i
i
r
=
xy
=
i
=
1
i
=
1
=
1
( )
( )
S
2
x
S
2
y
n
n
2
n
n
2
n
x
2
i
−
x
n
y
2
i
−
y
i
i
i
=
1
i
=
1
i
=
1
=
1
Wzór powy
ż
szy otrzymuje si
ę
po podstawieniach równa
ń
(2) i (3) do (1) oraz pomno
ż
eniu
licznika i mianownika przez n
2
.
Wnioskowanie dotycz
Ą
ce korelacji
. Odpowiadamy na pytanie, czy istnieje korelacja pomi
ę
dzy
dwiema zmiennymi.
Hipoteza zerowa: H
0
: R=0 (nie ma korelacji)
Hipoteza alternatywna H
a
: |R|>0
Funkcj
ą
testow
ą
jest zmienna losowa Studenta
t
o (
n-2
) stopniach swobody
i
i
i
i
i
t
=
r
n
−
2
1
−
r
2
Z tablic rozkładu Studenta
odczytujemy – dla wcze
ś
niej
przyj
ę
tego poziomu istotno
ś
ci A -
warto
ść
krytyczn
ą
t
n-2,A
. Je
ż
eli
obliczona warto
ść
t znajduje w
dwustronnym obszarze krytycznym
(-¥, - t
n-2,A
), (t
n-2,A
, +¥), to H
0
nale
ż
y
odrzuci
ć
na korzy
ść
hipotezy H
a
0 .4 0
0 .3 5
0 .3 0
0 .2 5
0 .2 0
0 .1 5
A
/2
1 -
A
A
/2
0 .1 0
0 .0 5
0 .0 0
-3
-2
-1
0
1
2
3
-T
N ,
A
T
N ,
A
Regresja liniowa
Równanie wi
ążą
ce dwie zmienne losowe, wchodz
ą
ce w skład dwuwymiarowej zmiennej
losowej nazywa si
ę
równaniem regresji. Gdy równanie to jest liniowe, mówimy o regresji
liniowej.
Dla populacji Dla próby
y=Ax+B y=ax+b
A, B - współczynniki regresji a, b – współczynniki regresji
liniowej w populacji liniowej dla próby
Współczynnik kierunkowy prostej a i współczynnik przesuni
ę
cia b s
ą
estymatorami
współczynników A i B. Empiryczne współczynniki regresji liniowej a i b oblicza si
ę
metod
Ą
najmniejszych kwadratów.
W metodzie tej minimalizowana jest pewna funkcja S(a, b) -
zale
ż
n
ą
od współczynników a i b - b
ę
d
ą
ca sum
ą
kwadratów odchyłek punktów
do
ś
wiadczalnych od poszukiwanej prostej. Ogólne równanie na funkcj
ę
S mo
ż
na zapisa
ć
w
postaci
S
=
n
[
w
(
x
)
(
x
−
X
)
2
+
w
(
y
)
(
y
−
Y
)
2
]
i
i
i
i
i
i
i
=
1
gdzie (x
i
, y
i
) s
ą
zmierzonymi parami punktów, (X
i
, Y
i
) odpowiadaj
ą
cymi im punktami na
prostej, w(x
i
) i w(y
i
) – wagami, odpowiednio x-ow
ą
i y-ow
ą
punktu i-tego. Wagi s
ą
odwrotno
ś
ciami kwadratów niepewno
ś
ciami odpowiednich punktów pomiarowych,
zatem
w
(
x
)
1
/
(
( )
)
2
,
w
(
y
)
1
/
(
S
( )
y
)
2
i
i
i
i
(I)
Gdy y=ax+b jest
prost
Ą
regresji cechy Y wzgl
Ę
dem X
. Jest to historycznie pierwszy
rozpatrzony wariant metody dopasowania prostej do wyników eksperymentalnych (Legendre,
Laplace, Gauss). Mo
ż
na go nazwa
ć
normaln
ą
metod
ą
najmniejszych kwadratów
(ang.
normal least squares). Stosujemy ten przypadek wtedy, gdy niepewno
ś
ciami S obarczone s
ą
jedynie wielko
ś
ci y
i
, zatem X
i
=x
i
. Przyjmujemy,
ż
e wszystkie wagi s
ą
równe
1
S
. Odchyłka i-
=E . Zaznaczona jest ona
odcinkiem prostej na rysunku poni
ż
ej. Suma kwadratów S, któr
ą
minimalizujemy b
ę
dzie
y
y
−
ax
i
−
b
S = , gdzie S oznacza odchylenie standardowe. W
zale
ż
no
ś
ci od naszej wiedzy o niepewno
ś
ciach mierzonych punktów pomiarowych mo
ż
na
rozpatrzy
ć
5 przypadków wyznaczania prostej metod
ą
najmniejszych kwadratów.
x
tego punktu (x
i
, y
i
) od linii prostej b
ę
dzie równa
i
równa
=
1
n
E
2
.Aby wyznaczy
ć
współczynniki a i b ró
ż
niczkujemy S wzgl
ę
dem a i
S
2
i
=
1
wzgl
ę
dem b, a otrzymane pochodne
przyrównujemy do
20
¶
S
¶
S
zera:
=
0
=
0
. Mamy zatem
¶
a
¶
b
15
układ dwu równa
ń
z dwiema
niewiadomymi:
(
10
n
)
=
y
−
a
−
bx
0
i
i
=
n
1
5
=
(
y
−
a
−
bx
)
x
0
i
i
i
=
1
0
Rozwi
ą
zuj
ą
c ten układ równa
ń
otrzymamy
-5
0
2
4
6
8
10
X
n
n
x
y
−
n
x
n
y
n
x
n
y
−
n
x
n
x
y
2
a
=
i
i
i
i
b
=
i
i
i
i
i
=
1
( )
=
1
=
1
i
=
i
=
1
( )
1
i
=
1
n
n
2
n
n
2
n
x
−
x
n
x
−
x
2
2
i
i
i
i
i
=
1
=
1
i
=
1
i
=
1
Powy
ż
sze wzory na współczynniki a i b mo
ż
na tak
ż
e zapisa
ć
w zwi
ę
złej postaci:
a
=
r
S
y
=
S
xy
S
y
=
S
xy
b
=
y
−
a
x
S
S
S
S
S
2
x
x
y
x
x
x
.
(II) Gdy y=a’x+b’ jest
prost
Ą
regresji cechy X wzgl
Ę
dem Y
. Stosujemy ten
przypadek wtedy, gdy niepewno
ś
ciami obarczone s
ą
jedynie wielko
ś
ci x
i
. Wtedy metoda
najmniejszych kwadratów daje
nast
ę
puj
ą
ce wzory na a’ i b’:
(
y
)
20
15
10
1
S
S
2
a
'
=
y
=
y
r
S
S
5
x
xy
b
'
=
y
−
a
x
0
-5
0
2
4
6
8
10
X
(
x
. Gdy współczynnik korelacji r ma warto
ść
±1,
to proste (II) i (I) pokrywaj
ą
si
ę
. Gdy 0<|r|<1, to obie proste przecinaj
ą
si
ę
w punkcie
)
(
y
x
)
,
tworz
ą
c pewien k
ą
t mi
ę
dzy sob
ą
.
(III)
Gdy y=a’’x+b’’ jest
prost
Ą
regresji ortogonalnej
. Stosujemy ten przypadek wtedy,
gdy niepewno
ś
ciami o takiej samej wielko
ś
ci obarczone s
ą
zarówno x jak i y, jak
S
i
i
i
i
i
i
1
i
=
i
Otrzymana prosta przechodzi przez punkt
'
Tak
ż
e ta prosta przechodzi przez punkt
równie
ż
i wtedy, gdy niepewno
ś
ci nie s
ą
znane. Model ten nazywany jest tak
ż
e
modelem standardowym z wagami
(ang. standard weighting model). Zakładamy,
ż
e wagi w funkcji S s
ą
wszystkie takie same i równe jedno
ś
ci. Odchyłk
ą
E jest w
tym przypadku odcinek prostopadły do
linii prostej (rysunek obok), zatem
20
E
=
E
y
+
i minimalizowana suma
1
a
15
2
(
y
−
ax
−
b
)
2
kwadratów
S
=
n
i
i
.
10
1
+
a
2
i
=
1
Metoda najmniejszych kwadratów
daje nast
ę
puj
ą
ce wzory na a’’ i b’’:
5
0
-5
S
2
−
S
2
+
(
S
2
−
S
2
)
2
+
4
S
2
0
2
4
6
8
10
a
'
'
=
y
x
y
x
xy
X
2
S
xy
b
'
'
=
y
−
a
'
'
x
(IV)
Model standardowy z niezale
ż
nymi wagami
W modelu tym (ang. standard independent weighting model) niepewno
ś
ci wyst
ę
puj
ą
zarówno
dla x
i
jak i dla y
i
. Wszystkie niepewno
ś
ci x-owe s
ą
takie same, tzn. w(x
i
)=w
1
, a tak
ż
e
wszystkie niepewno
ś
ci y-owe s
ą
równe, tzn. w(y
i
)=w
2
. Dla ka
ż
dego punktu pomiarowego (x
i
,
y
i
) wprowadzamy efektywn
ą
wag
ę
(tak
ą
sam
ą
), zdefiniowan
ą
nast
ę
puj
ą
co
w
=
w
1
w
2
w
+
a
2
w
1
2
co spowoduje,
ż
e funkcja sumy kwadratów S przyjmie posta
ć
S
(
a
,
b
)
=
w
n
(
y
−
ax
−
b
)
.
i
i
=
1
Przyrównanie pochodnych cz
ą
stkowych tej funkcji do zera daje nam dwa równani, z których
mo
ż
na obliczy
ć
współczynniki a i b;
( )
( )
( )
( )
2
1
/
2
2
2
2
2
2
n
2
n
2
n
2
n
w
n
y
−
y
+
w
x
−
n
x
w
n
y
−
y
+
w
x
−
n
x
2
2
2
2
w
2
i
i
1
i
i
2
i
i
1
i
i
a
=
i
=
1
[
i
=
1
=
1
]
=
1
±
=
1
[
i
=
1
=
1
]
=
1
+
1
n
n
n
n
n
n
w
2
w
n
x
y
−
x
y
2
w
n
x
y
−
x
y
2
i
i
i
i
2
i
i
i
i
2
i
=
1
i
=
1
=
1
=
1
=
1
=
1
n
y
−
a
n
x
i
i
b
=
i
=
1
i
=
1
n
Równanie na współczynnik a daje dwie warto
ś
ci; jedna (wła
ś
ciwa) odpowiada minimum
funkcji S, druga odpowiada maksimum funkcji S dla dowolnej linii prostej przechodz
ą
cej
przez punkt
(
y
x
,
)
.
(V)
Model z niezale
ż
nymi wagami
W modelu tym nierównymi niepewno
ś
ciami obarczone s
ą
x
i
i y
i
. Wprowad
ź
my efektywn
ą
wag
ę
i-tego punktu
i
i
i
i
i
i
i
i
i
i
w
=
w
(
x
i
)
w
(
y
i
)
i
w
(
x
)
+
a
2
w
(
y
)
i
i
Wtedy funkcja S przyjmie posta
ć
−
(
a
,
b
)
=
n
w
(
y
−
b
ax
)
i
i
i
=
1
Przyrównanie pochodnych cz
ą
stkowych tej funkcji do zera daje nam dwa równani, z których
współczynników a i b nie mo
ż
na wyznaczy
ć
analitycznie, a jedynie metod
ą
iteracji.
S
i
[ Pobierz całość w formacie PDF ]