Regresión e correlación

O obxectivo deste capítulo é tratar de establece-la dependencia dunhas variables aleatorias con outras. En principio asumiremos que un determinado efecto se pode explicar mediante unhas causas e un erro. Asumiremos que temos dúas variables aleatorias $X$ e $Y$. O obxectivo é atopar unha función $f$ tal que $Y=f(X)+\epsilon$. Así, a $Y$ chámaselle resposta, a $f$ a explicación, e $\epsilon$ é o erro.

O seguinte gráfico amosa tres nubes de puntos distintas obtidas despois de tomar unha mostra aleatoria de dúas variables $X$ e $Y$. No primeiro caso é evidente que non existe moita relación entre as dúas variables. No segundo caso parece que as variables están bastante relacionadas, e salvo un pequeno erro, dá a impresión de que $Y$ se explica como dependente de $X$ a través dunha ecuación polinómica. Finalmente, a terceira nube de puntos semella que se axusta a unha recta, aínda que o erro cometido é considerablemente máis grande ca no segundo exemplo.

Nos dous últimos debuxos anteriores, é claro que existe unha dependencia (máis ou menos forte) entre $X$ e $Y$. O obxectivo dun modelo de regresión é:

Coñecer de que xeito a variable $Y$ depende de $X$. Isto é o que se chama construír un modelo de regresión.
Unha vez construído o modelo de regresión, empregar este para determina-lo valor de $Y$ cando o valor de $X$ é coñecido.

Neste capítulo consideraremos soamente o caso do modelo de regresión linear simple, que é aquel no que as variables $X$ e $Y$ son unidimensionais (como habitualmente), e que $Y$ se explica a partir de $X$ mediante a ecuación dunha recta (coma no terceiro debuxo). Tamén se tratarán outros modelos que se reducen facilmente do de regresión linear.

Regresión linear

Sexan $X$ e $Y$ dúas variables aleatorias. O modelo de regresión linear consiste en atopa-la recta $y=\alpha+\beta x$ que minimiza \[ E\bigl[(Y-(\alpha+\beta X))^2\bigr], \] onde o que se trata é de atopar $\alpha$ e $\beta$.

Non é difícil ver que estes dous valores se poden calcular simplemente derivando a anterior expresión con respecto de $\alpha$ e de $\beta$ e igualando a cero. (Analogamente a como se fai para calcula-lo mínimo dunha función, pero con dúas variables.) Esta recta chámase a recta de regresión mínimo-cuadrática, porque na práctica se obtén despois de minimiza-la distancia cuadrática media dos puntos dunha mostra a dita recta.

Despois de face-los cálculos resulta que a ecuación da recta buscada é \[ Y-\mu_Y=\frac{\sigma_{XY}}{\sigma_X^2}(X-\mu_X)+\epsilon, \] onde

$\mu_X=E[X]$ é a media de $X$,
$\mu_Y=E[Y]$ é a media de $Y$,
$\sigma_X^2=E[(X-\mu_X)^2]$ é a varianza de $X$,
$\sigma_Y^2=E[(Y-\mu_Y)^2]$ é a varianza de $Y$,
$\sigma_{XY}=E[(X-\mu_X)(Y-\mu_Y)]=E[XY]-E[X]E[Y]$ é a covarianza entre $X$ e $Y$,
$\epsilon$ é unha variable aleatoria que representa o erro cometido.

É consecuencia da construción do modelo que o erro ten media cero $\mu_\epsilon=E[\epsilon]=0$, e que a súa varianza $\sigma_\epsilon^2=V[\epsilon]$ é mínima.

Defínese o coeficiente de correlación de Pearson coma o cociente \[ \rho=\frac{\sigma_{XY}}{\sigma_X \sigma_Y}, \] que satisfai $-1\leq\rho\leq 1$, e dá unha idea do bo que é o axuste.

Estimación dos valores

Na práctica as variables aleatorias $X$ e $Y$ non son coñecidas e son estimadas por valores concretos $(x_1,y_1),\dots,(x_n,y_n)$ dunha mostra.

Distancia vertical entre a recta de regresión e un punto da mostra.

Para estima-lo modelo regresión linear tratamos de minimiza-la distancia cadrática media dos puntos da mostra á recta de regresión. Por iso, o modelo de regresión linear estímase como \[ Y-\overline{y}=\frac{s_{XY}}{s_X^2}(X-\overline{x})+\epsilon, \] onde agora \[ \begin{aligned} \overline{x}&{}=\frac{1}{n}\sum_{i=1}^n x_i,\\ \overline{y}&{}=\frac{1}{n}\sum_{i=1}^n y_i,\\ s_X^2&{}=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 =\frac{1}{n}\sum_{i=1}^n x_i^2-\overline{x}^2,\\ s_Y^2&{}=\frac{1}{n}\sum_{i=1}^n(y_i-\overline{y})^2 =\frac{1}{n}\sum_{i=1}^n y_i^2-\overline{y}^2,\\ s_{XY}&{}=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y}) =\frac{1}{n}\sum_{i=1}^n x_i y_i-\overline{x}\,\overline{y}. \end{aligned} \]

Unha estimación equivalente para a recta de regresión é: \[ Y=a+bX+\epsilon, \] onde \[ \begin{aligned} b&{}=\hat{\beta}=\frac{s_{XY}}{s_X^2},\\ a&{}=\hat{\alpha}=\overline{y}-b\,\overline{x}. \end{aligned} \]

Nótese que esta recta de regresión sempre pasa por $(\overline{x},\overline{y})$.

Covarianza e correlación

A covarianza é a forma máis común de medi-la relación linear entre dúas variables. Para datos concretos recordemos que se estima por \[ \begin{aligned} s_{XY}&{}=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})\\ &{}=\frac{1}{n}\sum_{i=1}^n x_i y_i-\overline{x}\,\overline{y}. \end{aligned} \]

A covarianza non se ve afectada por cambios de posición, pero si de escala. De feito, \[ s_{aX+b,\,cY+d}=ac\, s_{XY}. \]

Para obter unha medida da relación linear entre dúas variables que non dependa da escala introduciuse o coeficiente de correlación, que para datos concretos se estima mediante \[ r=\frac{s_{XY}}{s_X s_Y}. \]

Unha versión equivalente, pero máis estable numericamente, é \[ r=\frac{\displaystyle n\sum_{i=1}^n x_i y_i-\Bigl(\sum_{i=1}^n x_i\Bigr)\Bigl(\sum_{i=1}^n y_i\Bigr)} {\sqrt{\displaystyle n\sum_{i=1}^n x_i^2-\Bigl(\sum_{i=1}^n x_i\Bigr)^2}\, \sqrt{\displaystyle n\sum_{i=1}^n y_i^2-\Bigl(\sum_{i=1}^n y_i\Bigr)^2}}. \]

O coeficiente de correlación satisfai as seguintes propiedades:

O coeficiente de correlación ten o mesmo signo cá pendente da recta de regresión.
$-1\leq r\leq 1$; valores próximos a $0$ indican que o axuste é malo, valores próximos a $1$ indican que o axuste é bo e que a relación é crecente, mentres que valores próximos a $-1$ indican que o axuste é bo e que a relación é decrecente.

Un rango de valores para a bondade do axuste en función de $r$ pode se-lo seguinte:

Algúns exemplos de coeficientes de correlación poden verse na táboa adxunta.

Coeficiente de correlación e calidade do axuste

Os seguintes datos correspóndense co tempo transcorrido e a velocidade de caída dun obxecto:

tempo	velocidade
1	20.52
2	29.14
3	36.76
4	47.80
5	58.72

Calcula-la recta de regresión e dar unha aproximación da aceleración da gravidade. ¿Como de bo é o axuste?

Temos dúas variables que chamaremos $t$ (tempo) e $v$ (velocidade). En primeiro lugar dispoñémo-los cálculos:

	$t$	$v$	$t^2$	$tv$	$v^2$
	1.	20.52	1.	20.52	421.07
	2.	29.14	4.	58.28	849.14
	3.	36.76	9.	110.28	1351.30
	4.	47.80	16.	191.20	2284.84
	5.	58.72	25.	293.60	3448.04
$\Sigma$	15.	192.94	55.	673.88	8354.39

Entón \[ \begin{aligned} \overline{t} &{}=\frac{15.}{5}=3.0,\\ \overline{v} &{}=\frac{192.94}{5}=38.59,\\ s_t^2 &{}=\frac{55.}{5}-3^2=2.0,\\ s_v^2 &{}=\frac{8354.39}{5}-38.59^2=181.84,\\ s_{tv} &{}=\frac{673.88}{5}-3\cdot 38.59=19.01, \end{aligned} \] co que, substituíndo na fórmula, obtémo-la recta de regresión $v-38.59=\frac{19.01}{2}(t-3)$, ou ben, como $b=19.01/2.0=9.51$ e $a=38.59-9.51\cdot 3.0=10.07$, que \[ v=10.07+9.51t, \] de onde ademais se deduce que, en vista do resultado coñecido de física $v=v_0+gt$, que $g=9.51$ é unha aproximación da aceleración da gravidade.

Finalmente calculámo-lo coeficiente de correlación: \[ r=\frac{19.01}{\sqrt{2}\sqrt{181.84}}=0.997, \] o cal quere dicir que o axuste é bo.

Regresión exponencial

O procedemento para calcular unha regresión linear pode ser empregado tamén noutros contextos simplemente facendo un pequeno cambio de variable. Por exemplo, supoñamos que temos dúas variables aleatorias $Z$ e $T$, e cremos que $Z$ se explica a partir de $T$ a través dunha fórmula exponencial: \[ Z=z_0\, e^{-kT}, \] onde $z_0$ e $k$ son os parámetros que queremos determinar. Entón, tomando logaritmos (neperianos) \[ \begin{aligned} \log Z &{}=\log\bigl(z_0 e^{-kT}\bigr) =\log z_0-kT. \end{aligned} \] Chamando $Y=\log Z$, $X=T$, $b=-k$, $a=\log z_0$, estamos exactamente na situación $Y=a+bX$ do principio. Por tanto, este tipo de axuste exponencial redúcese a un axuste linear, que xa sabemos resolver.

Inxectamos por vía intravenosa $125mg$ dun medicamento. Témo-las seguintes concentracións plasmáticas a medida que pasa o tempo:

tempo	concentración
1	5.0
2	3.0
3	2.0
4	1.5

Queremos estima-la curva exponencial da concentración de medicamento en sangue.

É sabido que a evolución da concentración teórica $C$ dun medicamento en sangue ó longo do tempo $t$ segue unha curva exponencial $C=c_0\,e^{-kt}$. Despois de tomar logaritmos neperianos temos $\log C=\log c_0-k t$, así que para calcula-la recta de regresión destes datos organizámo-los cálculos do seguinte xeito:

	$X=t$	$C$	$Y=\log C$	$X^2$	$XY$	$Y^2$
	1.	5.0	1.61	1.	1.61	1.59
	2.	3.0	1.10	4.0	2.20	1.21
	3.	2.0	0.69	9.0	2.08	0.48
	4.	1.5	0.41	16.0	1.62	0.16
$\Sigma$	10.	11.5	3.81	30.0	7.51	4.44

Entón \[ \begin{aligned} \overline{X} &{}=\frac{10.}{4}=2.5,\\ \overline{Y} &{}=\frac{3.81}{4}=0.95,\\ s_X^2 &{}=\frac{30.0}{4}-2.5^2=1.25,\\ s_Y^2 &{}=\frac{4.44}{4}-0.95^2=0.20,\\ s_{XY} &{}=\frac{7.51}{4}-2.5\cdot 0.95=-0.50, \end{aligned} \] co que, substituíndo na fórmula, obtémo-la recta de regresión: \[ Y-0.95=-\frac{0.50}{1.25}(X-2.5). \] Equivalentemente, obtense $b=-0.50/1.25=-0.40$, $a=0.95+0.40\cdot 2.5=1.96$, de onde se deduce $Y=1.96-0.40 X$, ou $\log C=1.96-0.40t$. Desfacendo o cambio de variable obtemos \[ C=7.07e^{-0.40t}. \]

Pódese ver ademais que o coeficiente de correlación é \[ r=\frac{-0.50}{\sqrt{1.25}\sqrt{0.20}}=-0.992, \] o que, ademais dun bo axuste, indica que a variable $Y$ (ou a concentración $C$) decrece en función do tempo.

Regresión potencial

A regresión potencial é un caso bastante parecido ó da regresión exponencial. Neste caso hai dúas variables $P$ e $A$ que están relacionadas mediante a fórmula \[ P=\alpha A^\beta. \] Para resolver isto, tomamos coma na sección anterior logaritmos e obtemos \[ \log P=\log\bigl(\alpha A^\beta\bigr) =\log \alpha+\beta\log A. \] Así, chamando $Y=\log P$ e $X=\log A$ volvemos estar nun caso de axuste linear, que xa vimos como se resolve.

Análise da varianza

O obxectivo desta sección é estudar con máis profundidade se o modelo de regresión construído é correcto e útil. Para iso imos empregar un método coñecido como ANOVA (analysis of variance).

En primeiro lugar recordamos que $Y=\alpha+\beta X+\epsilon$, onde $\hat{Y}=\alpha+\beta X$ será a estimación dada pola recta de regresión, e $\epsilon=Y-\hat{Y}$ é o erro. Un cálculo non trivial amosa que as varianzas están relacionadas mediante \[ \sigma_Y^2=\sigma_{\hat{Y}}^2+\sigma_\epsilon^2. \] Isto significa que a variabilidade da variable dependente $Y$, $\sigma_Y^2$, se descompón como

A variabilidade explicada, $\sigma_{\hat{Y}}^2$, que é aquela que se pode explicar en base ó modelo de regresión. De feito, como $\hat{Y}=\alpha+\beta X$, entón $\sigma_{\hat{Y}}^2=\beta^2\sigma_X^2$.
A variabilidade residual, $\sigma_\epsilon^2$, que é a que non explica o modelo de regresión.

Chámase coeficiente de determinación á proporción entre a variabilidade explicada e a variabilidade da variable dependente. Por tanto, \[ \frac{\sigma_{\hat{Y}}^2}{\sigma_Y^2}=\frac{\beta^2\sigma_X^2}{\sigma_Y^2} =\frac{\sigma_{XY}^2}{\sigma_X^2\sigma_Y^2}=\rho^2, \] que é o cadrado do coeficiente de correlación. Por tanto, $0\leq \rho^2\leq 1$.

Como xa sucedía co coeficiente de correlación, se $\rho^2=1$ (é dicir, se $\rho=\pm 1$) entón o axuste é perfecto. Valores de $\rho^2$ próximos a $1$ significan que o axuste é bo, mentres que valores próximos a $0$ indican un axuste malo.

Ademais, das fórmulas anteriores temos que \[ \begin{aligned} \sigma_{\hat{Y}}^2 &{}=\rho^2 \sigma_Y^2,\\[1ex] \sigma_\epsilon^2 &{}=\sigma_Y^2-\sigma_{\hat{Y}}^2 =\sigma_Y^2-\rho^2\sigma_Y^2=(1-\rho^2)\sigma_Y^2. \end{aligned} \]

ANOVA

En realidade, os cálculos da sección anterior son teóricos, porque en xeral as distribucións $X$ e $Y$ non son coñecidas. Na práctica tómase unha mostra e utilízanse as estimacións escritas con anterioridade.

$Y\mid X=x_i$ está normalmente distribuída

Para continuar supoñamos que estamos traballando con $n$ valores específicos $x_1,\dots,x_n$. Por tanto, os valores da variable explicativa están fixados polo experimentador e non son aleatorios. Só é aleatorio o erro, e en consecuencia a variable resposta. Unha mostra resultante deste tipo de experimento (chamado de deseño fixo), é do tipo $(x_1,Y_1),\dots,(x_n,Y_n)$. Asumimos que as variables aleatorias $Y\mid X=x_1,\dots,Y\mid X=x_n$ seguen distribucións normais independentes coa mesma varianza $\sigma^2$. Se a regresión linear é válida, as medias destas variables están xustamente en $a+bx_i$, é dicir, $(Y\mid X=x_i)\sim N(a+bx_i,\sigma)$.

O valor $\hat{Y}_i$ será o valor predecido pola estimación do modelo, é dicir, $\hat{Y}_i=a+bx_i$. Nótese en particular que $\overline{\hat{Y}}=\overline{Y}=a+b\overline{x}$.

Así, despois de multiplicar por $n$, a variabilidade é estimada mediante \[ \sum_{i=1}^n(Y_i-\overline{Y})^2= \sum_{i=1}^n(\hat{Y}_i-\overline{Y})^2+\sum_{i=1}^n(Y_i-\hat{Y}_i)^2. \] Se agora denotamos \[ \begin{aligned} SS_Y&{}=\sum_{i=1}^n(Y_i-\overline{Y})^2,\\ SS_R&{}=\sum_{i=1}^n(\hat{Y}_i-\overline{Y})^2=b^2\sum_{i=1}^n(x_i-\overline{x})^2,\\ SS_E&{}=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2, \end{aligned} \] entón, a expresión anterior pode escribirse como

$SS_Y$	=	$SS_R$	+	$SS_E$
(variabilidade total)		(variabilidade debida á regresión)		(variabilidade non explicada)

As fórmulas anteriores refírense ás "sumas de cadrados". Se en lugar diso querémo-las varianzas, simplemente hai que dividir polo tamaño mostral $n$: \[ \begin{aligned} s_Y^2&{}=\frac{1}{n}SS_Y,& s_{R}^2&{}=\frac{1}{n}SS_R,& s_E^2&{}=\frac{1}{n}SS_E.\\ \end{aligned} \] Estas cantidades son unha estimación das varianzas teóricas obtidas no apartado anterior. Por outra banda, o coeficiente de determinación estímase mediante $r^2$, de xeito que temos \[ r^2=\frac{s_R^2}{s_Y^2}=\frac{SS_R}{SS_Y}. \] Así, a estimación do coeficiente de determinación $r^2$ interprétase como a proporción da variabilidade da variable aleatoria $Y$ que é explicada por $X$ mediante o modelo de regresión.

Esta técnica de análise da varianza utilízase para comprobar se unha liña recta mostra unha cantidade significativa de variabilidade observada de $Y$. Se o suposto é que a regresión é válida, entón o que terá que suceder é que a maior parte da variabilidade terá que ser explicada por $SS_R$, sendo a parte non explicada pequena.

Obsérvese agora a equivalencia das seguintes condicións \[ \beta=0\Leftrightarrow\rho=0, \] é dicir, toda a variabilidade é aleatoria (non explicada), e por tanto non hai regresión linear. Así pois, o test que temos que facer para comproba-la validez do modelo é \[ \begin{aligned} H_0\colon\, &\rho=0,& H_1\colon\, &\rho\neq 0. \end{aligned} \]

Baixo as hipóteses anteriores, este contraste emprega dous estatísticos que pasamos a describir a continuación. En primeiro lugar, para $SS_Y$ hai $n$ datos e un valor estimado, $\overline{Y}$, o que deixa $n-1$ graos de liberdade.

Para $SS_E$ hai $n$ datos, pero dous valores estimados, $a$ e $b$, o que nos deixa $n-2$ graos de liberdade. Así, empregamos como estatístico o cadrado medio do erro: $\displaystyle MS_E=\frac{SS_E}{n-2}$.
Iso significa que para $SS_R$ queda un só grao de liberdade. O estatístico empregado é pois o cadrado medio da regresión: $\displaystyle MS_R=\frac{SS_R}{1}$.

No suposto de que a hipótese nula sexa certa, o estatístico \[ \frac{MS_R}{MS_E} =\frac{\sum_{i=1}^n(\hat{Y}_i-\overline{Y})^2}{\sum_{i=1}^n(Y_i-\hat{Y}_i)^2/(n-2)} \sim F_{1,\,n-2} \] segue unha distribución $F$ de Snedecor con $(1,n-2)$ graos de liberdade.

Se a hipótese nula é certa, o valor observado no estatístico estará próximo a 1. Noutro caso será moito maior e rexeitarase a hipótese nula se o valor é demasiado grande. Trátase por tanto de facer un contraste unilateral dereito.

Os cálculos necesarios para empregar ANOVA á hora de contrastar $H_0\colon\rho=0$ (non hai regresión linear), dispóñense nunha táboa como a seguinte:

variabilidade	g.l.	$SS$	$MS$	cociente
regresión	$1$	$\displaystyle SS_R=\sum_{i=1}^n(\hat{Y}_i-\overline{Y})^2=n r^2 s_Y^2$	$\displaystyle MS_R=\frac{SS_R}{1}$	$\displaystyle F_{1,\,n-2}=\frac{MS_R}{MS_E}$
erro	$n-2$	$\displaystyle SS_E=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2=n(1-r^2)s_Y^2$	$\displaystyle MS_E=\frac{SS_E}{n-2}$
total	$n-1$	$\displaystyle SS_Y=\sum_{i=1}^n(Y_i-\overline{Y})^2=ns_Y^2$

Cando, despois de face-lo anterior contraste de hipóteses, cheguemos á conclusión de que se rexeita a hipótese nula $H_0$, iso quererá dicir que unha parte significativa da variabilidade de $Y$ se pode explicar mediante o modelo de regresión linear. Iso non quere dicir que o modelo linear sexa o mellor para explicar dita variabilidade, senón que é razoable emprega-lo modelo para explicala.

Realízase un experimento para estuda-la relación entre a altura e a lonxitude da cuncha de Patelloida pygmaea (en mm). Téñense os seguinte datos:

altura	lonxitude	altura	lonxitude	altura	lonxitude	altura	lonxitude
0.9	3.1	1.9	5.0	2.1	5.6	2.3	5.8
1.5	3.6	1.9	5.3	2.1	5.7	2.3	6.2
1.6	4.3	1.9	5.7	2.1	5.8	2.3	6.3
1.7	4.7	2.0	4.4	2.2	5.2	2.3	6.4
1.7	5.5	2.0	5.2	2.2	5.3	2.4	6.4
1.8	5.7	2.0	5.3	2.2	5.6	2.4	6.3
1.8	5.2	2.1	5.4	2.2	5.8	2.7	6.3

altura	lonxitude
0.9	3.1
1.5	3.6
1.6	4.3
1.7	4.7
1.7	5.5
1.8	5.7
1.8	5.2
1.9	5.0
1.9	5.3
1.9	5.7
2.0	4.4
2.0	5.2
2.0	5.3
2.1	5.4
2.1	5.6
2.1	5.7
2.1	5.8
2.2	5.2
2.2	5.3
2.2	5.6
2.2	5.8
2.3	5.8
2.3	6.2
2.3	6.3
2.3	6.4
2.4	6.4
2.4	6.3
2.7	6.3

Estima-la recta de regresión da lonxitude como función da altura. Calcula-lo coeficiente de determinación e interpreta-lo seu valor. ¿Hay evidencia estatística de que o modelo de regresión linear é válido?

Chamemos $X$ á altura e $Y$ á lonxitude. Organizámo-los cálculos nunha táboa.

	$X$	$Y$	$X^2$	$XY$	$Y^2$
	0.90	3.10	0.81	2.79	9.61
	1.50	3.60	2.25	5.40	12.96
	1.60	4.30	2.56	6.88	18.49
	1.70	4.70	2.89	7.99	22.09
	1.70	5.50	2.89	9.35	30.25
	1.80	5.70	3.24	10.26	32.49
	1.80	5.20	3.24	9.36	27.04
	1.90	5.00	3.61	9.50	25.00
	1.90	5.30	3.61	10.07	28.09
	1.90	5.70	3.61	10.83	32.49
	2.00	4.40	4.00	8.80	19.36
	2.00	5.20	4.00	10.40	27.04
	2.00	5.30	4.00	10.60	28.09
	2.10	5.40	4.41	11.34	29.16
	2.10	5.60	4.41	11.76	31.36
	2.10	5.70	4.41	11.97	32.49
	2.10	5.80	4.41	12.18	33.64
	2.20	5.20	4.84	11.44	27.04
	2.20	5.30	4.84	11.66	28.09
	2.20	5.60	4.84	12.32	31.36
	2.20	5.80	4.84	12.76	33.64
	2.30	5.80	5.29	13.34	33.64
	2.30	6.20	5.29	14.26	38.44
	2.30	6.30	5.29	14.49	39.69
	2.30	6.40	5.29	14.72	40.96
	2.40	6.40	5.76	15.36	40.96
	2.40	6.30	5.76	15.12	39.69
	2.70	6.30	7.29	17.01	39.69
$\Sigma$	56.60	151.10	117.68	311.96	832.85

Entón temos $n=28$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{56.6}{28}=2.021,\\ \overline{Y} &{}=\frac{151.10}{28}=5.396,\\ s_X^2 &{}=\frac{117.68}{28}-2.021^2=0.117,\\ s_Y^2 &{}=\frac{832.85}{28}-5.396^2=0.623,\\ s_{XY} &{}=\frac{311.96}{28}-2.021\cdot 5.396=0.233. \end{aligned} \] Obtemos $b=0.233/0.117=1.996$ e $a=5.396-1.996\cdot 2.020=1.361$ co que a ecuación da recta de regresión é \[ y -5.396 = 1.996 (x -2.0214), \] ou ben, \[ y = 1.361 + 1.996 x. \]

A estimación do coeficiente de correlación é \[ r=\frac{0.233}{\sqrt{0.117\cdot 0.623}}=0.8638, \] de xeito que a calidade da aproximación parece moderada.

A estimación do coeficiente de determinación é $r^2=0.746$. Isto interprétase do seguinte xeito: o 74.6% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Para asegurarnos, intentaremos dar evidencia significativa de que o modelo de regresión é válido. Isto significa face-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Os datos necesarios están recollidos na seguinte táboa:

variabilidade	g.l.	$SS$	$MS$	cociente
regresión	$1$	$SS_R=28\cdot 0.864^2\cdot 0.623=13.02$	$MS_R=13.02$	$76.42$
erro	$26$	$SS_E=28(1-0.864^2)0.623=4.43$	$MS_E=\frac{4.43}{26}=0.17$
total	$27$	$SS_Y=28\cdot 0.623=17.45$

Como $P=P(F_{1,26}\geq 76.42)< 0.01$ é un número moi pequeno (de feito, empregando software estatístico temos $P=3.2\cdot 10^{-9}$), rexeitámo-la hipótese nula. Concluímos que hai evidencia significativa de que o modelo de regresión linear é válido.

Intervalos de estimación

Por completitude incluímos nesta sección a estimación por intervalos de diversos valores que apareceron no noso modelo de regresión linear.

En primeiro lugar pódese ver que unha estimación puntual da desviación típica do erro $\sigma^2$ vén dada por \[ \hat{\sigma}^2=MS_E=\frac{SS_E}{n-2}=\frac{1}{n-2}\sum_{i=1}^n(Y_i-a-bx_i)^2, \] tendo o estatístico \[ \frac{(n-2)\hat{\sigma}^2}{\sigma^2} \] unha distribución $\chi^2$ con $n-2$ graos de liberdade.

Tomemos un nivel de significación $\alpha$.

Ordenada na orixe: \[ \alpha=a\pm t_{n-2,\,\alpha/2}\,\frac{\sqrt{MS_E}}{S_X}\sqrt{\frac{1}{n}\sum_{i=1}^n x_i^2}. \]
Pendente da recta de regresión: \[ \beta=b\pm t_{n-2,\,\alpha/2}\,\frac{\sqrt{MS_E}}{S_X}. \]
Resposta media para un valor de $X$ dado: \[ \mu_{Y\mid X=x}=\hat{Y} \pm t_{n-2,\,\alpha/2}\,\sqrt{MS_E}\sqrt{\frac{1}{n}+\frac{(x-\overline{x})^2}{s_X^2}}. \]
Intervalo de predicción da resposta individual para un valor de $X$ dado: \[ \hat{Y} \pm t_{n-2,\,\alpha/2}\sqrt{MS_E}\,\sqrt{1+\frac{1}{n}+\frac{(x-\overline{x})^2}{s_X^2}}. \]

Estimación por intervalos para o problema das cunchas con niveles de confianza do 90%, 95%, e 99%.

altura	lonxitude	altura	lonxitude	altura	lonxitude	altura	lonxitude
0.9	3.1	1.9	5.0	2.1	5.6	2.3	5.8
1.5	3.6	1.9	5.3	2.1	5.7	2.3	6.2
1.6	4.3	1.9	5.7	2.1	5.8	2.3	6.3
1.7	4.7	2.0	4.4	2.2	5.2	2.3	6.4
1.7	5.5	2.0	5.2	2.2	5.3	2.4	6.4
1.8	5.7	2.0	5.3	2.2	5.6	2.4	6.3
1.8	5.2	2.1	5.4	2.2	5.8	2.7	6.3

altura	lonxitude
0.9	3.1
1.5	3.6
1.6	4.3
1.7	4.7
1.7	5.5
1.8	5.7
1.8	5.2
1.9	5.0
1.9	5.3
1.9	5.7
2.0	4.4
2.0	5.2
2.0	5.3
2.1	5.4
2.1	5.6
2.1	5.7
2.1	5.8
2.2	5.2
2.2	5.3
2.2	5.6
2.2	5.8
2.3	5.8
2.3	6.2
2.3	6.3
2.3	6.4
2.4	6.4
2.4	6.3
2.7	6.3

altura	lonxitude	altura	lonxitude	altura	lonxitude	altura	lonxitude
0.9	3.1	1.9	5.0	2.1	5.6	2.3	5.8
1.5	3.6	1.9	5.3	2.1	5.7	2.3	6.2
1.6	4.3	1.9	5.7	2.1	5.8	2.3	6.3
1.7	4.7	2.0	4.4	2.2	5.2	2.3	6.4
1.7	5.5	2.0	5.2	2.2	5.3	2.4	6.4
1.8	5.7	2.0	5.3	2.2	5.6	2.4	6.3
1.8	5.2	2.1	5.4	2.2	5.8	2.7	6.3

altura	lonxitude
0.9	3.1
1.5	3.6
1.6	4.3
1.7	4.7
1.7	5.5
1.8	5.7
1.8	5.2
1.9	5.0
1.9	5.3
1.9	5.7
2.0	4.4
2.0	5.2
2.0	5.3
2.1	5.4
2.1	5.6
2.1	5.7
2.1	5.8
2.2	5.2
2.2	5.3
2.2	5.6
2.2	5.8
2.3	5.8
2.3	6.2
2.3	6.3
2.3	6.4
2.4	6.4
2.4	6.3
2.7	6.3

altura	lonxitude	altura	lonxitude	altura	lonxitude	altura	lonxitude
0.9	3.1	1.9	5.0	2.1	5.6	2.3	5.8
1.5	3.6	1.9	5.3	2.1	5.7	2.3	6.2
1.6	4.3	1.9	5.7	2.1	5.8	2.3	6.3
1.7	4.7	2.0	4.4	2.2	5.2	2.3	6.4
1.7	5.5	2.0	5.2	2.2	5.3	2.4	6.4
1.8	5.7	2.0	5.3	2.2	5.6	2.4	6.3
1.8	5.2	2.1	5.4	2.2	5.8	2.7	6.3

altura	lonxitude
0.9	3.1
1.5	3.6
1.6	4.3
1.7	4.7
1.7	5.5
1.8	5.7
1.8	5.2
1.9	5.0
1.9	5.3
1.9	5.7
2.0	4.4
2.0	5.2
2.0	5.3
2.1	5.4
2.1	5.6
2.1	5.7
2.1	5.8
2.2	5.2
2.2	5.3
2.2	5.6
2.2	5.8
2.3	5.8
2.3	6.2
2.3	6.3
2.3	6.4
2.4	6.4
2.4	6.3
2.7	6.3