Solucións ós problemas das clases interactivas

Intervalos de confianza

Nunha mostra de tamaño 30 mediuse a porcentaxe de aumento de alcohol en sangue tras beber catro cervexas. Obtívose $\overline{X}=41.2$ (media) e $s=2.1$ (cuasi-desviación típica).

  1. Calcular un intervalo de confianza do 90% para a porcentaxe media de aumento en tódalas persoas que beben catro cervexas;
  2. Se se calcula un intervalo de confianza do 95% para $\mu$, ¿será máis ou menos amplo có anterior?

Milton 6.3.7

Considerámo-la variable aleatoria $X$="aumento de alcohol en sangue".

Temos $n=30$, $\overline{X}=41.2$, $s_{n-1}=2.1$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$. Despexando $\mu$ da desigualdade \[ \Bigl\lvert \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\Bigr\rvert\leq t_{{n-1,\,\alpha/2}}, \] obtense a fórmula \[ \overline{X}\pm t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.1$. Calculamos $t_{29,\,0.05}=1.699$. Substituíndo na fórmula \[ 41.2 \pm 1.699\cdot \frac{2.1}{\sqrt{30}} = 41.2 \pm 0.651, \] de onde se obtén o intervalo $[40.549,\, 41.851]$.

Conclusión: cun nivel de confianza do 90.0%, a media de aumento de alcohol en sangue atópase entre $40.549$ e $41.851$.

Ó aumenta-lo nivel de confianza, o intervalo será máis grande. Pódese calcular explicitamente.

Agora o nivel de significación é $\alpha=0.05$. Calculamos $t_{29,\,0.025}=2.045$. Substituíndo na fórmula \[ 41.2 \pm 2.045\cdot \frac{2.1}{\sqrt{30}} = 41.2 \pm 0.784, \] de onde se obtén o intervalo $[40.416,\, 41.984]$, que é un pouco máis grande có anterior.

As granxas de patos contaminan a agua debido ó nitróxeno en forma de "ácido úrico". A seguinte é unha mostra aleatoria de nove observacións da variable $X$, número de kilos de nitróxeno producidos por granxa e día.

4.95.85.9
6.55.55.0
5.66.05.7

Supoñendo que $X$ é normal, construír un intervalo de confianza do 99% para a media poboacional $\mu$.

Milton 6.3.9

Considerámo-la variable aleatoria $X$="kilos de nitróxeno producidos por granxa e día".

Organizámo-los cálculos para obte-la media e cuasi-varianza mostral:

$X$$X^2$
4.924.01
5.833.64
5.934.81
6.542.25
5.530.25
5.025.0
5.631.36
6.036.0
5.732.49
$\Sigma$ 50.9289.81

De aquí obtemos $n=9$, $\overline{X}=\frac{50.9}{9}=5.656$, $s_n^2=\frac{289.81}{9} - 5.656^2=0.216$, e así, $s_{n-1} = \sqrt{\frac{9}{8}\cdot 0.216}=0.493$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$. Despexando $\mu$ da desigualdade \[ \Bigl\lvert \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\Bigr\rvert\leq t_{{n-1,\,\alpha/2}}, \] obtense a fórmula \[ \overline{X}\pm t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.01$. Calculamos $t_{8,\,0.005}=3.355$. Substituíndo na fórmula \[ 5.656 \pm 3.355\cdot \frac{0.493}{\sqrt{9}} = 5.656 \pm 0.551, \] de onde se obtén o intervalo $[5.104,\, 6.207]$.

Conclusión: cun nivel de confianza do 99.0%, a media de kilos de nitróxeno producidos por granxa e día atópase entre $5.104$ e $6.207$.

A calor parece afecta-la mobilidade dos caracois. En 20 caracois sometidos a unha temperatura de 29°C observamos unha distancia media percorrida de $\overline{X}=4.855$cm, con $s_{n-1}=0.7178$. Dar un intervalo de confianza ($\alpha=5\%$) para a distancia media percorrida por un caracol.

Milton 6.3.6 p. 222

Considerámo-la variable aleatoria $X$="distancia percorrida por un caracol".

Temos $n=20$, $\overline{X}=4.855$, $s_{n-1}=0.718$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$. Despexando $\mu$ da desigualdade \[ \Bigl\lvert \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\Bigr\rvert\leq t_{{n-1,\,\alpha/2}}, \] obtense a fórmula \[ \overline{X}\pm t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $t_{19,\,0.025}=2.093$. Substituíndo na fórmula \[ 4.855 \pm 2.093\cdot \frac{0.718}{\sqrt{20}} = 4.855 \pm 0.336, \] de onde se obtén o intervalo $[4.519,\, 5.191]$.

Conclusión: cun nivel de confianza do 95.0%, a media da distancia percorrida por un caracol atópase entre $4.519$ e $5.191$.

Estas son as alturas (en metros) de vinte piñeiros da especie "Pinus strobus". Estima-la media desa especie de piñeiros cun nivel de confianza do 95%.

17.1622.0010.0815.00
7.0210.6711.1610.92
11.104.0515.937.22
8.1916.457.3810.00
14.1010.2611.9610.00

Milton 6.3.1

Considerámo-la variable aleatoria $X$="altura da especie Pinus strobus".

Organizámo-los cálculos para obte-la media e cuasi-varianza mostral:

$X$$X^2$
17.16294.466
22.0484.0
10.08101.606
15.0225.0
7.0249.28
10.67113.849
11.16124.546
10.92119.246
11.1123.21
4.0516.402
15.93253.765
7.2252.128
8.1967.076
16.45270.602
7.3854.464
10.0100.0
14.1198.81
10.26105.268
11.96143.042
10.0100.0
$\Sigma$ 230.652996.761

De aquí obtemos $n=20$, $\overline{X}=\frac{230.65}{20}=11.532$, $s_n^2=\frac{2996.761}{20} - 11.532^2=16.84$, e así, $s_{n-1} = \sqrt{\frac{20}{19}\cdot 16.84}=4.21$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\right\rvert\leq t_{{n-1,\,\alpha/2}}, \] obtense a fórmula \[ \overline{X}\pm t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $t_{19,\,0.025}=2.093$. Substituíndo na fórmula \[ 11.532 \pm 2.093\cdot \frac{4.21}{\sqrt{20}} = 11.532 \pm 1.97, \] de onde se obtén o intervalo $[9.562,\, 13.503]$.

Conclusión: cun nivel de confianza do 95.0%, a media de altura da especie Pinus strobus atópase entre $9.562$ e $13.503$.

Queremos estima-lo peso medio ó nacer (en Kg) de fillos de mulleres adictas á heroína. Nun estudio previo obtívose que $\sigma=2.5$. Queremos deseña-lo experimento de modo que o nivel de confianza sexa do 95%, e que o erro de estimación non supere 1Kg. ¿Que tamaño de mostra necesitamos?

Milton 6.6.1 p. 236

Témo-lo dato $\sigma=2.5$, co que a varianza poboacional é coñecida.

Para estima-lo tamaño da mostra para unha media, empregámo-lo estatístico \[ \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \] que ten distribución normal estándar. Despexando $\mu$ da desigualdade \[ \Bigl\lvert\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\Bigr\rvert\leq Z_{\alpha/2} \] obtémo-la fórmula $\overline{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$. A estimación do erro é $Z_{{\alpha/2}}\frac{{\sigma}}{{\sqrt{{n}}}}$.

Queremos $Z_{{\alpha/2}}\frac{{\sigma}}{{\sqrt{{n}}}}\leq\epsilon$, onde $\epsilon$ é o valor fixado polo problema. Despexando obtense $n\geq(Z_{{\alpha/2}}\,\sigma/\epsilon)^2$.

O nivel de significación é $\alpha=0.05$. Mirando as táboas obtemos $Z_{0.025}=1.96$. Neste caso $\epsilon=1.0$. Substituíndo na fórmula $n\geq (1.96\cdot 2.5/1.0)^2=24.009$.

Conclusión: para que a diferencia entre a media mostral e a media poboacional de peso ó nacer de fillos de mulleres adictas á heroína sexa como moito de $\pm 1.0$ cun nivel de confianza do $95.0$%, teriamos que tomar unha mostra de polo menos $25$ nenos.

No río Mississippi estudouse en 61 lugares a variable $X$, anchura de terreno inundable, obténdose $\overline{X}=3400$ metros e $s_{n-1}=100$ metros. Dar un intervalo de estimación para a desviación típica de $X$ cun nivel de confianza do 90%.

Milton 7.1.7 p. 253

Considerámo-la variable aleatoria $X$="anchura de terreno inundable".

Temos $n=61$, $\overline{X}=3400.0$, $s_{n-1}=100.0$.

Calculamos un intervalo de confianza para unha varianza empregando o estatístico $\frac{(n-1) s_{n-1}^2}{\sigma^2}$, que segue unha distribución $\chi^2$ de Pearson con $n-1$ graos de liberdade. Despexando $\sigma^2$ da desigualdade \[ \chi^2_{n-1,\,1-\alpha/2}\leq \frac{(n-1) s_{n-1}^2}{\sigma^2}\leq \chi^2_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \Bigl[\frac{(n-1) s_{n-1}^2}{\chi^2_{n-1,\,\alpha/2}},\, \frac{(n-1) s_{n-1}^2}{\chi^2_{n-1,\,1-\alpha/2}}\Bigr]. \]

O nivel de significación é $\alpha=0.1$. Temos que buscar dous valores da $\chi^2$: $\chi_{60,\,0.05}^2=79.082$ e $\chi_{60,0.95}^2=43.188$. O intervalo de confianza para a varianza é \[ \Bigl[\frac{(61-1)\cdot 100.0^2}{79.082}, \frac{(61-1)\cdot 100.0^2}{43.188}\Bigr] =[7587.067,\,13892.761]. \] O resultado obtido dá un intervalo de confianza para a varianza, así que para obter un para a desviación típica simplemente extraemos raíces cadradas. Por tanto obtense o intervalo $[87.104,\, 117.868]$.

Conclusión: cun nivel de confianza do 90.0%, a desviación típica da anchura de terreno inundable atópase entre $87.104$ e $117.868$.

Nun reconto no microscopio contabilizáronse 200 leucocitos, dos cales 125 eran neutrófilos. Dar un intervalo de confianza do 90% para a proporción de neutrófilos en sangue.

Milton 8.2.3 p. 266

Considerámo-la variable aleatoria $X$="leucocitos neutrófilos".

Calculamos un intervalo de confianza para unha proporción empregando o estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que segue unha distribución normal estándar. Despexando $p$ da desigualdade \[ \Bigl\lvert\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\Bigr\rvert\leq Z_{\alpha/2}, \] obtense a fórmula \[ \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. \]

Temos $n=200$, e $\hat{p}=0.625$.

O nivel de significación é $\alpha=0.1$. Temos que busca-lo valor na táboa $Z_{0.05}=1.645$. Substituíndo na fórmula \[ 0.625 \pm 1.645\sqrt{\frac{0.625(1-0.625)}{200}} = 0.625 \pm 0.056, \] de onde se obtén o intervalo $[0.569,\, 0.681]$.

Conclusión: cun nivel de confianza do 90.0%, a proporción de leucocitos neutrófilos atópase entre $56.9$% e $68.1$%.

Nun estudo sobre obesidade infantil averíguase que a idade media de inicio da enfermidade dunha mostra de 26 nenos é de 4 anos, cunha desviación típica mostral de 1.5 anos. Determinar un intervalo de confianza do 95% para a desviación típica da poboación.

Milton Exemplo 7.1.6

Considerámo-la variable aleatoria $X$="idade de inicio da obesidade infantil".

Temos $n=26$, $\overline{X}=4.0$, $s_{n-1}=1.5$.

Calculamos un intervalo de confianza para unha varianza empregando o estatístico $\frac{(n-1) s_{n-1}^2}{\sigma^2}$, que segue unha distribución $\chi^2$ de Pearson con $n-1$ graos de liberdade. Despexando $\sigma^2$ da desigualdade \[ \chi^2_{n-1,\,1-\alpha/2}\leq \frac{(n-1) s_{n-1}^2}{\sigma^2}\leq \chi^2_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \Bigl[\frac{(n-1) s_{n-1}^2}{\chi^2_{n-1,\,\alpha/2}},\, \frac{(n-1) s_{n-1}^2}{\chi^2_{n-1,\,1-\alpha/2}}\Bigr]. \]

O nivel de significación é $\alpha=0.05$. Temos que buscar dous valores da $\chi^2$: $\chi_{25,\,0.025}^2=40.646$ e $\chi_{25,0.975}^2=13.12$. O intervalo de confianza para a varianza é \[ \Bigl[\frac{(26-1)\cdot 1.5^2}{40.646}, \frac{(26-1)\cdot 1.5^2}{13.12}\Bigr] =[1.384,\,4.287]. \]

Conclusión: cun nivel de confianza do 95.0%, a desviación típica da idade de inicio da obesidade infantil atópase entre $1.176$ e $2.071$.

¿Que tamaño de mostra faría falla para estima-la proporción de mortes debidas a un problema cardíaco, se traballamos cun nivel de significación do 5%, e non queremos que o erro de estimación supere o 2%?

Milton 8.3.2 p. 270

Para estima-lo tamaño da mostra para unha proporción, empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que ten distribución normal estándar. Despexando $p$ da desigualdade \[ \Bigl\lvert\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\Bigr\rvert\leq Z_{\alpha/2}, \] obtémo-la fórmula \[ \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. \] A estimación do erro é $Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$.

Neste case non temos unha estimación da proporción $\hat{{p}}$. É sinxelo ver que a función $x\mapsto\sqrt{x(1-x)}$ alzanza o seu máximo no intervalo $[0,1]$ no punto $x=1/2$. Por tanto, necesitamos despexar $n$ da desigualdade $Z_{\alpha/2}\sqrt{\frac{0.5(1-0.5)}{n}}<\epsilon$, onde $\epsilon$ é o valor fixado polo problema. Así, obtense $n>\Bigl(\frac{Z_{\alpha/2}}{2\epsilon}\Bigr)^2$.

O nivel de significación é $\alpha=0.05$. Mirando as táboas obtemos $Z_{0.025}=1.96$. Neste caso $\epsilon=0.02$. Substituíndo na fórmula $n> \Bigl(\frac{1.96}{2\cdot 0.02}\Bigr)^2=2400.912$.

Conclusión: para que a diferencia entre a proporción mostral e a proporción poboacional de mortes debidas a un problema cardíaco sexa como moito de $\pm 0.02$ cun nivel de confianza do $95.0$%, teriamos que tomar unha mostra de polo menos 2401 elementos.

Un investigador médico quere estima-lo nivel medio de colesterol en homes de idade avanzada. A estimación debe ter unha precisión de 6mg/dl ou menos, cun 95% de confianza. Ademais, o investigador cre, por estudos previos, que a desviación típica do colesterol na poboación ronda os 40mg/dl. ¿Que tamaño de mostra debe tomar?

Samuels 6.4.2

Témo-lo dato $\sigma=40$, co que a varianza poboacional é coñecida.

Para estima-lo tamaño da mostra para unha media, empregámo-lo estatístico $\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$ que ten distribución normal estándar. Despexando $\mu$ da desigualdade \[ \Bigl\lvert\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\Bigr\rvert\leq Z_{\alpha/2} \] obtémo-la fórmula $\overline{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$. A estimación do erro é \[ Z_{{\alpha/2}}\frac{{\sigma}}{{\sqrt{{n}}}}. \]

Queremos $Z_{{\alpha/2}}\frac{{\sigma}}{{\sqrt{{n}}}}\leq\epsilon$, onde $\epsilon$ é o valor fixado polo problema. Despexando obtense $n\geq(Z_{{\alpha/2}}\,\sigma/\epsilon)^2$.

O nivel de significación é $\alpha=0.05$. Mirando as táboas obtemos $Z_{0.025}=1.96$. Neste caso $\epsilon=6.0$. Substituíndo na fórmula $n\geq (1.96\cdot 40/6.0)^2=170.732$.

Conclusión: para que a diferencia entre a media mostral e a media poboacional de nivel de colesterol en homes de idade avanzada sexa como moito de $\pm 6.0$ cun nivel de confianza do $95.0$%, teriamos que tomar unha mostra de polo menos $171$ elementos.

Nun estudo atopouse que 40 de 400 estudantes eran zurdos. Construír un intervalo de confianza do 90% para a proporción de estudantes zurdos na poboación.

Samuels 9.3.1

Considerámo-la variable aleatoria $X$="estudantes zurdos".

Calculamos un intervalo de confianza para unha proporción empregando o estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que segue unha distribución normal estándar. Despexando $p$ da desigualdade \[ \Bigl\lvert\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\Bigr\rvert\leq Z_{\alpha/2}, \] obtense a fórmula \[ \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. \]

Temos $n=400$, e $\hat{p}=0.1$.

O nivel de significación é $\alpha=0.1$. Temos que busca-lo valor na táboa $Z_{0.05}=1.645$. Substituíndo na fórmula \[ 0.1 \pm 1.645\sqrt{\frac{0.1(1-0.1)}{400}} = 0.1 \pm 0.025, \] de onde se obtén o intervalo $[0.075,\, 0.125]$.

Conclusión: cun nivel de confianza do $90.0$%, a proporción de estudantes zurdos atópase entre $7.5$% e $12.5$%.

Unha bodega produce 720000 botellas de viño cada ano e desexa estima-la proporción de botellas que teñen o corcho defectuoso (o viño estropéase se hai un fallo no corcho). Nun estudo previo calcúlase que esta proporción ronda o 4%, pero agora queremos, cun nivel de confianza do 90%, que o erro de estimación non supere o 1%. ¿Cantas botellas de viño debemos comprobar?

Samuels 9.S.6

Para estima-lo tamaño da mostra para unha proporción, empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que ten distribución normal estándar. Despexando $p$ da desigualdade \[ \Bigl\lvert\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\Bigr\rvert\leq Z_{\alpha/2}, \] obtémo-la fórmula \[ \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. \] A estimación do erro é $Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$.

Dado que temos unha estimación da proporción $\hat{{p}}$, necesitamos $Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}<\epsilon$, onde $\epsilon$ é o valor fixado polo problema. Despexando obtense $n>\frac{\hat{p}(1-\hat{p})Z_{\alpha/2}^2}{\epsilon^2}$.

O nivel de significación é $\alpha=0.1$. Mirando as táboas obtemos $Z_{0.05}=1.645$. Neste caso $\epsilon=0.01$. Substituíndo na fórmula $n> \frac{0.04(1-0.04)1.645^2}{0.01^2}=1038.929$.

Conclusión: para que a diferencia entre a proporción mostral e a proporción poboacional de botellas que teñen o corcho defectuoso sexa como moito de $\pm 0.01$ cun nivel de confianza do $90.0$%, teriamos que tomar unha mostra de polo menos $1039$ botellas.

Os votos en contra da construción dunha presa nunha mostra de 500 persoas foi de 270. Estima-la proporción de persoas que están en contra en toda a poboación, cun nivel de confianza do 95%.

Milton Exemplo 8.4.1

Considerámo-la variable aleatoria $X$="votos en contra da construción dunha presa".

Calculamos un intervalo de confianza para unha proporción empregando o estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que segue unha distribución normal estándar. Despexando $p$ da desigualdade \[ \Bigl\lvert\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\Bigr\rvert\leq Z_{\alpha/2}, \] obtense a fórmula \[ \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. \]

Temos $n=500$, e $\hat{p}=0.54$.

O nivel de significación é $\alpha=0.05$. Temos que busca-lo valor na táboa $Z_{0.025}=1.96$. Substituíndo na fórmula \[ 0.54 \pm 1.96\sqrt{\frac{0.54(1-0.54)}{500}} = 0.54 \pm 0.044, \] de onde se obtén o intervalo $[0.496,\, 0.584]$.

Conclusión: cun nivel de confianza do $95.0$%, a proporción de votos en contra da construción dunha presa atópase entre $49.6$% e $58.4$%.

Contrastes de hipóteses

Sospéitase que o insecticida DDT provoca diminución no grosor das cáscas dos ovos dos paxaros. Para combrobar isto, alimentouse a 16 gabiáns cunha mistura que contiña 15ppm de DDT, e atopouse unha diminución do grosor do 8%. A desviación típica mostral foi de $s=0.05$. Contrasta-la hipótese de que houbo unha diminución no grosor en toda a poboación (nivel de confianza do 95%).

Milton 6.5.4 p. 233

Considerámo-la variable aleatoria $X$="dismunición do grosor das cáscaras de ovo".

Temos $n=16$, $\overline{X}=0.08$, $s_{n-1}=0.05$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu &{} \leq 0,& H_1\colon \mu &{} > 0. \end{aligned} \]

Este é un contraste de hipóteses para unha media. Para iso empregámo-lo estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$.

O valor no estatístico é \[ \frac{0.08-0}{0.05/\sqrt{16}} =6.4. \]

O nivel de significación é $\alpha=0.05$. Ademais, o valor de cola é $t_{15,\, 0.05}=1.753$. Entón, temos $6.4\notin(-\infty,\, 1.753]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que, en media, hai diminución do grosor das cáscaras de ovo.

Realizouse un experimento para estuda-lo efecto do exercicio físico no nivel de colesterol de pacientes obesos. En 80 pacientes sometidos a un réxime específico de actividade, observouse unha diminución media do nivel de colesterol de $\overline{X}=27$ puntos. A desviación estándar foi de $s=18$. ¿Pode afirmarse, cun nivel de confianza do 90%, que ese réxime provoca, en media, unha diminución superior a 25 puntos?

Milton 6.5.7 p. 234

Considerámo-la variable aleatoria $X$="dismunición do nivel de colesterol".

Temos $n=80$, $\overline{X}=27.0$, $s_{n-1}^2=324.0$, e $s_{n-1}=18.0$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu &{} \leq 25,& H_1\colon \mu &{} > 25. \end{aligned} \]

Este é un contraste de hipóteses para unha media. Para iso empregámo-lo estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade.

O valor no estatístico é \[ \frac{27.0-25}{18.0/\sqrt{80}} =0.994. \]

O nivel de significación é $\alpha=0.1$. Ademais, o valor de cola é $t_{79,\,0.1}=1.292$. Entón, temos $0.994\in(-\infty,\, 1.292]$.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza do $90.0$%, de que a media de dismunición do nivel de colesterol sexa maior ca $25$.

A concentración media de dióxido de carbono no aire é do 0.035%. Preténdese demostrar que inmediatamente por riba da superficie do chan dita concentración é maior. Analizáronse 144 mostras de aire seleccionado aleatoriamente e tomadas á distancia de 30cm do chan. Resultou unha media mostral do 0.09% e unha cuasi-desviación típica mostral do 0.25%. ¿Cal é o valor P do contraste? ¿Comprobouse estatisticamente o argumento establecido?

Milton 6.5.5 p. 233

Considerámo-la variable aleatoria $X$="concentración de dióxido de carbono no aire".

Temos $n=144$, $\overline{X}=0.09$, $s_{n-1}=0.25$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu &{} \leq 0.035,& H_1\colon \mu &{} > 0.035. \end{aligned} \]

Este é un contraste de hipóteses para unha media. Para iso empregámo-lo estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$.

O valor no estatístico é \[ \frac{0.09-0.035}{0.25/\sqrt{144}} =2.64. \]

Calculámo-lo valor P como $P=P(t_{143}> 2.64)=0.0046$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.5$%, de que a media de concentración de dióxido de carbono no aire é maior ca $0.035$.

En certa especie de vagalumes, a luz que producen consta dun escintileo curto seguido dun período de repouso. Quérese probar que o período de repouso ten unha duración media de menos de catro segundos. Nunha mostra de 16 insectos obtivemos unha media de 3.77 segundos, con $s=0.30$ segundos. Por outro lado, dámonos conta de que un erro de tipo I non ten consecuencias fatais, así que fixamos un $\alpha=10\%$ bastante alto. ¿Apoian os datos experimentais a nosa suposición sobre o escintileo?

Milton 6.5.7 p. 232

Considerámo-la variable aleatoria $X$="duración do período de escintileo dos vagalumes".

Temos $n=16$, $\overline{X}=3.77$, $s_{n-1}^2=0.09$, e $s_{n-1}=0.3$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu &{} \geq 4,& H_1\colon \mu &{} < 4. \end{aligned} \]

Este é un contraste de hipóteses para unha media. Para iso empregámo-lo estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade.

O valor no estatístico é \[ \frac{3.77-4}{0.3/\sqrt{16}} =-3.067. \]

O nivel de significación é $\alpha=0.1$. Ademais, o valor de cola é $t_{15,\,0.9}=-t_{15,\,0.1}=-1.341$. Por tanto, resulta que $-3.067\notin[-1.341,\,+\infty)$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $90.0$%, de que a duración media do período de escintileo dos vagalumes é menor ca $4$.

Ó estuda-lo crecemento de abetos, sábese que a varianza poboacional acostuma ser $1.56cm^2$. Non obstante, en 50 árbores crecidos en condicións de seca observamos unha cuasi-desviación típica de $0.375$cm. ¿Afectou a seca ó parámetro $\sigma$? Dar un intervalo de confianza para a desviación típica da poboación. Utilizar en todo o problema un nivel de confianza do 95%.

Milton 7.2.4 p. 256

Considerámo-la variable aleatoria $X$="crecemento dos abetos".

Temos $n=50$, $s_{n-1}=0.375$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \sigma &{} = 1.249,& H_1\colon \sigma &{} \neq 1.249. \end{aligned} \]

Este é un contraste de hipóteses para unha desviación típica. Para iso empregámo-lo estatístico \[ \frac{(n-1) s_{n-1}^2}{\sigma^2}, \] que segue unha distribución $\chi^2$ con $n-1$ graos de liberdade.

O valor no estatístico é \[ \frac{(50-1)\cdot 0.375^2}{1.249^2} =4.417. \]

Tomamos como nivel de significación $\alpha=0.05$. Como a distribución $\chi^2$ non é simétrica, recordamos que é preferible non emprega-lo valor P. Temos $\chi^2_{49,\, 0.975}=31.555$, e $\chi^2_{49,\, 0.025}=70.222$. Entón, $4.417\notin[31.555,\, 70.222]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que a desviación típica do crecemento dos abetos é distinta de $1.249$.

Calculamos agora un intervalo de confianza para a desviación típica empregando o estatístico \[ \frac{\left(n-1\right) s_{n-1}^{2}}{\sigma^2}, \] que segue unha distribución $\chi^2$ de Pearson con $n-1$ graos de liberdade. Despexando $\sigma^2$ da desigualdade \[ \chi^2_{n-1,\,1-\alpha/2} \leq \frac{\left(n-1\right) s_{n-1}^{2}}{\sigma^2} \leq \chi^2_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \left[\frac{\left(n-1\right) s_{n-1}^{2}}{\chi^2_{n-1,\,\alpha/2}},\, \frac{\left(n-1\right) s_{n-1}^{2}}{\chi^2_{n-1,\,1-\alpha/2}}\right]. \]

O nivel de significación é $\alpha=0.05$. Temos que buscar dous valores da $\chi^2$: $\chi^2_{49,\,0.025}=70.222$ e $\chi^2_{49,\,0.975}=31.555$. Substituímos na fórmula \[ \left[\frac{\left(50-1\right) 0.375^{2}}{70.222},\, \frac{\left(50-1\right) 0.375^{2}}{31.555}\right]. \] O resultado obtido dá un intervalo de confianza para a varianza, así que para obter un para a desviación típica simplemente extraemos raíces cadradas. Por tanto obtense o intervalo $[0.313,\, 0.467]$.

Conclusión: cun nivel de confianza do $95.0$%, a desviación típica do crecemento dos abetos atópase entre $0.313$ e $0.467$.

A concentración sanguínea de calcio nos mamíferos acostuma ser de 6mg/100ml. A desviación típica debe ser de 1mg/100ml, xa que unha variabilidade maior ocasiona trastornos de coagulación. Nunha serie de nove probas realizadas a un paciente, atopouse unha concentración media de 6.2 e unha cuasi-desviación típica de 2. Tomando un nivel de significación $\alpha=0.05$, ¿hai evidencia de que a desviación típica sexa maior da normal?

Milton 7.2.2 p. 256

Considerámo-la seguinte variable aleatoria $X$="concentración sanguínea de calcio nos mamíferos".

Temos $n=9$, $\overline{X}=6.2$, $s_{n-1}=2.0$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \sigma &{} \leq 1.0,& H_1\colon \sigma &{} > 1.0. \end{aligned} \]

Este é un contraste de hipóteses para unha desviación típica. Para iso empregámo-lo estatístico \[ \frac{(n-1) s_{n-1}^2}{\sigma^2}, \] que segue unha distribución $\chi^2$ de Pearson.

O valor no estatístico é \[ \frac{(9-1)\cdot 2.0^2}{1.0^2} =32.0. \]

O nivel de significación é $\alpha=0.05$. Ademais, os valores de cola son $\chi^2_{8,\, 0.05}=15.507$. Entón, temos $32.0\notin(0,\, 15.507]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que a desviación típica de concentración sanguínea de calcio nos mamíferos é maior ca $1.0$.

Estímase xeralmente que o 90% dos enfermos de cancro de pulmón morren no prazo de 3 anos. Nun estudo recente no que se proban uns novos tratamentos, atopouse que 128 pacientes morreron dun total de 150 enfermos. ¿Pode dicirse que hai probas suficientes de que o emprego dos novos métodos de tratamento reduciron a taxa de falecementos?

Milton 8.4.4 p. 273

Considerámo-la variable aleatoria $X$="enfermos de cancro de pulmón que morren no prazo de 3 anos".

Temos $n=150$, e $\hat{p}=0.853$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p &{} \geq 0.9,& H_1\colon p &{} < 0.9. \end{aligned} \]

Este é un contraste de hipóteses para unha proporción. Para iso empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{0.853-0.9} {\sqrt{\frac{0.9(1-0.9)}{150}}} =-1.905. \]

Calculámo-lo valor P como $P=P(Z_{}< -1.905)=0.0284$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $97.2$%, de que a proporción de enfermos de cancro de pulmón que morren no prazo de 3 anos é menor có $90.0$%.

Un 20% dos enfermos de corazón tratados cronicamente con digoxina sofre unha reacción adversa. Para evitalo, a 30 pacientes asocióuselles outro medicamento, e conseguiuse que só tres tivesen a reacción. ¿Pode afirmarse que o tratamento é eficaz cun nivel de confianza do 99%?

Milton 9.7

Considerámo-la variable aleatoria $X$="pacientes con reacción adversa".

Temos $n=30$, e $\hat{p}=0.1$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p &{} \geq 0.2,& H_1\colon p &{} < 0.2. \end{aligned} \]

Este é un contraste de hipóteses para unha proporción. Para iso empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{0.1-0.2} {\sqrt{\frac{0.2(1-0.2)}{30}}} =-1.369. \]

O nivel de significación é $\alpha=0.01$. Ademais, o valor de cola é $Z_{0.01}=2.326$. Así, $-1.369\in[-2.326,\,+\infty)$.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza do $99.0$%, de que a proporción de pacientes con reacción adversa sexa menor có $20.0$%.

O método habitual para trata-la leucemia mieloblástica aguda consiste en somete-lo paciente a quimioterapia intensiva no momento do diagnóstico. Historicamente, isto produciu unha taxa de remisión do 70%. Estudando un novo método de tratamento utilizáronse 50 voluntarios. ¿Cantos dos pacientes deberían ter remitido para que os investigadores puidesen afirmar, con nivel de significación $\alpha=0.025$, que o novo método produce remisións máis altas có antigo?

Considerámo-la variable aleatoria $X$="taxa de remisión do novo tratamento".

Temos $n=50$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p &{} \leq 0.7,& H_1\colon p &{} > 0.7. \end{aligned} \]

Este é un contraste de hipóteses para unha proporción. Para iso empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p \left(1-p\right)}{n}}}, \] que segue unha distribución normal estándar.

O nivel de significación é $\alpha=0.025$. Ademais, o valor de cola é $Z_{0.025}=1.96$. Sexa $k$ o número de casos buscado. Por tanto, para que o valor no estatístico estea fóra da rexión de aceptación $(-\infty,\, 1.96]$ necesitamos \[ \frac{\frac{k}{50}-0.7}{\sqrt{\frac{0.7 \left(1-0.7\right)}{50}}} > 1.96. \] Despexando obtemos $k>41.35$.

Conclusión: necesitaríanse ter rexistrado polo menos $42$ casos para ter evidencia significativa, polo menos do $97.5$%, de que a taxa de remisión do novo tratamento sexa maior có $70.0$%.

Estase probando a eficacia dun tipo de exercicio para mellora-los síntomas da artrite reumatoide. O grupo no que se proba dito tratamento é de 160 pacientes. Para un nivel de significación do 2,5%, ¿cantos pacientes terían que mellorar para que se poida afirmar que a porcentaxe de pacientes que melloran é superior ó 50%?

Considerámo-la variable aleatoria $X$="eficacia dun determindado tipo de exercicio para mellora-los síntomas da artrite reumatoide".

Temos $n=160$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p &{} \leq 0.5,& H_1\colon p &{} > 0.5. \end{aligned} \]

Este é un contraste de hipóteses para unha proporción. Para iso empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p \left(1-p\right)}{n}}}, \] que segue unha distribución normal estándar.

O nivel de significación é $\alpha=0.025$. Ademais, $Z_{0.025}=1.96$. Sexa $k$ o número de casos buscado. Por tanto, para que o valor no estatístico estea fóra da rexión de aceptación $(-\infty,\, 1.96]$ necesitamos \[ \frac{\frac{k}{160}-0.5}{\sqrt{\frac{0.5 \left(1-0.5\right)}{160}}} > 1.96. \] Despexando obtemos $k>92.4$.

Conclusión: necesitaríanse ter rexistrado polo menos $93$ casos nos que este tipo de exercicio é eficaz na mellora dos síntomas da artrite reumatoide, para ter evidencia significativa, polo menos do $97.5$%, de que a taxa de dita variable aleatoria sexa maior có $50.0$%.

Contrastes de hipóteses para dúas poboacións

Comprobouse o peso de ovos de tartaruga en dúas illas diferentes. Suponse que a variable é normal. Á vista dos datos obtidos en dúas mostras aleatorias, ¿hai evidencia de que os ovos na illa "Malabar" son máis pesados cós da illa "Grande-Terre" cun nivel de significación do 1%?

Datos da illa "Grande-Terre": Tamaño da mostra $n_1=31$; peso medio $\overline{X}_1=64.0$g; cuasi-desviación típica $s_1=6.5$g.

Datos da illa "Malabar": Tamaño da mostra $n_2=148$; peso medio $\overline{X}_2=82.7$g; cuasi-desviación típica $s_2=3.6$g.

(Facer un contraste de hipóteses para a igualdade das varianzas para poder determinar se podemos asumir que ambas sexan iguais tomando $\alpha=0.05$.)

Milton 9.4.3 p. 311

Considerámo-las seguintes variables aleatorias $X$="peso dos ovos de tartaruga na illa Grande-Terre" e $Y$="peso dos ovos de tartaruga na illa Malabar".

Temos $n_1=31$, $\overline{X}=64.0$, $s_{1}=6.5$ e $n_2=148$, $\overline{Y}=82.7$, $s_{2}=3.6$.

Facemos un contraste de hipóteses sobre o cociente de varianzas para determinar se podemos supoñe-las varianzas poboacionais iguais.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \sigma_1^2 &{} = \sigma_2^2,& H_1\colon \sigma_1^2 &{} \neq \sigma_2^2. \end{aligned} \]

Este é un contraste de hipóteses para un cociente de varianzas. Para iso empregámo-lo estatístico \[ \frac{s_1^{2} / s_2^{2}}{\sigma_1^2 / \sigma_2^2}, \] que segue unha distribución $F$ de Snedecor con $(n_1-1,n_2-1)$ graos de liberdade.

O valor no estatístico é \[ \frac{6.5^{2} / 3.6^{2}}{1} =3.26. \]

O nivel de significación é $\alpha=0.05$. Ademais, os valores de cola son $F_{30, 147,\,0.975}=0.54$, e $F_{30, 147,\,0.025}=1.667$. Entón, $3.26\notin[0.54,\, 1.667]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que as varianzas poboacionais son distintas.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1-\mu_2 &{} \geq 0,& H_1\colon \mu_1-\mu_2 &{} < 0. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. Para iso empregámo-lo estatístico \[ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}, \] que segue unha distribución $t_\gamma$.

Aquí o número de graos de liberdade vén dado pola fórmula de Welch: \[ \gamma\sim\frac{\Bigl(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\Bigr)^2} {\frac{\bigl(s_1^2/n_1\bigr)^2}{n_1-1} +\frac{\bigl(s_2^2/n_2\bigr)^2}{n_2-1}}. \]

Substituíndo na fórmula de Welsch: \[ \gamma\sim \frac{\Bigl(\frac{6.5^2}{31} +\frac{3.6^2}{148}\Bigr)^2} {\frac{\bigl(6.5^2/31\bigr)^2}{31-1} +\frac{\bigl(3.6^2/148\bigr)^2}{148-1}} =33.95, \] polo que tomamos $\gamma=33$.

O valor no estatístico é \[ \frac{(64.0-82.7)-0} {\sqrt{\frac{6.5^2}{31} +\frac{3.6^2}{148}}} =-15.527. \]

O nivel de significación é $\alpha=0.01$. Ademais, o valor de cola é $t_{33,\, 0.99}=-2.445$. Entón, $-15.527\notin[-2.445,\,+\infty)$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.0$%, de que a media de peso dos ovos de tartaruga na illa Grande-Terre é menor cá media de peso dos ovos de tartaruga na illa Malabar.

Ó estuda-la velocidade de voo de dúas especies de paxaros, obtivémo-los seguintes datos:

  • (Haematopus palliatus): $n_1=9$, $\overline{X}_1=26.05$, $s_1=6.34$;
  • (Pelecanus occidentalis): $n_2=12$, $\overline{X}_2=30.19$, $s_2=3.20$;

Face-lo contraste necesario para saber se as varianzas poboacionais se poden supoñer iguais. ¿Hai evidencia de que a velocidade de voo das dúas especies de paxaros sexa diferente? (Para todo o problema, tomar un nivel de confianza do 95%.)

Milton 9.2.1 p. 298

Estudámo-las variables aleatorias $X_1$="velocidade de voo da especie haematopus palliatus", e $X_2$="velocidade de voo da especie pelecanus occidentalis".

A primeira parte do problema pide comprobar se hai evidencia significativa de que as varianzas poboacionais son distintas.

O contraste a realizar é \[ \begin{aligned} H_0\colon &\sigma_1=\sigma_2,& H_1\colon &\sigma_1\neq \sigma_2. \end{aligned} \]

Empregámo-lo estatístico $\frac{s_{1}^2/\sigma_1^2}{s_2^2/\sigma_2^2}$, que ten como distribución unha $F_{n_1-1,\,n_2-1}$.

O nivel de significación é $\alpha=0.05$. Temos como datos $n_1=9$, $s_1=6.34$, $n_2=12$, $s_2=3.20$.

Substituíndo: ${6.34^2}/{3.20^2}=3.93$. Por outro lado, témo-los dous valores $F_{8,11,\,0.025}=3.66$ e $F_{8,11,\,0.975}=1/F_{11,8,\,0.025}=1/4.24=0.24$ (o último valor está calculado con software estatístico). Como $3.93\notin[0.24,\,3.66]$, rexeitámo-la hipótese nula e concluímos que non podemos supoñe-las varianzas poboacionais iguais.

Para a segunda parte do problema temos que face-lo contraste: \[ \begin{aligned} H_0\colon &\mu_1=\mu_2,& H_1\colon &\mu_1\neq \mu_2. \end{aligned} \]

Como non podemos supoñer que as varianzas poboacionais sexan iguais, empregámo-lo estatístico \[ \frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)} {\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}, \] que ten como distribución unha $t_\gamma$ onde \[ \gamma\sim\frac{\Bigl(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\Bigr)^2} {\frac{\bigl(s_1^2/n_1\bigr)^2}{n_1-1}+\frac{\bigl(s_2^2/n_2\bigr)^2}{n_2-1}}. \]

O nivel de significación é $\alpha=0.05$. Temos como datos $n_1=9$, $\overline{X}_1=26.05$, $s_1=6.34$, $n_2=12$, $\overline{X}_2=30.19$, $s_2=3.20$.

Substituíndo no estatístico, \[ \frac{(26.05-30.19)-0}{\sqrt{\frac{6.34^2}{9}+\frac{3.20^2}{12}}}=-1.79, \] e substituíndo na fórmula dos graos de liberdade, \[ \frac{\left(\frac{6.34^2}{9}+\frac{3.20^2}{12}\right)^2} {\frac{(6.34^2/9)^2}{9-1}+\frac{(3.20^2/12)^2}{12-1}}=11.06, \] polo que tomamos $\gamma=11$.

Por outro lado, $t_{11,\,0.025}=2.20$. Como $-1.79\in[-2.20,\,2.20]$, aceptámo-la hipótese nula.

Conclusión: aceptamos $H_0$ e por tanto deducimos que non hai evidencia significativa, con 95% de confianza, de que as velocidades medias de voo das especies haematopus palliatuse e pelecanus occidentalis sexan distintas.

Estudouse nunha mostra de $n_1=33$ homes novos fumadores a idade media á que empezan a fumar, obténdose $\overline{X}_1=11.3$ anos. A cuasi-varianza mostral foi de 4 anos. O mesmo estudo en mozas deu lugar ós seguintes datos: $n_2=14$, $\overline{X}_2=12.6$, $s_2^2=3.5$. Pídese, cun nivel de significación $\alpha=5\%$:

  1. Facer unha proba $F$ para concluír que podemos supoñer $\sigma_1^2=\sigma_2^2$;
  2. ¿Hai evidencia estatística de que os mozos empezan a fumar antes cás mozas?
  3. Dar un intervalo de estimación para a diferencia de medias poboacionais entre mozos e mozas.

Milton 9.3.11 p. 309

Estudámo-las variables aleatorias $X_1$="idade á que empezan a fuma-los mozos", e $X_2$="idade á que empezan a fuma-las mozas".

A primeira parte do problema pide comprobar se hai evidencia significativa de que as varianzas poboacionais son distintas.

O contraste a realizar é \[ \begin{aligned} H_0\colon &\sigma_1=\sigma_2,& H_1\colon &\sigma_1\neq \sigma_2. \end{aligned} \]

Empregámo-lo estatístico $\frac{s_{1}^2/\sigma_1^2}{s_2^2/\sigma_2^2}$, que ten como distribución unha $F_{n_1-1,\,n_2-1}$.

O nivel de significación é $\alpha=0.05$. Temos como datos $n_1=33$, $s_1^2=4$, $n_2=14$, $s_2^2=3.5$.

Substituíndo: ${4}/{3.5}=1.14$. Por outro lado, témo-los dous valores $F_{32,13,\,0.025}=2.82$ e $F_{32,13,\,0.975}=1/F_{13,32,\,0.025}=1/2.34=0.43$ (calculados con software estatístico). Como $1.14\in[0.43,\,2.82]$ aceptámo-la hipótese nula e concluímos que podemos supoñe-las varianzas poboacionais iguais.

Para a segunda parte do problema facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1 &{} \geq \mu_2,& H_1\colon \mu_1 &{} < \mu_2. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. En vista do estudado anteriormente, empregámo-lo estatístico \[ \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}, \] que segue unha distribución $t$-Student con $n_1+n_2-2$ graos de liberdade.

Aquí a cuasi-varianza mostral conxunta é \[ s_p^2=\frac{\left(n_1 - 1\right) s_1^{2} + \left(n_2 - 1\right) s_2^{2}}{n_1 + n_2 - 2}. \]

Substituíndo na fórmula da cuasi-varianza mostral conxunta: \[ s_p^2=\frac{\left(33 - 1\right) 2.0^{2} + \left(14 - 1\right) 1.871^{2}}{33 + 14 - 2} =3.856, \] polo que $s_p=1.964$.

O valor no estatístico é \[ \frac{\left(11.3 - 12.6\right) - 0}{1.964 \sqrt{\frac{1}{33} + \frac{1}{14}}} =-2.076. \]

O nivel de significación é $\alpha=0.05$. Ademais, o valor de cola é $t_{45,\,0.95}=-t_{45,\,0.05}=-1.679$. Entón, $-2.076\notin[-1.679,\,+\infty)$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que a media de idade á que empezan a fuma-los mozos é menor cá media de idade á que empezan a fuma-las mozas.

Para a terceira parte do problema temos que calcular un intervalo de confianza. O estatístico a utilizar é o mesmo ca na segunda parte. Un intervalo de confianza obtense despexando $\mu_1-\mu_2$ da fórmula \[ -t_{n_1+n_2-2,\,\alpha/2}\leq \frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)} {s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \leq t_{n_1+n_2-2,\,\alpha/2}. \] de onde resulta (omitímo-los graos de liberdade) \[ (\overline{X}_1-\overline{X}_2) \pm t_{\alpha/2}\,s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}. \]

Substituíndo na fórmula, \[ (11.3-12.6)\pm 2.01\cdot 1.96\sqrt{\frac{1}{33}+\frac{1}{14}}=-1.3\pm 1.26, \] de onde obtémo-lo intervalo $[-2.56,\,-0.04]$.

Conclusión: cun nivel de confianza do 95%, as mozas empezan a fumar en media entre $0.04$ e $2.56$ anos despois cós mozos.

Un laboratorio quere compara-los efectos secundarios dun medicamento novo cos do producto da competencia. Usaremos un nivel de significación do 1%. Obtivéronse os seguintes datos sobre a porcentaxe de persoas que presentaban diarrea:

LaboratorioCompetencia
Número de suxeitos465195
Número de casos de diarrea91
  1. ¿Podemos afirmar que hai evidencia significativa de que as porcentaxes son diferentes?
  2. Dar un intervalo de confianza para a diferencia de porcentaxes.

Milton 8.6.6 p. 285

Estudámo-las variables aleatorias $X_1$="diarrea provocada polo medicamento do laboratorio", e $X_2$="diarrea provocada polo medicamento da competencia".

A primeira parte do problema pide comprobar se hai evidencia significativa de que as proporcións son distintas.

O contraste a realizar é \[ \begin{aligned} H_0\colon &p_1=p_2,& H_1\colon &p_1\neq p_2. \end{aligned} \]

Como é un contraste no que o valor nulo é cero, tomámo-lo estatístico \[ \frac{\hat{p}_1-\hat{p}_2} {\sqrt{\hat{p}(1-\hat{p})\Bigl(\frac{1}{n_1}+\frac{1}{n_2}\Bigl)}}, \] que segue aproximadamente unha distribución normal estándar, e onde \[ \hat{p}=\frac{n_1\hat{p}_1+n_2\hat{p}_2}{n_1+n_2}. \]

O nivel de significación é $\alpha=0.01$. Temos como datos $n_1=465$, $\hat{p}_1=9/465=0.0193$, $n_2=195$, $\hat{p}_2=1/195=0.0051$. Ademais, $Z_{0.005}=2.578$.

A media ponderada é \[ \hat{p}=\frac{465\frac{9}{465}+195\frac{1}{195}}{465+195}=\frac{1}{66}=0.0152. \] Substituíndo no estatístico \[ \frac{\frac{9}{465}-\frac{1}{195}} {\sqrt{\frac{1}{66}\Bigl(1-\frac{1}{66}\Bigr)\Bigl(\frac{1}{465}+\frac{1}{195}\Bigl)}}=1.37. \] Como $1.37\in[-2.578,\,2.578]$ aceptámo-la hipótese nula.

Conclusión: aceptamos $H_0$, e por tanto, non hai evidencia significativa, cunha confianza do 99%, de que as porcentaxes de casos de diarrea provocadas polo medicamento do laboratorio e o da súa competencia sexan distintas.

Para a segunda parte do problema temos que calcular un intervalo de confianza. Como agora non hai hipóteses sobre as proporcións empregámo-lo estatístico \[ \frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)} {\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}}, \] que segue unha distribución aproximadamente normal. Un intervalo de confianza obtense despexando $p_1-p_2$ da fórmula \[ -Z_{\alpha/2}\leq \frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)} {\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} \leq Z_{\alpha/2}. \] Por tanto, un intervalo de confianza será da forma: \[ (\hat{p}_1-\hat{p}_2) \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}. \]

Como xa témo-los datos calculados, substituímos na fórmula, \[ \Bigl(\frac{9}{465}-\frac{1}{195}\Bigr) \pm 2.578\sqrt{\frac{\frac{9}{465}(1-\frac{9}{465})}{465}+\frac{\frac{1}{195}(1-\frac{1}{195})}{195}} =-0.0142\pm 0.0211, \] de onde obtémo-lo intervalo $[-0.0069,\,0.0353]$, ou ben $[-0.69\%,\,3.53\%]$. Nótese que, aínda que unha proporción ten que estar no intervalo $[0,1]$, a diferencia de dúas proporción non ten por que ser un número positivo.

Conclusión: cun nivel de confianza do 99%, a diferencia de porcentaxes de casos de diarrea producidas polo medicamento do laboratorio e pola da competencia está entre $-0.69$% e $3.53$%.

En 1970 fixéronse 759 análises de sangue e atopáronse 46 casos de infección. En 1975 outro estudo semellante descubriu 109 infeccións en 838 análises. Baseándose nestas dúas mostras, ¿podemos estar seguros de que a proporción de casos de infección aumentou en máis de 6 puntos porcentuais neses cinco anos? (Usar nivel de confianza do 90%.)

Milton 8.6.4

Considerámo-las variables aleatorias $X$="casos de infección no ano 1970" e $Y$="casos de infección no ano 1975".

Temos $n_1=759$, $\hat{p}_1=0.0606$, $n_2=838$, e $\hat{p}_2=0.1301$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p_1-p_2 &{} \geq -0.06,& H_1\colon p_1-p_2 &{} < -0.06. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de proporcións. Para iso empregámo-lo estatístico \[ \frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)} {\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} +\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{(0.0606 - 0.1301)-(-0.06)} {\sqrt{\frac{0.0606(1-0.0606)}{759} + \frac{0.1301(1-0.1301)}{838}}} =-0.653. \]

O nivel de significación é $\alpha=0.1$. Ademais, o valor de cola é $Z_{0.1}=1.282$. Entón, $-0.653\in[-1.282,\,+\infty)$.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza do 90%, de que en 1975 hai un $6\%$ máis de casos de infección ca en 1970.

A partir dos corenta anos, o cancro de mama pode detectarse a través dunha mamografía. Comprobamos que en 31 mulleres novas afectadas (idade 40-49 anos) houbo 6 casos descubertos a través de mamografía. Por outra parte, nun grupo de 101 mulleres de máis idade, a mamografía foi eficaz en 38 casos. Cun nivel de confianza do 95%, ¿podemos afirmar que a mamografía é menos eficaz nas mulleres novas?

Milton 8.6.3 p. 285

Considerámo-las variables aleatorias $X$="eficacia da mamografía en mulleres novas" e $Y$="eficacia da mamografía en mulleres de máis idade".

Temos $n_1=31$, $\hat{p}_1=0.1935$, $n_2=101$, e $\hat{p}_2=0.3762$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p_1-p_2 &{} \geq 0,& H_1\colon p_1-p_2 &{} < 0. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de proporcións. Para iso empregámo-lo estatístico \[ \frac{\hat{p}_1-\hat{p}_2} {\sqrt{\hat{p}(1-\hat{p})\Bigl(\frac{1}{n_1}+\frac{1}{n_2}\Bigl)}}, \] que segue unha distribución normal estándar.

Aquí considerámo-la proporción ponderada, que se define como \[ \hat{p}=\frac{n_1 \hat{p}_{1}+n_2 \hat{p}_{2}}{n_1+n_2}. \]

Substituíndo na fórmula da proporción ponderada obtemos \[ \hat{p}=\frac{31\cdot 0.1935 + 101\cdot 0.3762} {31+101} =0.3333. \]

O valor no estatístico é \[ \frac{0.1935 - 0.3762} {\sqrt{0.3333\cdot (1-0.3333)\cdot \Bigl(\frac{1}{31} + \frac{1}{101}\Bigl)}} =-1.887. \]

O nivel de significación é $\alpha=0.05$. Ademais, o valor de cola é $Z_{0.05}=1.645$. Así, $-1.887\notin[-1.645,\,+\infty)$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que a proporción de eficacia da mamografía en mulleres novas e menor cá proporción de eficacia da mamografía en mulleres de máis idade.

Para ver se un medidor portátil de glucosa é útil para os diabéticos, mediuse para cada paciente o nivel de glucosa en sangue antes de aprender a usalo, e unhas semanas despois. Nunha mostra aleatoria de 36 individuos atopouse unha diferencia de 2.78mmol/l entre "antes" e "despois", con cuasi-desviación típica das diferencias igual a 6.05. ¿Quere dicir isto que o medidor é efectivo para axudar a reduci-los niveis de glucosa?

Milton 9.5.3 p. 319

Considerámo-las variables aleatorias $X$="nivel de glucosa antes de aprender a usa-lo medidor portátil" e $Y$="nivel de glucosa despois de aprender a usa-lo medidor portátil".

Tomámo-la diferencia destas variables aleatorias $D=X-Y$.

Temos $n=36$, $\overline{D}=2.78$, $s_{D}=6.05$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_D &{} \leq 0,& H_1\colon \mu_D &{} > 0. \end{aligned} \]

Este é un contraste de hipóteses para unha media da diferencia. Para iso empregámo-lo estatístico \[ \frac{\overline{D}-\mu_D}{s_{D}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$.

O valor no estatístico é \[ \frac{2.78-0}{6.05/\sqrt{36}} =2.757. \]

Calculámo-lo valor P como $P=P(t_{35}> 2.757)=0.0046$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.5$%, de que a media do nivel de glucosa antes de aprender a usa-lo medidor portátil é maior cá media do nivel de glucosa despois de aprender a usalo.

En consecuencia, o medidor é efectivo para medi-los niveis de glucosa.

Os datos de temperatura en 1000 estacións meteorolóxicas en todo o mundo deron unha temperatura media de 57 graos Farenheit en 1950, e de 57.6 en 1988, con $s_D=4.1$. ¿Quere isto dicir que a temperatura media do globo aumentou? (Emprega-lo valor $P$.) Dar un intervalo para o aumento global medio (para un nivel de confianza do 90%).

Milton 9.5.5 p. 320

Considerámo-las variables aleatorias $X$, temperatura en 1950, e $Y$, temperatura en 1988. Evidentemente, as mostras están emparelladas, porque as estación meteorolóxicas son as mesmas, só que en distintos tempos. Por tanto, tomámo-la diferencia $D=X-Y$, que asumimos que segue unha distribución normal.

O estatístico a considerar é \[ \frac{\overline{D}-\mu_D}{s_D/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$.

Como datos temos $n=1000$, $\overline{D}=57-57.6=-0.6$ e $s_D=4.1$.

Para a primeira parte do problema temos que face-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &\mu_D\geq 0,& H_1\colon &\mu_D< 0. \end{aligned} \]

Substituíndo no estatístico temos \[ \frac{-0.6-0}{4.1/\sqrt{1000}}=-4.63. \] Como para este apartado non temos nivel de confianza, calculamos $P=P(t_{999}\leq -4.63)<0.0005$ (de feito $P=2.1\cdot 10^{-6}$ con software estatístico). Este valor é moi pequeno, e por tanto rexeitámo-la hipótese nula.

Conclusión: rexeitamos $H_0$, é dicir, existe evidencia significativa, de máis do $99.95$%, de que a temperatura media global entre 1950 e 1988 aumentou.

Para a segunda parte do problema temos que construír un intervalo de confianza para a diferencia. Despexando $\mu_D$ de \[ -t_{n-1,\,\alpha/2}\leq\frac{\overline{D}-\mu_D}{s_D/\sqrt{n}}\leq t_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \overline{D}\pm t_{n-1,\,\alpha/2}\frac{s_D}{\sqrt{n}}. \]

O nivel de confianza dado é $\alpha=0.1$. Así $t_{999,\,0.05}\cong 1.64$. Substituíndo, \[ -0.6\pm 1.64\frac{4.1}{\sqrt{1000}}=-0.6\pm 0.21, \] ou ben, $[-0.81,-0.39]$.

Conclusión: cun nivel de confianza do 90%, a diferencia media global de temperatura entre 1950 e 1988 aumentou entre $0.39$°F e $0.81$°F.

Nun estudio publicado en 2022 preséntase unha análise das consecuencias hospitalarias e de saúde de intoxicacións por organofosfatos empregados en agricultura. Dos 34 pacientes intoxicados, 19 deles tiñan algún tipo de comorbilidade, mentres que os restantes 15 non padecían outras enfermidades. Nos pacientes con comorbilidades o nivel medio de colinesterasa (en unidades por litro, U/l) foi de $2335.37$U/l con cuasidesviación típica de $543.01$U/l, mentres que para o outro grupo a media foi de $4824.55$U/l con cuasidesviación típica de $902.42$U/l. Escribi-las variables e o contraste axeitados para decidir se o nivel medio de colinesterasa é inferior en máis de $2000$U/l nos pacientes con comorbilidades respecto dos pacientes sen comorbilidades. Facer un contraste $F$ para decidir se se poden supoñe-las varianzas iguais ou non. Tomar $\alpha=0.05$ en todo o problema.

Considerámo-las variables aleatorias $X$="nivel de colinesterasa en pacientes con comorbilidades" e $Y$="nivel de colinesterasa en pacientes sen comorbilidades".

Temos $n_1=19$, $\overline{X}=2335.37$, $s_{1}=543.01$, $n_2=15$, $\overline{Y}=4824.55$, $s_{2}=902.42$.

Facemos un contraste de hipóteses sobre o cociente de varianzas para determinar se podemos supoñe-las varianzas poboacionais iguais.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \sigma_1^2 &{} = \sigma_2^2,& H_1\colon \sigma_1^2 &{} \neq \sigma_2^2. \end{aligned} \]

Este é un contraste de hipóteses para un cociente de varianzas. Para iso empregámo-lo estatístico \[ \frac{s_1^{2} / s_2^{2}}{\sigma_1^2 / \sigma_2^2}, \] que segue unha distribución $F$ de Snedecor con $(n_1-1,n_2-1)$ graos de liberdade.

O valor no estatístico é \[ \frac{543.01^{2} / 902.42^{2}}{1} =0.362. \]

O nivel de significación é $\alpha=0.05$. Ademais, os valores de cola son $F_{18, 14,\,0.975}=0.371$, e $F_{18, 14,\,0.025}=2.879$. Entón, $0.362\notin[0.371,\, 2.879]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que as varianzas poboacionais son distintas.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1 - \mu_2 &{} \geq -2000,& H_1\colon \mu_1 - \mu_2 &{} < -2000. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. Para iso empregámo-lo estatístico \[ \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{\sqrt{\frac{s_1^{2}}{n_1} + \frac{s_2^{2}}{n_2}}}, \] que segue unha distribución $t$-Student con $\gamma$ graos de liberdade.

O número de graos de liberdade vén dado pola fórmula de Welch-Smith-Satterthwaite: \[ \gamma\sim \frac{\left(\frac{s_1^{2}}{n_1} + \frac{s_2^{2}}{n_2}\right)^{2}}{\frac{\left(s_1^{2} / n_1\right)^{2}}{n_1 - 1} + \frac{\left(s_2^{2} / n_2\right)^{2}}{n_2 - 1}}. \]

Substituíndo na fórmula de Welsch: \[ \gamma\sim \frac{\left(\frac{543.01^{2}}{19} + \frac{902.42^{2}}{15}\right)^{2}}{\frac{\left(543.01^{2} / 19\right)^{2}}{19 - 1} + \frac{\left(902.42^{2} / 15\right)^{2}}{15 - 1}} =21.765, \] polo que tomamos $\gamma=21$.

O valor no estatístico é \[ \frac{\left(2335.37 - 4824.55\right) - (-2000)}{\sqrt{\frac{543.01^{2}}{19} + \frac{902.42^{2}}{15}}} =-1.851. \]

O nivel de significación é $\alpha=0.05$. Ademais, o valor de cola é $t_{21,\,0.95}=-t_{21,\,0.05}=-1.721$. Entón, $-1.851\notin[-1.721,\,+\infty)$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que a diferencia de medias entre nivel de colinesterasa en pacientes con comorbilidades e nivel de colinesterasa en pacientes sen comorbilidades é menor ca $-2000$.

Problemas de repaso de estimación e contraste de hipóteses

Para que un peixe sobreviva, a cantidade de osíxeno disolto na auga non debe ter unha desviación típica maior cá 1.2 partes por millón. Tomamos mostras de auga en 25 lugares aleatoriamente escollidos dun lago e obtemos $s=1.7$ppm. ¿Evidencia isto que a variabilidade do osíxeno aumentou por riba do parámetro aceptable $\sigma=1.2$?

Milton 7.2.3 p. 256

Considerámo-la variable aleatoria $X$="cantidade de osíxeno disolto na auga".

Temos $n=25$, $s_{n-1}=1.7$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \sigma &{} \leq 1.2,& H_1\colon \sigma &{} > 1.2. \end{aligned} \]

Este é un contraste de hipóteses para unha desviación típica. Para iso empregámo-lo estatístico \[ \frac{(n-1) s_{n-1}^2}{\sigma^2}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{(25-1)\cdot 1.7^2}{1.2^2} =48.167. \]

Calculámo-lo valor P como $P=P(\chi^2_{24}> 48.167)=0.0024$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do 99.8%, de que a desviación típica de cantidade de osíxeno disolto na auga é maior ca $1.2$.

Nun estudo sobre rexeneración de células nerviosas en monos rhesus mediuse o contido en creatinina fosfato na parte esquerda e na parte dereita da espiña dorsal (medido en mg de CF por cada 100g de tecido). Para un nivel de significación do 10%, ¿existe evidencia significativa dunha diferencia na cantidade de CF entre os dous lados? Os datos son os seguintes:

Animal12345678
Lado dereito 16.34.810.914.216.39.929.2 22.4
Lado esquerdo 11.53.612.56.315.28.116.6 13.1

Samuels p. 333

Considerámo-las variables aleatorias $X$="contido en creatinina fosfato na parte esquerda" e $Y$="contido en creatinina fosfato na parte dereita".

Tomámo-la diferencia destas variables aleatorias $D=X-Y$.

Organizámo-los cálculos para obte-la media e cuasi-varianza mostral:

$X$$Y$$D$$D^2$
16.311.54.823.04
4.83.61.21.44
10.912.5-1.62.56
14.26.37.962.41
16.315.21.11.21
9.98.11.83.24
29.216.612.6158.76
22.413.19.386.49
$\Sigma$ 124.086.937.1339.15

De aquí obtemos $n=8$, $\overline{D}=\frac{37.1}{8}=4.638$, $s_n^2=\frac{339.15}{8} - 4.638^2=20.887$, e así, $s_{D} = \sqrt{\frac{8}{7}\cdot 20.887}=4.886$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_D &{} = 0,& H_1\colon \mu_D &{} \neq 0. \end{aligned} \]

Este é un contraste de hipóteses para unha media da diferencia. Para iso empregámo-lo estatístico \[ \frac{\overline{D}-\mu_D}{s_{D}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$.

O valor no estatístico é \[ \frac{4.638-0}{4.886/\sqrt{8}} =2.685. \]

O nivel de significación é $\alpha=0.1$. Ademais, o valor de cola é $t_{7,\, 0.05}=1.895$. Entón, $2.685\notin[-1.895,\, 1.895]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $90.0$%, de que o contido medio en creatinina fosfato na parte esquerda e distinto do contido medio en na parte dereita.

Crese que a maioría dos fumadores empezan a fumar despois dos 18 anos. Nunha mostraxe con 60 individuos, atopouse que o 49% empezou a fumar despois desa idade.

  1. Decidir se hai evidencia de que na poboación a proporción de fumadores que empeza despois dos 18 é menor có 50% (cun nivel de significación do 1%).
  2. Explica-las consecuencias económicas e sanitarias de cometer un erro de tipo I ou un erro de tipo II.

Milton 6.4.6 p. 226

Considerámo-la variable aleatoria $X$="fumadores que empezan a fumar despois dos 18 anos".

Temos $n=60$, e $\hat{p}=0.49$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p &{} \geq 0.5,& H_1\colon p &{} < 0.5. \end{aligned} \]

Este é un contraste de hipóteses para unha proporción. Para iso empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{0.49-0.5} {\sqrt{\frac{0.5(1-0.5)}{60}}} =-0.155. \]

O nivel de significación é $\alpha=0.01$. Ademais, o valor de cola é $Z_{0.01}=2.326$. Así, $-0.155\in[-2.326,\,+\infty)$.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza do 99.0%, de que a proporción de fumadores que empezan a fumar despois dos 18 anos sexa menor ca $50.0$%.

Nun error de tipo I rexeitamos unha $H_0$ que é certa: é un erro económico, xa que nos gastamos o diñeiro en campañas innecesarias de prevención entre os mozos.

Nun erro tipo II, $H_0$ é falsa, pero aceptámola; polo tanto concluímos que a maioría empeza a fumar despois dos 18, cando non é así: é un erro sanitario, xa que non protexemos ós mozos contra o tabaco.

Existe a teoría de que a vitamina C é beneficiosa no tratamento do cancro. Os que a defenden din que hai unha melloría superior ó 4% de casos. Fixemos dous grupos independentes de 75 individuos cada un. Ós primeiros démoslle 10g diarios de vitamina C; ós outros, nada. Ó cabo de catro semanas, no primeiro grupo 47 pacientes presentaron algunha melloría, mentres que este número foi soamente de 43 no segundo grupo. ¿Hai evidencia estatística que apoie a afirmación dos defensores da vitamina C? (emprega-lo valor P).

Milton 8.6.1 p. 280 e 8.6.2 p. 281

Considerámo-las variables aleatorias $X$="melloría de pacientes que tomaron vitamina C" e $Y$="melloría de pacientes que non tomaron nada".

Temos $n_1=75$, $\hat{p}_1=0.6267$, $n_2=75$, e $\hat{p}_2=0.5733$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p_1-p_2 &{} \leq 0.04,& H_1\colon p_1-p_2 &{} > 0.04. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de proporcións. Para iso empregámo-lo estatístico \[ \frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)} {\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} +\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{(0.6267 - 0.5733)-0.04} {\sqrt{\frac{0.6267(1-0.6267)}{75} + \frac{0.5733(1-0.5733)}{75}}} =0.167. \]

Calculámo-lo valor P como $P=P(Z_{}> 0.167)=0.4337$, que é un valor relativamente grande.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza do 56.6%, de que a diferencia de proporcións entre pacientes que melloraron tomando vitamina C e pacientes que melloraron non tomando nada sexa maior có $4\%$.

Estase probando a eficacia de dous tipos de exercicio para mellora-los síntomas da artrite reumatoide. O primeiro tratamento (T1) foi probado en 150 pacientes con esta enfermidade obtendo que 87 deles melloran tras un mes de práctica. O segundo tratamento (T2) foi probado en 160 pacientes dos que 72 melloraron tras un mes de práctica. ¿Podemos asegurar que hai evidencia significativa de que a proporción de pacientes que melloran co tratamiento T1 é superior á do T2? Realiza-lo correspondente contraste de hipóteses.

Considerámo-las variables aleatorias $X$="casos de melloría co tratamento T1" e $Y$="casos de melloría co tratamento T2".

Temos $n_1=150$, $\hat{p}_1=0.58$, $n_2=160$, $\hat{p}_2=0.45$.

Nótese que o valor nulo deste contraste de hipóteses é cero.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p_1-p_2 &{} \leq 0,& H_1\colon p_1-p_2 &{} > 0. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de proporcións. Para iso empregámo-lo estatístico \[ \frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p} \left(1-\hat{p}\right) \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}, \] que segue unha distribución normal estándar.

Aquí considerámo-la proporción ponderada, que se define como \[ \hat{p}=\frac{n_1 \hat{p}_1+n_2 \hat{p}_2}{n_1+n_2}. \]

Substituíndo na fórmula da proporción ponderada obtemos \[ \hat{p}=\frac{150\cdot 0.58+160\cdot 0.45}{150+160} =0.5129. \]

O valor no estatístico é \[ \frac{0.58-0.45}{\sqrt{0.5129 \left(1-0.5129\right) \left(\frac{1}{150}+\frac{1}{160}\right)}} =2.2885. \]

Calculámo-lo valor $P$ como $P=P(Z_{} > 2.288)=0.0111$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $98.9$%, de que a proporción de casos de melloría co tratamento T1 e maior cá proporción de casos de melloría co tratamento T2.

Probas de homoxeneidade e independencia

Investígase a eficacia dunha nova vacina contra a gripe. Elíxese unha mostra de 900 persoas, e clasifícanse segundo que foran ou non vacinadas, e segundo contraeran a gripe durante o último ano ou non. Pídese, cun nivel de confianza do 95%, decidir se hai asociación ou non entre as dúas variables.

Vacinado \ gripesinon
si150200
non300250

Milton 12.1.2 p. 449

Témo-las variables aleatorias $X$="estar vacinado", e $Y$="contrae-la gripe". En primeiro lugar construímo-la táboa de continxencia:

vacinado \ gripesinon$\Sigma$
si150200350
non300250550
$\Sigma$450450900

Como o tamaño da mostra está determinado en toda a poboación, e o investigador simplemente clasifica os datos en dúas categorías, trátase dun contraste de independencia para datos categóricos. Por tanto, temos que face-lo contraste de hipóteses: \[ H_0\colon p_{ij}=p_{i\cdot}p_{\cdot j},\ i\in\{1, 2\},\ j\in\{1, 2\}. \]

A continuación calculámo-las frecuencias esperadas no suposto de que a hipótese nula sexa certa mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$ (en verde), e tamén os valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$ (en vermello), obtendo:

vacinado \ gripesinon$\Sigma$
si
150
175.00
3.57
200
175.00
3.57
350
non
300
275.00
2.27
250
275.00
2.27
550
$\Sigma$450450900

Finalmente calcúlase o valor no estatístico, (que consiste en suma-los valores vermellos). O resultado é 11.69.

O estatístico segue unha distribución $\chi^2$ con $(2-1)(2-1)=1$ grao de liberdade. O nivel de significación é $\alpha=0.05$, así que $\chi^2_{1,\,0.05}=3.84$.

Conclusión: rexeitámo-la hipótese nula, e por tanto, temos evidencia significativa, cun nivel de confianza do 95%, de que hai relación entre estar vacinado e contraer ou non a gripe.

Cremos que existe relación entre o número de cloroplastos das follas das árbores e o nivel de $SO_2$ no aire. Selecciónanse 60 árbores, e clasifícanse en función do nivel de dióxido de azufre da súa zona e o nivel de cloroplastos das súas follas. Obtéñense os seguintes datos:

$SO_2$ \ Cloroplastosaltonormalbaixo
alto5413
normal5105
baixo792
  1. ¿Trátase dunha proba de independencia ou de homoxeneidade?
  2. ¿Que conclusións poden sacarse dos datos? Enuncia a hipótese nula apropiada e razoa en función do valor P obtido.

Milton 12.2.6 p. 457

Témo-las variables aleatorias $X$, número de cloroplastos das follas, e $Y$, nivel de $SO_2$ no aire. En primeiro lugar construímo-la táboa de continxencia:

$SO_2$ \ cloroplastosaltonormalbaixo$\Sigma$
alto541322
normal510520
baixo79218
$\Sigma$17232060

Como o tamaño da mostra está determinado en toda a poboación, e o investigador simplemente clasifica os datos en dúas categorías, trátase dun contraste de independencia para datos categóricos. Por tanto, temos que face-lo contraste de hipóteses: \[ H_0\colon p_{ij}=p_{i\cdot}p_{\cdot j},\ i\in\{1, 2, 3\},\ j\in\{1, 2, 3\}. \]

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$ (en verde), e tamén os valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$ (en vermello), obtendo:

$SO_2$ \ cloroplastosaltonormalbaixo$\Sigma$
alto
5
6.23
0.24
4
8.43
2.33
13
7.33
4.38
22
normal
5
5.67
0.08
10
7.67
0.71
5
6.67
0.42
20
baixo
7
5.10
0.71
9
6.90
0.64
2
6.00
2.67
18
$\Sigma$17232060

Calcúlase o valor no estatístico, (que consiste en suma-los valores vermellos). O resultado é 12.17.

O estatístico segue unha distribución $\chi^2$ con $(3-1)(3-1)=4$ graos de liberdade. Calculando o valor $P=P(\chi^2_4\geq 12.17)$, temos $0.01< P < 0.025$. Empregando software estatístico, $P=P(\chi^2_4\geq 12.17)=0.01612$.

Conclusión: rexeitámo-la hipótese nula, e por tanto, temos evidencia significativa, cun nivel de confianza de máis do 97.5%, de que hai relación entre o número de cloroplastos das follas das árbores e o nivel de $SO_2$ no aire.

Co obxectivo de provoca-la unión dos ósos en fracturas, aplícanse campos electromagnéticos pulsantes. Nunha mostra de 62 fracturas de tibia, 26 de húmero, e 18 de fémur, observouse que o tratamento só tivo éxito en 34, 16, e 10 delas, respectivamente.

  • Construí-la táboa de continxencia axeitada.
  • Á vista dos resultados obtidos na mostra, ¿pódese concluír que o éxito do tratamento depende do tipo de óso que se está tratando?

Temos 3 poboacións, dependendo do "óso no que se produce a fractura", e a variable aleatoria $Y$="éxito".

En primeiro lugar construímo-la táboa de continxencia:

fractura \ éxitosinontamaño
tibia342862
húmero161026
fémur10818
$\Sigma$6046106

Temos que face-lo contraste de hipóteses: \[ H_0\colon p_{11}=p_{21}=p_{31}, p_{12}=p_{22}=p_{32}. \]

Este é un contraste de hipóteses para homoxeneidade de datos categóricos, xa que o tamaño da mostra en cada poboación é fixado polo investigador. Para iso empregámo-lo estatístico \[ \sum_{i,j} \frac{\bigl(n_{ij}-\widehat{E_{ij}}\bigr)^{2}}{\widehat{E_{ij}}}, \] que segue unha distribución $\chi^2$ de Pearson con $(f-1)(c-1)$ graos de liberdade.

O número de graos de liberdade da distribución é $(3-1)(2-1)=2$.

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$:

fractura \ éxitosinontamaño
tibia35.0926.9162
húmero14.7211.2826
fémur10.197.8118
$\Sigma$6046106

Agora calculámo-los valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$:

fractura \ éxitosinon$\Sigma$
tibia0.0340.045
húmero0.1120.146
fémur0.0030.005
$\Sigma$0.344

A suma dos valores intermedios, que coincide co valor no estatístico, é 0.344.

Calculámo-lo valor $P$ como $P=P(\chi^2_{2} > 0.344)=0.8418$, que é un valor grande.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza razoable, de que haxa relación entre o éxito do tratamento e o tipo de óso que se estea tratando.

Realízase un pequeno estudo piloto para determinar se hai asociación entre a aparición de leucemia e os antecedentes de alerxia. Selecciónase unha mostra de 19 pacientes con leucemia e outro grupo de control de 17 persoas, e determínase se hai antecedentes de alerxia ou non.

grupo \ antecedentessinon
paciente172
control512

Calcula-la frecuencia esperada para cada celda e contrastar se a distribución de casos de alerxia é homoxénea nos dous grupos. Explica-la resposta baseándose no valor P do contraste.

Milton 12.1.5 p. 449

Temos dúas poboacións, pacientes de leucemia e grupo de control, e a variable aleatoria $Y$, antecedentes de alerxia. En primeiro lugar construímo-la táboa de continxencia:

grupo \ antecedentespacientecontroltamaño
si17219
non51217
$\Sigma$221436

Como o tamaño da mostra en cada poboación está fixado polo investigador, trátase dun contraste de homoxeneidade para datos categóricos. Por tanto, temos que face-lo contraste de hipóteses: \[ H_0\colon p_{11}=p_{21}, p_{12}=p_{22}. \]

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i}n_{\boldsymbol{\cdot}j}}{n}$ (en verde), e tamén os valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$ (en vermello), obtendo:

grupo \ antecedentespacientecontroltamaño
si
17
11.61
2.50
2
7.39
3.93
19
non
5
10.39
2.80
12
6.61
4.39
17
$\Sigma$221436

Calcúlase o valor no estatístico, (que consiste en suma-los valores vermellos). O resultado é 13.62.

O estatístico segue unha distribución $\chi^2$ con $(2-1)(2-1)=1$ grao de liberdade. Calculando o valor $P=P(\chi^2_1\geq 13.62)$ temos $p<0.001$. De feito, $P=P(\chi^2_1\geq 13.62)=0.00022$.

Conclusión: rexeitámo-la hipótese nula, e por tanto, temos evidencia significativa, cun nivel de confianza superior ó $99.9$%, de que hai asociación entre a aparición da leucemia e os antecedentes de alerxia.

Nun estudo sobre quimioterapia no cancro de pulmón administráronse simultaneamente catro medicamentos a 16 pacientes, mentres que a outro grupo de 11 pacientes déronselle os medicamentos de xeito secuencial. Observouse unha resposta positiva ó tratamento en 11 pacientes do primeiro grupo, e en 3 dos tratados secuencialmente. ¿Proporcionan estes datos evidencia de que unha forma de tratamento é superior á outra?

Samuels 10.2.10

Temos dous grupos de pacientes, os que levan o medicamento de xeito simultáneo e os que o levan de xeito secuencial, e a variable aleatoria $Y$, resposta ó tratamento. En primeiro lugar construímo-la táboa de continxencia:

modo \ respostapositivanegativatamaño
simultáneo11516
secuencial3811
$\Sigma$141327

Como o tamaño da mostra en cada poboación está fixado polo investigador, trátase dun contraste de homoxeneidade para datos categóricos. Por tanto, temos que face-lo contraste de hipóteses: \[ H_0\colon p_{11}=p_{21}, p_{12}=p_{22}. \]

A continuación calculámo-las frecuencias esperadas no suposto de que a hipótese nula sexa certa mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i}n_{\boldsymbol{\cdot}j}}{n}$, e tamén os valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$, obtendo:

modo \ respostapositivanegativatamaño
simultáneo
11
8.30
0.88
5
7.70
0.95
16
secuencial
3
5.70
1.28
8
5.30
1.38
11
$\Sigma$141327

Calcúlase o valor no estatístico (que consiste en suma-los valores vermellos). O resultado é 4.49.

O estatístico segue unha distribución $\chi^2$ con $(2-1)(2-1)=1$ grao de liberdade. O valor $P=P(\chi^2_1\geq 4.49)$ satisfai $0.03<P<0.04$. De feito, $P=P(\chi^2_1\geq 4.49)=0.03406$.

Conclusión: rexeitámo-la hipótese nula, e por tanto, temos evidencia significativa, polo menos do 96%, de que as dúas formas de tratamento se comportan de xeito diferente.

Regresión linear e ANOVA

Realízase un estudo para estima-la relación entre o índice de obesidade $X$ e a taxa metabólica en repouso $Y$. A partir dos datos de 43 individuos obtemos

$\sum X=1482.5$;$\sum Y=10719$;
$\sum X^2=53515.25$;$\sum Y^2=2736063$;$\sum XY=379207.5$.
  1. ¿Que taxa metabólica correspondería a un índice de obesidade $X=40$?
  2. Calcular e interpreta-lo coeficiente de determinación.
  3. Contrasta-lo modelo de regresión linear.

Milton 11.3.4 p. 414

Denotamos $X$="índice de obesidade", e $Y$="taxa metabólica en repouso". Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
$\Sigma$ 1482.510719.0 53515.25379207.52736063.0

Temos $n=43$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{1482.5}{43}=34.477,\\ \overline{Y} &{}=\frac{10719.0}{43}=249.279,\\ s_X^2 &{}=\frac{53515.25}{43}-34.477^2=55.895,\\ s_Y^2 &{}=\frac{2736063.0}{43}-249.279^2=1489.317,\\ s_{XY} &{}=\frac{379207.5}{43}-34.477\cdot 249.279=224.448. \end{aligned} \] De aquí obtemos $b=224.448/55.895=4.016$ e $a=249.279-4.016\cdot 34.477=110.836$, co que a ecuación da recta de regresión é \[ y=110.836+4.016x. \]

En particular para un índice de obesidade $x=40$ correspondería unha taxa metabólica en repouso de $y=110.836+4.016\cdot 40=271.46$.

A estimación do coeficiente de correlación é \[ r=\frac{224.448}{\sqrt{55.895 \cdot 1489.317}}=0.778. \] A calidade da aproximación é moderada.

O coeficiente de determinación vén dado por $r^2=0.605$. Isto interprétase do seguinte xeito: o 60.5% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Contrastámo-la validez do modelo de regresión linear. Para iso facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Os datos necesarios están recollidos na seguinte táboa:

variabilidadeg.l.$SS$$MS$$F$
regresión $1$ $SS_R=43\cdot 0.605\cdot 1489.3=38755.2$ $MS_R=38755.186$ $62.8$
erro $41$ $SS_E=43\cdot(1-0.605)\cdot1489.3=25285.5$ $MS_E=\frac{25285.465}{41}=616.719$
total $42$ $SS_Y=43\cdot 1489.317=64040.651$

Como $P=P(F_{1,41}\geq 62.841)=0.8\cdot 10^{-9}$ é un valor pequeno, rexeitámo-la hipótese nula. Concluímos que hai evidencia significativa de que o modelo de regresión linear é válido.

A seguinte táboa recolle os datos de presións sistólicas ($P$) de cinco individuos en función da súa idade ($t$):

$t$ idade (anos)2030405060
$P$ presión (mm Hg)125128131133138
  1. ¿Que ecuación linear nos permite estimar $P$ para un individuo de 25 anos?
  2. Calcula-lo coeficiente de determinación e interpreta-lo resultado.
  3. Contrasta-lo modelo de regresión linear.

Denotamos $t$="idade", e $P$="presión sistólica". Organizámo-los cálculos nunha táboa.

$X=t$$Y=P$$X^2$$XY$$Y^2$
20125 400250015625
30128 900384016384
40131 1600524017161
50133 2500665017689
60138 3600828019044
$\Sigma$ 200655 90002651085903
Puntos e recta de regresión. 20.0 30.0 40.0 50.0 60.0 70.0 125.0 130.0 135.0 140.0 145.0 150.0
Os puntos e a súa recta de regresión

Temos $n=5$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{200}{5}=40.0,\\ \overline{Y} &{}=\frac{655}{5}=131.0,\\ s_X^2 &{}=\frac{9000}{5}-40.0^2=200.0,\\ s_Y^2 &{}=\frac{85903}{5}-131.0^2=19.6,\\ s_{XY} &{}=\frac{26510}{5}-40.0\cdot 131.0=62.0. \end{aligned} \] De aquí obtemos $b=62.0/200.0=0.31$ e $a=131.0-0.31\cdot 40.0=118.6$, co que a ecuación da recta de regresión é \[ y=118.6+0.31x. \]

Avaliando na recta de regresión, para a variable "idade" $t=25$ estímase a "presión sistólica" \[ P=118.6+0.31\cdot 25=126.35. \]

A estimación do coeficiente de correlación é \[ r=\frac{62.0}{\sqrt{200.0 \cdot 19.6}}=0.99. \] A calidade da aproximación é forte.

O coeficiente de determinación vén dado por $r^2=0.981$. Isto interprétase do seguinte xeito: o 98.1% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Contrastámo-la validez do modelo de regresión linear. Para iso facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Os datos necesarios están recollidos na seguinte táboa:

variabilidadeg.l.$SS$$MS$cociente
regresión $1$ $SS_R=5\cdot 0.981\cdot 19.6=96.1$ $MS_R=96.1$ $151.737$
erro $3$ $SS_E=5\cdot(1-0.981)\cdot19.6=1.9$ $MS_E=\frac{1.9}{3}=0.633$
total $4$ $SS_Y=5\cdot 19.6=98.0$

Como $P=P(F_{1,3}\geq 151.737)=0.0012$ é un valor pequeno, rexeitámo-la hipótese nula. Concluímos que hai evidencia significativa de que o modelo de regresión linear é válido.

Realizouse un experimento para estima-la concentración plasmática $Y$ dunha substancia a partir da súa concentración $X$ na saliva. Os datos experimentais foron:

$X$7.47.58.59.011.013.0 14.014.516.017.0
$Y$30.025.031.527.540.248.0 52.054.056.558.0

Calcula-la recta de regresión e contrasta-lo modelo de regresión linear (ANOVA).

Denotamos $X$="concentración na saliva", e $Y$="concentración plasmática". Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
7.430.0 54.76222.0900.0
7.525.0 56.25187.5625.0
8.531.5 72.25267.75992.25
9.027.5 81.0247.5756.25
11.040.2 121.0442.21616.04
13.048.0 169.0624.02304.0
14.052.0 196.0728.02704.0
14.554.0 210.25783.02916.0
16.056.5 256.0904.03192.25
17.058.0 289.0986.03364.0
$\Sigma$ 117.9422.7 1505.515391.9519369.79
Puntos e recta de regresión. 9.0 12.0 15.0 18.0 21.0 24.0 20.0 30.0 40.0 50.0 60.0 70.0
Os puntos e a súa recta de regresión

Temos $n=10$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{117.9}{10}=11.79,\\ \overline{Y} &{}=\frac{422.7}{10}=42.27,\\ s_X^2 &{}=\frac{1505.51}{10}-11.79^2=11.547,\\ s_Y^2 &{}=\frac{19369.79}{10}-42.27^2=150.226,\\ s_{XY} &{}=\frac{5391.95}{10}-11.79\cdot 42.27=40.832. \end{aligned} \] De aquí obtemos $b=40.832/11.547=3.536$ e $a=42.27-3.536\cdot 11.79=0.579$, co que a ecuación da recta de regresión é \[ y=0.579+3.536x. \]

A estimación do coeficiente de correlación é \[ r=\frac{40.832}{\sqrt{11.547 \cdot 150.226}}=0.98. \] A calidade da aproximación é forte.

O coeficiente de determinación vén dado por $r^2=0.961$. Isto interprétase do seguinte xeito: o 96.1% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Contrastámo-la validez do modelo de regresión linear. Para iso facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Os datos necesarios están recollidos na seguinte táboa:

variabilidadeg.l.$SS$$MS$cociente
regresión $1$ $SS_R=10\cdot 0.961\cdot 150.226=1443.875$ $MS_R=1443.875$ $197.838$
erro $8$ $SS_E=10\cdot(1-0.961)\cdot150.226=58.386$ $MS_E=\frac{58.386}{8}=7.298$
total $9$ $SS_Y=10\cdot 150.226=1502.261$

Como $P=P(F_{1,8}\geq 197.838)=0.6\cdot 10^{-6}$ é un valor pequeno, rexeitámo-la hipótese nula. Concluímos que hai evidencia significativa de que o modelo de regresión linear é válido.

A cantidade de arsénico no arroz (variable $Y$, en $\mu g/kg$) parece estar relacionada coa de silicio na palla de arroz (variable $X$, en $g/kg$). Ó estudar 32 plantas obtémo-los seguintes datos:

$\overline{X}=29.85$,   $s_X=10.04$,   $\overline{Y}=122.25$   $s_Y=44.50$,   $r=-0.556$.

  1. ¿Que cantidade de arsénico estimamos cando $X=12$?
  2. Calcula-la varianza residual dos erros de estimación.
  3. ¿Que proporción de varianza da concentración de arsénico está explicada pola relación linear co contido de silicio?

Samuels p. 505

Denotamos $X$="cantidade de silicio na palla de arroz", e $Y$="cantidade de arsénico no arroz".

Temos $n=32$ datos e $\overline{X}=29.85$, $\overline{Y}=122.25$, $s_X=10.04$, $s_Y=44.50$ e $r=-0.556$. Como $r=\frac{s_{XY}}{s_X s_Y}$, despexando obtemos $s_{XY}=-0.556\cdot 10.04\cdot 44.50=-248.41$. De aquí obtemos os resultados $b=-248.41/100.802=-2.464$ e $a=122.25-(-2.464)\cdot 29.85=195.811$, co que a ecuación da recta de regresión é \[ y=195.811-2.464x. \]

En particular para unha cantidade de silicio $x=12$ estimamos unha cantidade de arsénico $y=195.811-2.464\cdot 12=166.24$.

O coeficiente de determinación vén dado por $r^2=0.309$. Isto interprétase do seguinte xeito: o 30.9% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

A varianza residual do erro de estimación vén dada pola expresión \[ s_E^2=\frac{1}{n}SS_E=(1-r^2)s_Y^2=(1-0.309)\cdot 44.50^2=1368.08, \] o que se corresponde co segundo apartado do exercicio.

Aplicáronse dous cuestionarios a 670 persoas: un medía o nivel de estrés ó que estiveran sometidas $X$, e o outro detectaba posibles trastornos de saúde $Y$. Ó calcula-lo coeficiente de correlación de Pearson obtívose $r=0.24$. ¿É compatible este resultado coa hipótese $\rho=0$? (tomar $\alpha=5\%$)

Sexa pois $X$ o nivel de estrés e $Y$ os trastornos de saúde.

Contrastámo-la validez do modelo de regresión linear. Para iso facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Sabemos que $r=0.24$. Os datos necesarios están recollidos na seguinte táboa (nótese que $s_Y^2$ non é coñecido, pero cancélase ó realiza-las contas):

g.l.$SS$$MS$cociente
regresión $1$ $SS_R=670\cdot 0.24^2 s_Y^2=38.6 s_Y^2$ $MS_R=\frac{38.6 s_Y^2}{1}=38.6 s_Y^2$ $\frac{38.6 s_Y^2}{0.95 s_Y^2}=40.8$
erro $668$ $SS_E=670\cdot(1-0.24^2)s_Y^2=631.4 s_Y^2$ $MS_E=\frac{631.4 s_Y^2}{668}=0.95 s_Y^2$
total $669$ $SS_Y=670s_Y^2$

Temos $\alpha=0.05$. Como $F_{1,\,668,\,0.05}=3.855$ é menor có valor no estatísitico, concluímos que hai evidencia significativa de que o modelo de regresión linear é válido, e que cunha confianza do 95% podemos afirmar que $\rho\neq 0$.

Déronse distintas doses dunha substancia velenosa a sete grupos de 26 ratos, e observáronse os seguintes resultados:

$X$ doses (mg) 46810121416
$Y$ número de mortes 1368141620
  1. Calcula-la ecuación da recta de mínimos cadrados axustada a estes datos.
  2. Estima-lo número de mortes nun grupo de 26 ratos que recibiron unha dose de 7mg deste veleno.
  3. Contrasta-lo modelo de regresión linear.

Denotamos $X$="doses", e $Y$="número de mortes". Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
41 1641
63 36189
86 644836
108 1008064
1214 144168196
1416 196224256
1620 256320400
$\Sigma$ 7068 812862962
Puntos e recta de regresión. 4.0 8.0 12.0 16.0 20.0 24.0 0.0 7.0 14.0 21.0 28.0 35.0
Os puntos e a súa recta de regresión

Temos $n=7$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{70}{7}=10.0,\\ \overline{Y} &{}=\frac{68}{7}=9.714,\\ s_X^2 &{}=\frac{812}{7}-10.0^2=16.0,\\ s_Y^2 &{}=\frac{962}{7}-9.714^2=43.061,\\ s_{XY} &{}=\frac{862}{7}-10.0\cdot 9.714=26.0. \end{aligned} \] De aquí obtemos $b=26.0/16.0=1.625$ e $a=9.714-1.625\cdot 10.0=-6.536$, co que a ecuación da recta de regresión é \[ y=-6.536+1.625x. \]

Para un grupo de 26 ratos que recibiron unha dose de $X=7$mg do veleno, estimamos que o número de mortes será de $Y=-6.54+1.62\cdot 7=4.84$. Cabería entón esperar que a estimación sería de 5 mortes.

A estimación do coeficiente de correlación é \[ r=\frac{26.0}{\sqrt{16.0 \cdot 43.061}}=0.991. \] A calidade da aproximación é forte.

O coeficiente de determinación vén dado por $r^2=0.981$. Isto interprétase do seguinte xeito: o 98.1% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Contrastámo-la validez do modelo de regresión linear. Para iso facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Os datos necesarios están recollidos na seguinte táboa:

variabilidadeg.l.$SS$$MS$cociente
regresión $1$ $SS_R=7\cdot 0.981\cdot 43.061=295.75$ $MS_R=295.75$ $260.409$
erro $5$ $SS_E=7\cdot(1-0.981)\cdot43.061=5.679$ $MS_E=\frac{5.679}{5}=1.136$
total $6$ $SS_Y=7\cdot 43.061=301.429$

Como $P=P(F_{1,5}\geq 260.409)=0.2\cdot 10^{-4}$ é un valor pequeno, rexeitámo-la hipótese nula. Concluímos que hai evidencia significativa de que o modelo de regresión linear é válido.

Lévase a cabo un estudo sobre as características corporais e o modo de actuar de levantadores de peso olímpicos. Estúdanse as variables $X$, peso corporal, e $Y$, mellor levantamento, obtendo:

$X$ 134138154178176190190 205205206
$Y$ 185238260290312336339 341358359
  1. Debuxa-la nube de puntos. Baseándose nela, ¿pódese esperar que $b$ sexa positivo ou negativo?
  2. Calcular e interpreta-lo coeficiente de determinación.
  3. Comproba-la idoneidade do modelo de regresión linear. Se é axeitado calcula-la liña de regresión de $X$ sobre $Y$, estima-lo mellor levantamento dun atleta que pesa 200 libras.

Milton 11.4.1

Denotamos $X$="peso corporal", e $Y$="mellor levantamento".

En primeiro lugar pintámo-la nube de puntos. Xa que o peso do mellor levantamento vai aumentando a medida que aumenta o peso corporal, é de esperar que a pendente da recta de regresion sexa positiva. Así, $b$ será positivo.

Puntos e recta de regresión. 140.0 160.0 180.0 200.0 220.0 240.0 180.0 240.0 300.0 360.0 420.0 480.0
Os puntos e a súa recta de regresión

Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
134185 179562479034225
138238 190443284456644
154260 237164004067600
178290 316845162084100
176312 309765491297344
190336 3610063840112896
190339 3610064410114921
205341 4202569905116281
205358 4202573390128164
206359 4243673954128881
$\Sigma$ 17763018 322062549705941056

Temos $n=10$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{1776}{10}=177.6,\\ \overline{Y} &{}=\frac{3018}{10}=301.8,\\ s_X^2 &{}=\frac{322062}{10}-177.6^2=664.44,\\ s_Y^2 &{}=\frac{941056}{10}-301.8^2=3022.36,\\ s_{XY} &{}=\frac{549705}{10}-177.6\cdot 301.8=1370.82. \end{aligned} \] De aquí obtemos $b=1370.82/664.44=2.063$ e $a=301.8-2.063\cdot 177.6=-64.61$, co que a ecuación da recta de regresión é \[ y=-64.61+2.063x. \]

A estimación do coeficiente de correlación é \[ r=\frac{1370.82}{\sqrt{664.44 \cdot 3022.36}}=0.967. \] A calidade da aproximación é forte.

O coeficiente de determinación vén dado por $r^2=0.936$. Isto interprétase do seguinte xeito: o 93.6% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Contrastámo-la validez do modelo de regresión linear. Para iso facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Os datos necesarios están recollidos na seguinte táboa:

g.l.$SS$$MS$cociente
regresión $1$ $SS_R=10\cdot 0.936\cdot 3022.36=28281.673$ $MS_R=28281.673$ $116.51$
erro $8$ $SS_E=10\cdot(1-0.936)\cdot3022.36=1941.927$ $MS_E=\frac{1941.927}{8}=242.741$
total $9$ $SS_Y=10\cdot 3022.36=30223.6$

Como $P=P(F_{1,8}\geq 116.51)=0.5\cdot 10^{-5}$ é un valor pequeno, rexeitámo-la hipótese nula. Concluímos que hai evidencia significativa de que o modelo de regresión linear é válido.

Finalmente, como o modelo de regresión parece acertado, calculámo-lo mellor levantamento que lle correspondería a un atleta de $X=200$ libras mediante a fórmula $Y=-64.61+2.06\cdot 200=348$.