Exames resoltos

Exame 1

Ó estuda-la coagulación do sangue utilízase a variable normal $X$, tempo parcial activado en segundos da tromboplastina. Os valores seguintes representan unha mostra aleatoria de 10 observacións sobre $X$ para un determinado paciente:

45   40   47   46   42   50   47   48   49   49.

  1. Construír un intervalo para o tempo parcial medio da tromboplastina para ese paciente, cun nivel de confianza do 99%.
  2. Se a varianza poboacional é 9, ¿cal ten que se-lo tamaño da mostra para que a diferenza entre a media mostral e a media poboacional sexa como moito de ±1 segundo, cun nivel de confianza do 99%?

Sexa pois $X$="tempo parcial activado en segundos da tromboplastina".

Para o primeiro apartado temos que calcular un intervalo de confianza para a media empregando o estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$. Despexando $\mu$ da inecuación \[ \left\lvert \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\right\rvert \leq t_{n-1,\,\alpha/2} \] obtense a fórmula \[ \overline{X}\pm t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}. \]

Temos $n=10$. Organizámo-los cálculos para calcula-la media e cuasi-varianza mostral:

$X$$X^2$
452025
401600
472209
462116
421764
502500
472209
482304
492401
492401
$\Sigma$46321529

De aquí obtemos $\overline{X}=463/10=46.3$, $s_n^2=21529/10-46.3^2=9.21$, e así, $s_{n-1}=\sqrt{\frac{10}{9}\, 9.21}=3.20$.

Nivel de significación $\alpha=0.01$. Buscámo-lo valor $t_{9,\,0.005}=3.25$ nas táboas. Aplicando a fórmula \[ 46.3\pm 3.25 \frac{3.20}{\sqrt{10}}=46.3\pm 3.29, \] de onde se deduce o intervalo $[43.01,\, 49.59]$.

Conclusión: cun nivel de confianza do 99%, o tempo parcial activado medio da tromboplastina atópase entre 43.01 e 49.59 segundos.

Para o segundo apartado témo-lo dato $\sigma^2=9$. Como a varianza poboacional é coñecida, empregámo-lo estatístico \[ \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}, \] que ten distribución normal estándar. Despexando $\mu$ da inecuación \[ \left\lvert\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right\rvert \leq Z_{\alpha/2} \] obtémo-la fórmula \[ \overline{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}. \] A estimación do erro é $Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$, e queremos $Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\leq\epsilon$, onde $\epsilon$ é o valor fixado polo problema. Despexando $n$ obtense $n\geq(Z_{\alpha/2}\,\sigma/\epsilon)^2$.

O nivel de confianza é $\alpha=0.01$. Mirando as táboas obtemos $Z_{0.005}=2.58$. Neste caso $\epsilon=1$. Substituíndo na fórmula $n\geq (2.58\cdot 3/1)^2=59.7$.

Conclusión: para que a diferenza entre a media mostral e a media poboacional no tempo parcial activado en segundos da tromboplastina sexa como moito de ±1 segundo cun nivel de confianza do 99%, teriamos que tomar unha mostra de polo menos 60 elementos.

Estase a probar un antibiótico chamado DOXICICLINA para previr a "diarrea do viaxeiro". O fármaco foi probado sobre 64 voluntarios que foron a Kenya. A unha metade déuselle doxiciclina e á outra un placebo. Dos que recibiron doxiciclina, 24 libráronse do trastorno, mentres que só 16 dos do outro grupo se libraron.

  1. Construír un intervalo de confianza do 95% para a diferenza entre as porcentaxes de protección entre aqueles que utilizaron doxiciclina e os que non a utilizaron. Interpreta-lo intervalo.
  2. ¿Pódese asegurar que a doxiciclina contribúe a proporcionar protección contra a diarrea do viaxeiro? Explicalo sobre a base do valor P.

As variables aleatorias a considerar son $X$, non ter diarrea do viaxeiro entre voluntarios que tomaron doxiciclina, e $Y$, non ter diarrea do viaxeiro entre voluntarios que tomaron placebo.

Para o primeiro apartado temos que calcular un intervalo de confianza para a diferencia de porcentaxes empregando o estatístico \[ \frac{(\widehat{p_1-p_2})-(p_1-p_2)} {\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}}, \] que segue unha distribución normal estándar. Nótese que as poboacións non están emparelladas. O intervalo de confianza pedido obtense despexando $p_1-p_2$ da desigualdade \[ \Biggl\lvert\frac{(\widehat{p_1}-\widehat{p_2})-(p_1-p_2)} {\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} \Biggr\rvert\leq Z_{\alpha/2}, \] de onde se obtén a fórmula \[ (\widehat{p_1}-\widehat{p_2}) \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}. \]

Temos como datos $n_1=32$, $\widehat{p_1}=24/32=0.75$, $n_2=32$, $\widehat{p_2}=16/32=0.5$.

Nivel de significación $\alpha=0.05$. Buscamos na táboa $Z_{0.025}=1.96$. Substituíndo na fórmula: \[ (0.75-0.5)\pm 1.96\sqrt{\frac{0.75(1-0.75)}{32}+\frac{0.5(1-0.5)}{32}}=0.25\pm 0.229, \] de onde se obtén o intervalo $[0.021,\, 0.479]$.

Conclusión: cun nivel de confianza do 95%, a diferencia de proporción de viaxantes a Kenya que non tiveron a diarrea do viaxeiro entre os que tomaron doxiciclina e os que tomaron placebo sitúase entre o 2.1% e o 47.9%.

Para a segunda cuestión temos que face-lo contraste de hipóteses \[ \begin{aligned} H_0 &\colon p_1\leq p_2, & H_1 &\colon p_1 > p_2. \end{aligned} \]

Este contraste ten cero como valor nulo. En consecuencia, agora temos que emprega-lo estatístico \[ \frac{\hat{p}_1-\hat{p}_2} {\sqrt{\hat{p}(1-\hat{p})\Bigl(\frac{1}{n_1}+\frac{1}{n_2}\Bigl)}}, \] que tamén segue unha distribución normal estándar, e onde \[ \hat{p}=\frac{n_1\hat{p}_1+n_2\hat{p}_2}{n_1+n_2}. \]

Substituíndo temos, en primeiro lugar \[ \hat{p}=\frac{32\cdot 0.75+32\cdot 0.5}{32+32}=0.625, \] o cal nos dá o valor no estatístico \[ \frac{0.75-0.5}{\sqrt{0.625(1-0.625)\left(\frac{1}{32}+\frac{1}{32}\right)}}=2.07. \]

Calculamos agora o valor P mirando a táboa da distribución normal: $P=P(z>2.07)=0.01923$. Temos que $1\% < P < 2.5\%$.

Conclusión: rexeitámo-la hipótese nula e concluímos que existe evidencia significativa, polo menos do 97.5%, de que a doxiciclina aumenta a proporción de viaxantes a Kenya que non teñen diarrea do viaxeiro fronte a aqueles que tomaron placebo. Por tanto, a doxiciclina contribúe a proporcionar protección contra a diarrea do viaxeiro.

A seguinte táboa representa as presións sanguíneas sistólicas (mm Hg) de 10 individuos alcohólicos rehabilitados, antes e despois de deixa-la bebida

Individuo 1 2 3 4 5 6 7 8 9 10
Antes 140 165 160 160 175 190 170 175 155 160
Despois 145 150 150 155 170 175 160 165 145 170

Supoñendo que as poboacións están distribuídas normalmente,

  1. Estimar mediante un intervalo de confianza do 95% o cambio da presión sistólica que produce o abandono do alcohol. Interpretar o devandito intervalo.
  2. ¿Hai evidencias suficientes, cun nivel de significación do 5%, para dicir que a presión sanguínea sistólica diminúe despois de deixa-la bebida?

As variables aleatorias a considerar son $X$, presión sanguínea sistólica dun alcohólico antes de deixa-la bebida, e $Y$, presión sanguínea sistólica dun alcohólico despois de deixa-la bebida. Obviamente trátase dun problema de comparación de dúas poboacións con mostras emparelladas, así que debemos toma-la variable diferencia $D=X-Y$.

O estatístico que temos que tomar é $\frac{\overline{D}-\mu_D}{s_D/\sqrt{n}}$, que segue unha distribución $t_{n-1}$. O primeiro que facemos é dispoñe-los datos para calcula-los elementos da fórmula:

$X$$Y$$D$$D^2$
140145-525
16515015225
16015010100
160155525
175170525
19017515225
17016010100
17516510100
15514510100
160170-10100
$\Sigma$16501585651025

Temos $n=10$. Por tanto, $\overline{D}=65/10=6.5$, $s_{n,\,D}^2=1025/10-6.5^2=60.25$, e $s_{n-1,\,D}=\sqrt{\frac{10}{9}\,60.25}=8.18$.

Como no primeiro apartado temos que calcular un intervalo de confianza, despexamos $\mu_D$ da desigualdade \[ \left\lvert\frac{\overline{D}-\mu_D}{s_D/\sqrt{n}}\right\rvert \leq t_{n-1,\,\alpha/2}, \] de onde obtemos $\overline{D}\pm t_{n-1,\,\alpha/2}\frac{s_D}{\sqrt{n}}$.

Nivel de significación $\alpha=0.05$. Mirámo-lo valor $t_{9,\,0.025}=2.2622$ nas táboas. Substituíndo na fórmula anterior obtemos \[ 6.5\pm 2.26\frac{8.18}{\sqrt{10}}=6.5\pm 5.85, \] o que nos dá un intervalo $[0.64,\, 12.35]$.

Conclusión: cun nivel de confianza do 95%, a diferencia media das presións sanguíneas sitólicas dun alcohólico rehabilitado entre antes e despois de deixa-la bebida sitúase entre 0.6 e 12.3mm Hg.

Para a segunda parte do exercicio, temos que face-lo seguinte contraste de hipóteses: \[ \begin{aligned} H_0\colon & \mu_D \leq 0, & H_1\colon & \mu_D > 0. \end{aligned} \]

Como xa calculámo-los datos, substituímos no estatístico \[ \frac{6.5-0}{8.18/\sqrt{10}}=2.51. \] Pero agora necesitamos mirar na táboa $t_{9,\,0.05}=1.83$, que é menor ca 2.51.

Conclusión: rexeitamos $H_0$ e concluímos que hai evidencia significativa, ó 95% de confianza, de que a presión sanguínea sistólica dun alcohólico rehabilitado dimínúe despois de deixa-la bebida.

Deseñouse un estudo para analiza-la posible relación entre o medio no que viven e a incidencia de trastorno depresivo das persoas no paro. Seleccionáronse suxeitos pertencentes a medios rurais, semiurbanos e urbanos. De cada medio seleccionouse unha mostra aleatoria de 100 suxeitos no paro, obtendo que 12 do rural, 16 do semiurbano e 32 do urbano presentaban trastorno depresivo.

  1. Construí-la táboa de continxencia axeitada. ¿Trátase dunha proba de independencia ou de homoxeneidade?
  2. ¿Pode afirmarse, cun 1% de nivel de significación, que na poboación de desempregados existe relación entre o tipo de medio no que se vive e padecer ou non trastorno depresivo?

Temos tres poboacións dependendo do medio no que viven, e a variable aleatoria $Y$="incidencia de trastorno depresivo". En primeiro lugar construímo-la táboa de continxencia:

medio \ trastornosinontamaño
rural1288100
semiurbano1684100
urbano3268100
$\Sigma$60240300

O tamaño da mostra en cada medio está fixado polo investigador, trátase dunha proba de homoxeneidade para datos categóricos. Por tanto, temos que face-lo contraste de hipóteses: \[ H_0\colon p_{11}=p_{21}=p_{31},\ p_{12}=p_{22}=p_{32}. \]

A continuación calculámo-los valores esperados no suposto de que houbese homoxeneidade nas poboacións mediante a fórmula $\widehat{E_{ij}} =\frac{n_{i}n_{\boldsymbol{\cdot}j}}{n}$ (en verde), e tamén os valores $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$ (en vermello), obtendo:

medio \ trastornosinon$\Sigma$
rural
12
20
3.2
88
80
0.8
100
semiurbano
16
20
0.8
84
80
0.2
100
urbano
32
20
7.2
68
80
1.8
100
$\Sigma$60240300

Finalmente aprovéitanse todas estes contas para calcula-lo valor no estatístico, (que consiste en suma-los valores vermellos), para obter 14.

O estatístico segue unha distribución $\chi^2$ con $(3-1)(2-1)=2$ graos de liberdade. Dannos un nivel de significación $\alpha=0.01$, así que índonos ás táboas obtemos $\chi^2_{2,\,0.01}=9.21$, que é menor ca 14.

Conclusión: rexeitámo-la hipótese nula, e concluímos que hai evidencia significativa, cun nivel de confianza do 99%, de que a incidencia de trastorno depresivo nas persoas en paro é distinto dependendo de se o medio no que viven é rural, semiurbano ou urbano.

Os seguintes datos corresponden a idade ($X$ en anos) e a conduta agresiva ($Y$ medida nunha escala de 0 a 10) dun grupo de 10 nenos, de entre 6 e 9 anos, elexidos ó azar

$\sum X = 75$,   $\sum Y = 49$,   $\sum X^2 = 570.72$,   $\sum Y^2 = 313$,   $\sum XY = 345.2$.

  1. Estima-la recta de regresion que permita predicir o valor da conduta agresiva en funcion da idade do neno.
  2. Calcula-lo coeficiente de determinacion $r^2$ e interpreta-lo seu resultado.
  3. Contrasta-lo modelo de regresion lineal.

Estamos chamando $X$ á idade en anos, e $Y$ á conducta agresiva dos nenos. Temos que calcula-la recta de regresión de $Y$ sobre $X$.

Entón temos $n=10$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{75}{10}=7.5,\\ \overline{Y} &{}=\frac{49}{10}=4.9,\\ s_X^2 &{}=\frac{570.72}{10}-7.5^2=0.82,\\ s_Y^2 &{}=\frac{313}{10}-4.9^2=7.29,\\ s_{XY} &{}=\frac{345.2}{10}-7.5\cdot 4.9=-2.23. \end{aligned} \] Temos $b=-2.23/0.82=-2.71$ e $a=4.9+2.71\cdot 7.5=25.25$ co que a ecuación da recta de regresión é \[ y = 25.25 - 2.71 x. \]

A estimación do coeficiente de correlación é \[ r=\frac{-2.23}{\sqrt{0.82\cdot 7.29}}=-0.91, \] de xeito que a calidade da aproximación parece bastante boa.

A estimación do coeficiente de determinación é $r^2=0.830$. Isto interprétase do seguinte xeito: o 83% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Para contrasta-lo modelo de regresión linear temos que facer \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Os datos necesarios están recollidos na seguinte táboa:

variabilidadeg.l.$SS$$MS$cociente
regresión $1$ $SS_R=10\cdot 0.83\cdot 7.29=60.50$ $MS_R=60.50$ $39.02$
erro $8$ $SS_E=10(1-0.83)7.29=12.40$ $MS_E=\frac{12.40}{8}=1.55$
total $9$ $SS_Y=10\cdot 7.29=72.9$

Como $P=P(F_{1,8}\geq 39.02)< 0.01$ é un número moi pequeno (de feito, empregando software estatístico temos $P=0.00025$), rexeitámo-la hipótese nula. Concluímos que hai evidencia significativa de que o modelo de regresión linear é válido.

Exame 2

Nunha mostra de 28 virus mediuse, mediante técnicas de microscopía electrónica, o diámetro da cápside, resultando unha media mostral de 12500 Å cunha desviación típica mostral de 2100 Å. O diámetro distribúese normalmente con media e desviación típica descoñecidas.

  1. Construír un intervalo do 95% de confianza para o tamaño medio do diámetro da cápside e outro, co mesmo nivel de confianza, para a desviación típica.
  2. Supoñendo que a desviación típica da población é conocida, igual a 2250 Å, ¿cal debe se-lo tamaño da mostra para poder estimar, co 95% de confianza, o diámetro medio da poboación de cápsides cun error non superior a 400 Å?

Considerámo-la variable aleatoria $X$="diámetro da cápside".

Temos $n=28$, $\overline{X}=12500.0$, $s_{n-1}^2=4410000.0$, e $s_{n-1}=2100.0$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}} \right\rvert \leq t_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \overline{X} \pm t_{n-1,\,\alpha/2} \frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $t_{27,\,0.025}=2.052$. Substituímos na fórmula \[ 12500.0 \pm 2.052 \cdot \frac{2100.0}{\sqrt{28}} = 12500.0 \pm 814.295. \] Por tanto obtense o intervalo $[11685.705,\, 13314.295]$.

Conclusión: cun nivel de confianza do $95.0$%, a media de diámetro da cápside atópase entre $11685.705$ e $13314.295$.

Calculamos un intervalo de confianza para unha desviación típica empregando o estatístico \[ \frac{\left(n - 1\right) s_{n-1}^{2}}{\sigma^2}, \] que segue unha distribución $\chi^2$ de Pearson con $n-1$ graos de liberdade. Despexando $\sigma^2$ da desigualdade \[ \chi^2_{n-1,\,1-\alpha/2} \leq \frac{\left(n - 1\right) s_{n-1}^{2}}{\sigma^2} \leq \chi^2_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \left[\frac{\left(n - 1\right) s_{n-1}^{2}}{\chi^2_{n-1,\,\alpha/2}},\, \frac{\left(n - 1\right) s_{n-1}^{2}}{\chi^2_{n-1,\,1-\alpha/2}}\right]. \]

O nivel de significación é $\alpha=0.05$. Temos que buscar dous valores da $\chi^2$: $\chi^2_{27,\,0.025}=43.195$ e $\chi^2_{27,\,0.975}=14.573$. Substituímos na fórmula \[ \left[\frac{\left(28 - 1\right) 2100.0^{2}}{43.195},\, \frac{\left(28 - 1\right) 2100.0^{2}}{14.573}\right]. \] O resultado obtido dá un intervalo de confianza para a varianza, así que para obter un para a desviación típica simplemente extraemos raíces cadradas. Por tanto obtense o intervalo $[1660.301,\, 2858.387]$.

Conclusión: cun nivel de confianza do $95.0$%, a desviación típica de diámetro da cápside atópase entre $1660.301$ e $2858.387$.

Quérese probar se un tratamiento co po cicatrizante de coláxeno de orixe bovino é máis eficaz ca un tratamiento convencional para a cicatrización de úlceras de decúbito que era efectivo no 65% dos casos. Para iso, tratáronse 60 persoas con úlceras de decúbito, elexidas ó azar, co tratamento con coláxeno, e este deu resultado positivo en 48 pacientes. Razoar e xustifica-la resposta en base ó valor P.

Neste caso considerámo-la variable aleatoria $X$="casos de cicatrización de úlceras de decúbito con po cicatrizante de coláxeno de orixe bovino".

Temos $n=60$, $\hat{p}=0.8$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p &{} \leq 0.65,& H_1\colon p &{} > 0.65. \end{aligned} \]

Este é un contraste de hipóteses para unha proporción. Para iso empregámo-lo estatístico \[ \frac{\hat{p} - p}{\sqrt{\frac{p \left(1 - p\right)}{n}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{0.8 - 0.65}{\sqrt{\frac{0.65 \left(1 - 0.65\right)}{60}}} =2.436. \]

Calculámo-lo valor $P$ como $P={P(Z_{} > 2.436)}=0.0074$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.3$%, de que a proporción de casos de cicatrización de úlceras de decúbito con po cicatrizante de coláxeno de orixe bovino é maior có $65.0$%.

A Furosemida é un diurético que controla o potasio. Para estuda-los seus efectos seleccionouse unha mostra aleatoria de 16 pacientes que tomaron un placebo e outra doutros 16 pacientes que tomaron Furosemida. Para os do placebo resultou unha media mostral de potasio de 3.9 mEq/litro, cunha desviación típica mostral de 0.8 mEq/litro. Para os da Furosemida, a media mostral foi 3.1 mEq/litro, cunha desviación típica mostral de 0.7 mEq/litro. Supoñendo que o nivel de potasio é unha variable aleatoria con distribución normal e que as varianzas poboacionais se poden supoñer iguais, pídese:

  1. Calcular un intervalo do 95% de confianza para a diferencia entre o nivel medio de potasio dos pacientes que toman placebo e o nivel medio de potasio dos pacientes que toman Furosemida.
  2. ¿É significativa a diferencia? Xustifica-lo por medio do correspondente contraste de hipóteses.

Considerámo-las variables aleatorias $X$="nivel de potasio para pacientes que tomaron Furosemida" e $Y$="nivel de potasio para pacientes que tomaron placebo".

Temos $n_1=16$, $\overline{X}=3.9$, $s_{1}=0.8$, $n_2=16$, $\overline{Y}=3.1$, $s_{2}=0.7$.

Asumimos que as varianzas das dúas poboacións son iguais.

Temos que calcular un intervalo de confianza para unha diferencia de medias empregando o estatístico \[ \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}, \] que segue unha distribución $t$-Student con $n_1+n_2-2$ graos de liberdade. Despexando $\mu_1 - \mu_2$ da desigualdade \[ \left\lvert \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \right\rvert \leq t_{n_1+n_2-2,\,\alpha/2}, \] obtense a fórmula \[ \left(\overline{X} - \overline{Y}\right) \pm t_{n_1+n_2-2,\,\alpha/2} \cdot s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}. \]

Aquí a cuasi-varianza mostral conxunta é \[ s_p^2=\frac{\left(n_1 - 1\right) s_1^{2} + \left(n_2 - 1\right) s_2^{2}}{n_1 + n_2 - 2}. \]

Substituíndo na fórmula da cuasi-varianza mostral conxunta: \[ s_p^2=\frac{\left(16 - 1\right) 0.8^{2} + \left(16 - 1\right) 0.7^{2}}{16 + 16 - 2} =0.565, \] polo que $s_p=0.752$.

O nivel de significación é $\alpha=0.05$. Calculamos $t_{30,\,0.025}=2.042$. Substituímos na fórmula \[ \left(3.9 - 3.1\right) \pm 2.042 \cdot 0.752 \sqrt{\frac{1}{16} + \frac{1}{16}} = 0.8 \pm 0.543. \] Por tanto obtense o intervalo $[0.257,\, 1.343]$.

Conclusión: cun nivel de confianza do $95.0$%, a diferencia de medias entre nivel de potasio para pacientes que tomaron Furosemida e nivel de potasio para pacientes que tomaron placebo atópase entre $0.257$ e $1.343$.

Asumimos que as varianzas das dúas poboacións son iguais.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1 &{} \leq \mu_2,& H_1\colon \mu_1 &{} > \mu_2. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. Para iso empregámo-lo estatístico \[ \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}, \] que segue unha distribución $t$-Student con $n_1+n_2-2$ graos de liberdade.

Aquí a cuasi-varianza mostral conxunta é \[ s_p^2=\frac{\left(n_1 - 1\right) s_1^{2} + \left(n_2 - 1\right) s_2^{2}}{n_1 + n_2 - 2}. \]

Substituíndo na fórmula da cuasi-varianza mostral conxunta: \[ s_p^2=\frac{\left(16 - 1\right) 0.8^{2} + \left(16 - 1\right) 0.7^{2}}{16 + 16 - 2} =0.565, \] polo que $s_p=0.752$.

O valor no estatístico é \[ \frac{\left(3.9 - 3.1\right) - 0}{0.752 \sqrt{\frac{1}{16} + \frac{1}{16}}} =3.01. \]

Calculámo-lo valor $P$ como $P={P(t_{30} > 3.01)}=0.0026$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.7$%, de que a media de nivel de potasio para pacientes que tomaron Furosemida é maior cá media de nivel de potasio para pacientes que tomaron placebo.

Realízase un estudo para saber se hai asociación entre o hábito de fumar dunha nai e que os fillos nazan con peso inferior ó normal. Tomamos unha mostra de 662 mulleres embarazadas fumadoras e 1388 mulleres embarazadas non fumadoras. Despois de nacer tódolos nenos, recollémo-los datos na seguinte táboa:

nai fumadora \ neonato con baixo pesosinontamaño
si114548662
non12412641388
$\Sigma$23818122050

Decidir, co contraste de hipóteses axeitado, se existe ou non esa asociación, cun nivel de significación do 0.1%.

Temos 2 poboacións, dependendo de "nai fumadora", e a variable aleatoria $Y$="neonato con baixo peso".

En primeiro lugar construímo-la táboa de continxencia:

nai fumadora \ neonato con baixo pesosinontamaño
si114548662
non12412641388
$\Sigma$23818122050

Temos que face-lo contraste de hipóteses: \[ H_0\colon p_{11}=p_{21}, p_{12}=p_{22}. \]

Este é un contraste de hipóteses para homoxeneidade de datos categóricos, xa que o tamaño da mostra en cada poboación é fixado polo investigador. Para iso empregámo-lo estatístico \[ \sum_{i,j} \frac{\bigl(n_{ij} - \widehat{E_{ij}}\bigr)^{2}}{\widehat{E_{ij}}}, \] que segue unha distribución $\chi^2$ de Pearson con $(f-1)(c-1)$ graos de liberdade.

O número de graos de liberdade da distribución é $(2-1)(2-1)=1$.

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$:

nai fumadora \ neonato con baixo pesosinontamaño
si76.9585.1662
non161.11226.91388
$\Sigma$23818122050

Agora calculámo-los valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$:

nai fumadora \ neonato con baixo pesosinon$\Sigma$
si17.9512.358
non8.5621.125
$\Sigma$29.995

A suma dos valores intermedios, que coincide co valor no estatístico, é 29.995.

O nivel de significación é $\alpha=0.001$. Ademais, $\chi^2_{1,\,0.001}=10.828$. Entón, $29.995\notin(-\infty,\, 10.828]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.9$%, de que hai relación entre as dúas variables.

O ángulo de Clarke é unha medida da altura do arco do pe. Trátase de estuda-la evolución do ángulo de Clarke Y (en graos) ca idade X do niño, e para iso obtivéronse os seguintes datos dun grupo de 16 nenos sanos (de entre 3 e 10 anos) elexidos ó azar:

$X$$Y$$X^2$$XY$$Y^2$
$\Sigma$104.0538.0760.03739.018826.0
  1. Calcula-lo coeficiente de determinación $R^2$ e interpreta-lo seu resultado.
  2. Estima-la recta de regresión que permita predeci-la evolución do ángulo de Clarke en función da idade do neno.
  3. Contrasta-lo modelo de regresión linear.

Considerámo-las variables aleatorias $X$="abscisas" e $Y$="ordenadas".

Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
$\Sigma$104.0538.0760.03739.018826.0

Temos $n=16$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{104.0}{16}=6.5,\\ \overline{Y} &{}=\frac{538.0}{16}=33.625,\\ s_X^2 &{}=\frac{760.0}{16}-6.5^2=5.25,\\ s_Y^2 &{}=\frac{18826.0}{16}-33.625^2=45.984,\\ s_{XY} &{}=\frac{3739.0}{16}-6.5\cdot 33.625=15.125. \end{aligned} \]

De aquí obtemos \[ \begin{aligned} b&{}=15.125\,/\,5.25=2.881,\\ a&{}=33.625-2.881\cdot 6.5=14.899, \end{aligned} \] co que a ecuación da recta de regresión é \[ y=14.899+2.881\,x. \]

A estimación do coeficiente de correlación é \[ r=\frac{15.125}{\sqrt{5.25 \cdot 45.984}}=0.973. \] A calidade da aproximación é forte.

O coeficiente de determinación vén dado por $r^2=0.948$. Isto interprétase do seguinte xeito: o $94.8$% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Comprobámo-la validez do modelo de regresión linear.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \rho &{} = 0,& H_1\colon \rho &{} \neq 0. \end{aligned} \]

Este é un contraste de hipóteses para a validez do modelo de regresión linear. Para iso empregámo-lo estatístico que se obtén despois de dispoñe-los cálculos nunha táboa ANOVA e que segue unha distribución $F$ de Snedecor con $(1,n-2)$ graos de liberdade.

g.l.$SS$$MS$cociente
regresión$1$$SS_R=16\cdot 0.948\cdot 45.984=697.19$$MS_R=697.19$$253.132$
erro$14$$SS_E=16\cdot(1-0.948)\cdot 45.984=38.56$$MS_E=\frac{38.56}{14}=2.754$
total$15$$SS_Y=16\cdot 45.984=735.75$

Calculámo-lo valor $P$ como $P={P(F_{1, 14} > 253.132)}=0.2\cdot 10^{-9}$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.9$%, de que o modelo de regresión linear é válido.

Exame de xuño de 2018

Nun artigo publicado na revista Scientific Reports, afírmase que os estiramentos reducen o crecemento tumoral nun modelo de cancro de mama de rato. Para probarlo, os investigadores inocularon células tumorales en 66 femias de rato que dividiron de forma aleatoria en dous grupos de igual tamaño. Ós ratos do primeiro grupo (grupo tratado) sometéuselles durante 4 semanas a 10 minutos diarios de estiramento suxeitándoos pola cola. No segundo grupo (grupo control) simplemente foron sacados da gaiola e colocáronse sobre a mesa o mismo tiempo cós anteriores. Ó final do experimento observouse, no grupo tratado, un volume medio de tumor de $186mm^3$ cunha cuasi-desviación típica de $123mm^3$, mentres que no grupo control o volume medio foi de $389mm^3$ cunha cuasi-desviación típica de $243mm^3$. ¿Avalan estes resultados a afirmación do artigo? Realiza o correspondente contraste de hipóteses e xustifica a resposta. NOTA: Os autores traballan cun nivel de significación $\alpha=0.05$.

Considerámo-las variables aleatorias $X$="volume do tumor de ratos tratados con estiramento" e $Y$="volume do tumor de ratos non tratados".

Temos $n_1=33$, $\overline{X}=186.0$, $s_{1}=123.0$, $n_2=33$, $\overline{Y}=389.0$, $s_{2}=243.0$.

Facemos un contraste de hipóteses sobre o cociente de varianzas para determinar se podemos supoñe-las varianzas poboacionais iguais.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \sigma_1^2 &{} = \sigma_2^2,& H_1\colon \sigma_1^2 &{} \neq \sigma_2^2. \end{aligned} \]

Este é un contraste de hipóteses para un cociente de varianzas. Para iso empregámo-lo estatístico \[ \frac{s_1^{2} / s_2^{2}}{\sigma_1^2 / \sigma_2^2}, \] que segue unha distribución $F$ de Snedecor con $(n_1-1,n_2-1)$ graos de liberdade.

O valor no estatístico é \[ \frac{123.0^{2} / 243.0^{2}}{1} =0.256. \]

O nivel de significación é $\alpha=0.05$. Ademais, $F_{32, 32,\,0.975}=0.494$, e $F_{32, 32,\,0.025}=2.025$. Entón, $0.256\notin[0.494,\, 2.025]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que as varianzas poboacionais son distintas.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1 &{} \geq \mu_2,& H_1\colon \mu_1 &{} < \mu_2. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. Para iso empregámo-lo estatístico \[ \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{\sqrt{\frac{s_1^{2}}{n_1} + \frac{s_2^{2}}{n_2}}}, \] que segue unha distribución $t$-Student con $\gamma$ graos de liberdade.

O número de graos de liberdade vén dado pola fórmula de Welch-Smith-Satterthwaite: \[ \gamma\sim \frac{\left(\frac{s_1^{2}}{n_1} + \frac{s_2^{2}}{n_2}\right)^{2}}{\frac{\left(s_1^{2} / n_1\right)^{2}}{n_1 - 1} + \frac{\left(s_2^{2} / n_2\right)^{2}}{n_2 - 1}}. \]

Substituíndo na fórmula de Welsch: \[ \gamma\sim \frac{\left(\frac{123.0^{2}}{33} + \frac{243.0^{2}}{33}\right)^{2}}{\frac{\left(123.0^{2} / 33\right)^{2}}{33 - 1} + \frac{\left(243.0^{2} / 33\right)^{2}}{33 - 1}} =47.387, \] polo que tomamos $\gamma=47$.

O valor no estatístico é \[ \frac{\left(186.0 - 389.0\right) - 0}{\sqrt{\frac{123.0^{2}}{33} + \frac{243.0^{2}}{33}}} =-4.282. \]

O nivel de significación é $\alpha=0.05$. Ademais, $t_{47,\,0.95}=-t_{47,\,0.05}=-1.678$. Entón, $-4.282\notin[-1.678,\,+\infty)$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que o volume medio do tumor dos ratos tratados con estiramento é menor có dos ratos non tratados.

No mesmo artigo citado no problema anterior, pesáronse os tumores dos ratos ó cabo de 4 semanas. No caso do grupo tratado (o dos 33 ratos sometidos a estiramento), o peso medio do tumor foi de $0.14g$ cunha cuasi-desviación típica de $0.07g$.

  1. Calcula un intervalo de confianza para o peso medio dos tumores na poboación de ratos sometidos a tratamento cun nivel de confianza do 95%.
  2. Supoñendo que a cuasi-desviación típica da mostra fose a verdadeira desviación típica da poboación, ¿Cal debería ter sido o tamaño da mostra para poder estimar dito peso medio cun erro inferior a $0.01g$?

Considerámo-la variable aleatoria $X$="peso do tumor de ratos tratados con estiramento".

Temos $n=33$, $\overline{X}=0.14$, $s_{n-1}^2=0.005$, e $s_{n-1}=0.07$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}} \right\rvert \leq t_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \overline{X} \pm t_{n-1,\,\alpha/2} \frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $t_{32,\,0.025}=2.037$. Substituímos na fórmula \[ 0.14 \pm 2.037 \cdot \frac{0.07}{\sqrt{33}} = 0.14 \pm 0.025. \] Por tanto obtense o intervalo $[0.115,\, 0.165]$.

Conclusión: cun nivel de confianza do $95.0$%, o peso medio do tumor de ratos tratados con estiramento atópase entre $0.115$ e $0.165$.

Neste caso a varianza poboacional é coñecida.

Para estima-lo tamaño da mostra para unha media, empregámo-lo estatístico \[ \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}, \] que segue unha distribución normal estándar. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \right\rvert \leq Z_{\alpha/2}, \] obtense a fórmula \[ \overline{X} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \] A estimación do erro é \[ Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \]

Queremos $Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \epsilon$, onde $\epsilon$ é o valor fixado polo problema. Despexando obtense \[ n\geq \left(\frac{Z_{\alpha/2} \sigma}{\epsilon}\right)^{2}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $Z_{0.025}=1.96$. Neste caso $\epsilon=0.01$. Substituíndo na fórmula, \[ n \geq \left(\frac{1.96 \cdot 0.07}{0.01}\right)^{2} = 188.231. \]

Conclusión: para que a diferencia entre a media mostral e a media poboacional de peso do tumor de ratos tratados con estiramento sexa como moito de $\pm 0.01$ cun nivel de confianza do $95.0$%, teriamos que tomar unha mostra de polo menos $189$ elementos.

Nun estudo para compara-los resultados do tratamento mediante morfina intravenosa ($0.1mg/kg$), frente a acetaminofeno (ou paracetamol) ($1g$) para a dor causada pola ciática en pacientes que se presentaron en servizo de urxencias dun hospital, observouse que dos 100 pacientes tratados con acetaminofeno 18 tiveron efectos adversos, mentres que dos 100 tratados con morfina, só 6 presentaron efectos adversos. ¿Pode afirmarse que, para este tipo de pacientes, o tratamento con morfina produce menos efectos adversos có tratamento con acetaminofeno? Realiza o correspondente contraste de hipótesis e xustifica a resposta en base ó valor P obtido.

Considerámo-las variables aleatorias $X$="pacientes tratados con acetaminofeno" e $Y$="pacientes tratados con morfina".

Temos $n_1=100$, $\hat{p}_1=0.18$, $n_2=100$, $\hat{p}_2=0.06$.

Nótese que o valor nulo deste contraste de hipóteses é cero.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p_1 &{} \leq p_2,& H_1\colon p_1 &{} > p_2. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de proporcións. Para iso empregámo-lo estatístico \[ \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p} \left(1 - \hat{p}\right) \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}, \] que segue unha distribución normal estándar.

Aquí considerámo-la proporción ponderada, que se define como \[ \hat{p}=\frac{n_1 \hat{p}_1 + n_2 \hat{p}_2}{n_1 + n_2}. \]

Substituíndo na fórmula da proporción ponderada obtemos \[ \hat{p}=\frac{100 \cdot 0.18 + 100 \cdot 0.06}{100 + 100} =0.12. \]

O valor no estatístico é \[ \frac{0.18 - 0.06}{\sqrt{0.12 \left(1 - 0.12\right) \left(\frac{1}{100} + \frac{1}{100}\right)}} =2.6112. \]

Calculámo-lo valor $P$ como $P={P(Z_{} > 2.6112)}=0.0045$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.5$%, de que a proporción de pacientes tratados con acetaminofeno é maior cá proporción de pacientes tratados con morfina.

Nun recente estudo para determina-la asociación entre os polimorfismos do xen Paraxonatase-1 (PON1) e a osteonecrosis da cabeza do fémur (ONFH) na población Han do norte de China, analizouse o ADN de 170 persoas (74 pacientes e 96 sas). Para o polimorfismo rs854555 obtívose que as frecuencias absolutas dos seus xenotipos AA, AC e CC foron 29, 42 e 25 nas personas sas, mentres que nos pacientes as frecuencias foron 17, 38 e 19 respectivamente. ¿Pódese afirmar que existe asociación entre o xenotipo do polimorfismo rs854555 e a enfermidade?

Considerámo-las variables aleatorias $X$="xenotipo" e $Y$="grupo".

En primeiro lugar construímo-la táboa de continxencia:

xenotipo \ grupopacientessas$\Sigma$
AA172946
AC384280
CC192544
$\Sigma$7496170

Temos que face-lo contraste de hipóteses: \[ H_0\colon p_{ij}=p_{i\cdot} p_{\cdot j},\ i\in\{1, 2, 3\},\ j\in\{1, 2\}. \]

Este é un contraste de hipóteses para independencia de datos categóricos, xa que o tamaño da mostra está determinado en toda a poboación e o investigador simplemente clasifica os datos en dúas categorías. Para iso empregámo-lo estatístico \[ \sum_{i,j} \frac{\bigl(n_{ij} - \widehat{E_{ij}}\bigr)^{2}}{\widehat{E_{ij}}}, \] que segue unha distribución $\chi^2$ de Pearson con $(f-1)(c-1)$ graos de liberdade.

O número de graos de liberdade da distribución é $(3-1)(2-1)=2$.

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$:

xenotipo \ grupopacientessas$\Sigma$
AA20.026.046
AC34.845.280
CC19.224.844
$\Sigma$7496170

Agora calculámo-los valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$:

xenotipo \ grupopacientessas$\Sigma$
AA0.4570.352
AC0.290.223
CC0.0010.001
$\Sigma$1.324

A suma dos valores intermedios, que coincide co valor no estatístico, é 1.324.

Calculámo-lo valor $P$ como $P={P(\chi^2_{2} > 1.324)}=0.5159$, que é un valor relativamente grande.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza do $48.4$%, de que haxa relación entre as dúas variables.

Nun estudo trátase de estimar un modelo de regresión linear que permita predeci-lo volume espiratorio forzado (VEF) de nenos en función da súa idade. Para iso mediuse dito volume en 5 nenos de idades entre 6 e 10 anos e obtivéronse os seguintes valores:

$\sum x = 40$,   $\sum y = 10.82$,   $\sum x^2 = 330$,   $\sum y^2 = 23.97$,   $\sum xy = 88.89$.

  1. Calcula-la recta de regresión e estima-lo VEF nun neno de 6 años e medio.
  2. Calcula-lo coeficiente de determinación e interpreta-lo seu resultado.
  3. Contrasta-lo modelo de regresión.

Considerámo-las variables aleatorias $X$="idade" e $Y$="VEF".

Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
$\Sigma$40.010.82330.088.8923.97

Temos $n=5$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{40.0}{5}=8.0,\\ \overline{Y} &{}=\frac{10.82}{5}=2.164,\\ s_X^2 &{}=\frac{330.0}{5}-8.0^2=2.0,\\ s_Y^2 &{}=\frac{23.97}{5}-2.164^2=0.111,\\ s_{XY} &{}=\frac{88.89}{5}-8.0\cdot 2.164=0.466. \end{aligned} \]

De aquí obtemos \[ \begin{aligned} b&{}=0.466\,/\,2.0=0.233,\\ a&{}=2.164-0.233\cdot 8.0=0.3, \end{aligned} \] co que a ecuación da recta de regresión é \[ y=0.3+0.233\,x. \]

Avaliando na recta de regresión, para "idade" $x=6.5$ estímase "VEF" \[ y=0.3+0.233\cdot 6.5=1.815. \]

A estimación do coeficiente de correlación é \[ r=\frac{0.466}{\sqrt{2.0 \cdot 0.111}}=0.989. \] A calidade da aproximación é forte.

O coeficiente de determinación vén dado por $r^2=0.977$. Isto interprétase do seguinte xeito: o $97.7$% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Comprobámo-la validez do modelo de regresión linear.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \rho &{} = 0,& H_1\colon \rho &{} \neq 0. \end{aligned} \]

Este é un contraste de hipóteses para a validez do modelo de regresión linear. Para iso empregámo-lo estatístico que se obtén despois de dispoñe-los cálculos nunha táboa ANOVA e que segue unha distribución $F$ de Snedecor con $(1,n-2)$ graos de liberdade.

g.l.$SS$$MS$cociente
regresión$1$$SS_R=5\cdot 0.977\cdot 0.111=0.543$$MS_R=0.543$$128.952$
erro$3$$SS_E=5\cdot(1-0.977)\cdot 0.111=0.013$$MS_E=\frac{0.013}{3}=0.004$
total$4$$SS_Y=5\cdot 0.111=0.556$

Calculámo-lo valor $P$ como $P={P(F_{1, 3} > 128.952)}=0.0015$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.9$%, de que o modelo de regresión linear é válido.

Exame de xuño de 2019

Moi recentemente, o xornal THE SUN publicou os resultados dun estudo sobre o peso dos paquetes de patacas fritas que as distintas cadeas de comida rápida serven en Inglaterra. O estudo consistiu en comprar tres paquetes de patacas de cada cadea en diferentes establecementos da mesma. En particular, para unha das cadeas, os resultados obtidos foron: 106g, 102g e 108g.

  1. A partir da mostra, calcula un intervalo de confianza, cun nivel de confianza do 95%, para o peso medio dos paquetes de patacas na devandita cadea.
  2. Pódese afirmar, desde o punto de vista estatístico, que o peso medio real dos paquetes de patacas fritas nesa cadea é inferior a 108g?

Considerámo-la variable aleatoria $X$="peso dun paquete de patacas fritas".

Organizámo-los cálculos para obte-la media e cuasi-varianza mostral:

$X$$X^2$
10611236
10210404
10811664
$\Sigma$ 31633304

De aquí obtemos $n=3$, $\overline{X}=\frac{316}{3}=105.333$, $s_n^2=\frac{33304}{3} - 105.333^2=6.222$, e así, $s_{n-1} = \sqrt{\frac{3}{2}\cdot 6.222}=3.055$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\right\rvert \leq t_{{n-1,\,\alpha/2}}, \] obtense a fórmula \[ \overline{X}\pm t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $t_{2,\,0.025}=4.303$. Substituíndo na fórmula \[ 105.333 \pm 4.303\cdot \frac{3.055}{\sqrt{3}} = 105.333 \pm 7.589, \] de onde se obtén o intervalo $[97.744,\, 112.922]$.

Conclusión: cun nivel de confianza do 95.0%, a media do peso dun paquete de patacas fritas atópase entre 97.744 e 112.922.

Agora facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu &{} \geq 108,& H_1\colon \mu &{} < 108. \end{aligned} \]

Este é un contraste de hipóteses para unha media. Para iso empregámo-lo estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}, \] que segue unha distribución $t_{n-1}$.

O valor no estatístico é \[ \frac{105.333-108}{3.055/\sqrt{3}} =-1.512. \]

Calculámo-lo valor P como $P=P(t_{2}< -1.512)=0.1349$, que é un valor relativamente grande.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, ata un nivel de confianza do 86.5%, de que a media de peso dun paquete de patacas fritas sexa menor ca 108.

Para saber se o olor a lavanda na sala de espera dos dentistas diminúe a ansiedade dos pacientes, un equipo de investigadores seleccionou a 597 pacientes que dividiu aleatoriamente en dous grupos. Os do primeiro grupo (310 pacientes), que chamaremos "grupo de control", esperaron en salas sen aroma especial, mentres que os do segundo grupo (287 pacientes), que chamaremos "grupo de tratamento", esperaron en salas con aroma a lavanda. Para determina-lo nivel de ansiedade, tódolos pacientes se someteron a diferentes test psicolóxicos que permiten medilo. Se nos test de ansiedade a media do grupo de control foi de 15.40 cunha cuasi-desviación típica de 4.18, e no grupo de tratamento a media mostral foi 11.74 cunha cuasi-desviación típica de 4.10, ¿podemos afirmar que o aroma de lavanda nas salas de espera dos dentistas axuda a reduci-lo nivel de ansiedade nos pacientes? NOTA: supoñede que as varianzas poboacionais son iguais.

Considerámo-las variables aleatorias $X$="nivel de ansiedade no grupo de control" e $Y$="nivel de ansiedade no grupo de tratamento".

Temos $n_1=310$, $\overline{X}=15.4$, $s_{1}=4.18$ e $n_2=287$, $\overline{Y}=11.74$, $s_{2}=4.1$.

Asumimos que as varianzas das dúas poboacións son iguais.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1-\mu_2 &{} \leq 0,& H_1\colon \mu_1-\mu_2 &{} > 0. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. Para iso empregámo-lo estatístico \[ \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)} {s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}, \] que segue unha distribución $t_{n_1+n_2-2}$.

Aquí considerámo-la cuasi-varianza ponderada, que se define como \[ s_p^2=\frac{(n_1-1)s_{1}^2+(n_2-1)s_{2}^2}{n_1+n_2-2}. \]

Substituíndo na fórmula da cuasi-varianza ponderada obtemos \[ s_p=\sqrt{ \frac{(310-1)\cdot 4.18^2 +(287-1)\cdot 4.1^2} {310+287-2}}=4.142. \]

O valor no estatístico é \[ \frac{(15.4-11.74)-0} {4.142\sqrt{\frac{1}{310}+\frac{1}{287}}} =10.788. \]

Calculámo-lo valor P como $P=P(t_{595}> 10.788)=0.3\cdot 10^{-24}$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do 99.9%, de que, en media, o nivel de ansiedade no grupo de control é maior có nivel de ansiedade no grupo de tratamento.

Por tanto, o aroma a lavanda na sala de espera dos dentiastas axuda a reduci-lo nivel de ansiedade nos pacientes.

Para analiza-lo risco de sufrir un aborto espontáneo nos embarazos de mulleres hipertensas tratadas con inhibidores da encima convertidora de anxiotensina (IECA) durante o primeiro trimestre do embarazo, estudáronse 329 casos nos que se observaron 47 abortos espontáneos.

  1. Se a taxa de abortos espontáneos na poboación fose do 10%, poderíase afirmar que o tratamento con IECA no primeiro trimestre de embarazo incrementa a porcentaxe de abortos espontáneos?
  2. Cal tería que se-lo tamaño mostral mínimo para poder estimar, a un nivel de confianza do 95.5%, a proporción de abortos espontáneos na poboación cun erro inferior ó 2%?

Considerámo-la variable aleatoria $X$="abortos espontáneos de mulleres hipertensas tratadas con IECA durante o primeiro trimestre do embarazo".

Temos $n=329$, e $\hat{p}=0.143$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p &{} \leq 0.1,& H_1\colon p &{} > 0.1. \end{aligned} \]

Este é un contraste de hipóteses para unha proporción. Para iso empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{0.143-0.1} {\sqrt{\frac{0.1(1-0.1)}{329}}} =2.591. \]

Calculámo-lo valor P como $P=P(Z_{}> 2.591)=0.0048$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do 99.5%, de que a proporción de abortos espontáneos de mulleres hipertensas tratadas con IECA durante o primeiro trimestre do embarazo é maior ca 10.0%.

Para estima-lo tamaño da mostra para unha proporción, empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}, \] que ten distribución normal estándar. Despexando $p$ da desigualdade \[ \Bigl\lvert\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\Bigr\rvert \leq Z_{\alpha/2}, \] obtémo-la fórmula \[ \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. \] A estimación do erro é $Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$.

Neste case non temos unha estimación da proporción $\hat{{p}}$. É sinxelo ver que a función $x\mapsto\sqrt{x(1-x)}$ alzanza o seu máximo no intervalo $[0,1]$ no punto $x=1/2$. Por tanto, necesitamos despexar $n$ da desigualdade $Z_{\alpha/2}\sqrt{\frac{0.5(1-0.5)}{n}}<\epsilon$, onde $\epsilon$ é o valor fixado polo problema. Así, obtense $n>\Bigl(\frac{Z_{\alpha/2}}{2\epsilon}\Bigr)^2$.

O nivel de significación é $\alpha=0.045$. Mirando as táboas obtemos $Z_{0.0225}=2.005$. Neste caso $\epsilon=0.02$. Substituíndo na fórmula $n> \Bigl(\frac{2.005}{2\cdot 0.02}\Bigr)^2=2511.65$.

Conclusión: para que a diferenza entre a proporción mostral e a proporción poboacional de abortos espontáneos de mulleres hipertensas tratadas con IECA durante o primeiro trimestre do embarazo sexa como moito de ±0.02 cun nivel de confianza do 95.5%, teriamos que tomar unha mostra de polo menos 2512 elementos.

Co obxectivo de estuda-la relación entre a aparición de depresión post-parto e o nivel de seguridade alimentaria, observáronse 325 casos de mulleres seleccionadas aleatoriamente en centros de saúde no oeste da cidade de Teherán (Irán). Clasificouse, de acordo coa seguridade alimentaria, ós fogares das devanditas mulleres en tres niveles: A1: Alimentación asegurada, A2: Alimentación non asegurada pero sen fame, A3: Alimentación non asegurada e con fame moderada ou severa. Dos 325 casos, 214 eran de fogares do tipo A1, 56 do tipo A2, e 55 do tipo A3. Dos 115 casos de depresión post-parto, 51 eran en mulleres con fogares de nivel A1, e 24 en mulleres con fogares de nivel A2.

  1. Constrúe a táboa de continxencia e realiza o test estatístico adecuado para comprobar se hai relación entre a seguridade alimentaria no fogar e o feito de sufrir de depresión post-parto entre as mulleres da cidade de Teherán.
  2. O test anterior, ¿é unha proba de independencia ou é unha proba de homoxeneidade? Razoa a resposta.

Temos tres poboacións dependendendo da seguridade alimentaria e a variable aleatoria $Y$="depresión postparto". En primeiro lugar construímo-la táboa de continxencia:

Alimentación \ depresión sinon$\Sigma$
A151163214
A2243256
A3401555
$\Sigma$115210325

Como o tamaño da mostra está determinado en toda a poboación, e o investigador simplemente clasifica os datos en dúas categorías, trátase dun contraste de independencia para datos categóricos. Por tanto, temos que face-lo contraste de hipóteses: \[ H_0\colon p_{ij}=p_{i\cdot}p_{\cdot j},\ i\in\{1, 2, 3\},\ j\in\{1, 2\}. \]

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$ (en verde), e tamén os valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$ (en vermello), obtendo:

Alimentación \ depresiónsinon$\Sigma$
A1
51
75.72
8.07
163
138.28
4.42
214
A2
24
19.82
0.88
32
36.18
0.48
56
A3
40
19.46
21.67
15
35.54
11.87
55
$\Sigma$115210325

Calcúlase o valor no estatístico, que consiste en suma-los valores vermellos. O resultado é 47.4.

O estatístico $\sum_{i,j}\frac{(n_{ij}-\widehat{E_{ij}})^2} {\widehat{E_{ij}}}$ segue unha distribución $\chi^2$ con $(3-1)(2-1)=2$ graos de liberdade. Calculando o valor P temos $P=P(\chi^2_2\geq 47.4)=0.5\cdot 10^{-10}$.

Conlusión: rexeitámo-la hipótese nula, e por tanto, temos evidencia significativa, de que hai relación entre as dúas variables.

Co obxectivo de facer un modelo linear para predici-la altura dunha persoa a partir da lonxitude da súa tibia, nunha mostra aleatoria de 20 persoas medíronse en centímetros tanto a súa tibia dereita (variable $X$), como a súa altura (variable $Y$) obténdose os seguintes valores:

$\sum X=72.27$;$\sum Y=322.48$;
$\sum X^2=262.29$;$\sum XY=1168.05$;$\sum Y^2=5206.53$.
  1. Calcula a recta de regresión.
  2. Calcula o coeficiente de determinación $r^2$ e interpreta o seu resultado.
  3. Contrasta o modelo de regresión.

Nota: tomar 4 díxitos de precisión nos cálculos.

Considerámo-las seguintes variables aleatorias $X$="lonxitude da tibia dereita" e $Y$="altura".

Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
$\Sigma$ 72.27322.48 262.291168.055206.53

Temos $n=20$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{72.27}{20}=3.613,\\ \overline{Y} &{}=\frac{322.48}{20}=16.124,\\ s_X^2 &{}=\frac{262.29}{20}-3.613^2=0.057,\\ s_Y^2 &{}=\frac{5206.53}{20}-16.124^2=0.343,\\ s_{XY} &{}=\frac{1168.05}{20}-3.613\cdot 16.124=0.138. \end{aligned} \] De aquí obtemos $b=0.138/0.057=2.424$ e $a=16.124-2.424\cdot 3.613=7.367$, co que a ecuación da recta de regresión é \[ y=7.367+2.424x. \]

A estimación do coeficiente de correlación é \[ r=\frac{0.138}{\sqrt{0.057 \cdot 0.343}}=0.989. \] A calidade da aproximación é forte.

O coeficiente de determinación vén dado por $r^2=0.978$. Isto interprétase do seguinte xeito: o 97.8% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Contrastámo-la validez do modelo de regresión linear. Para iso facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon &{}\,\rho=0,& H_1\colon &{}\,\rho\neq 0. \end{aligned} \]

Empregamos pois a técnica de análise da varianza, ANOVA. Os datos necesarios están recollidos na seguinte táboa:

variabilidadeg.l.$SS$$MS$cociente
regresión $1$ $SS_R=20\cdot 0.978\cdot 0.343=6.71$ $MS_R=6.71$ $789.789$
erro $18$ $SS_E=20\cdot(1-0.978)\cdot0.343=0.153$ $MS_E=\frac{0.153}{18}=0.008$
total $19$ $SS_Y=20\cdot 0.343=6.862$

Como $P=P(F_{1,18}\geq 789.789)=0.3\cdot 10^{-15}$ é un valor pequeno, rexeitámo-la hipótese nula. Concluímos que hai evidencia significativa de que o modelo de regresión linear é válido.

Exame de maio de 2021

Crese que as mellores condicións de vida e a desaparición de moitas enfermidades infecciosas levaron a unha aceleración do crecemento das poboacións dos países desenvolvidos. Para contrastalo, valorouse a altura $X$ en cms de 127 adultos (homes) da poboación española en 2004 e comparáronse os resultados con estudos realizados antes de 1990, nos que a media poboacional era de $174.6$cms. Obtívose unha media $\bar{X}= 177.33$ e unha cuasi-desviación típica $s=3.26$.

  1. ¿Apoia este estudo a idea de que a altura da poboación aumentou significativamente entre 1990 e 2004? Razoa o resultado usando o valor p.
  2. Dá un intervalo de estimación para a media en 2004, cun nivel de confianza do 95%.
  3. Se imos facer outro estudo e supoñemos que $\sigma=3,26$cms, ¿que tamaño de mostra necesitamos para que o erro de estimación da media sexa inferior a 1cm? Usar $\alpha= 5\%$.

Considerámo-la variable aleatoria $X$="altura de adultos españois".

Temos $n=127$, $\overline{X}=177.33$, e $s_{n-1}=3.26$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu &{} \leq 174.6,& H_1\colon \mu &{} > 174.6. \end{aligned} \]

Este é un contraste de hipóteses para unha media. Para iso empregámo-lo estatístico \[ \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade.

O valor no estatístico é \[ \frac{177.33 - 174.6}{3.26 / \sqrt{127}} =9.437. \]

Mirámo-lo valor $P$ na táboa para obter $P=P(t_{126} > 9.437)<0.0005$ (De feito, $P=P(t_{126} > 9.437)=0.1\cdot 10^{-15}$), que é un valor moi pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.95$%, de que a media de altura de adultos españois é maior ca $174.6$.

Agora calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}} \right\rvert \leq t_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \overline{X} \pm t_{n-1,\,\alpha/2} \frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.05$. O valor en táboa máis próximo é $t_{100,\,0.025}=1.984$. Nesta solución, para da-lo resultado máis correcto posible, empregarémo-lo valor máis exacto $t_{126,\,0.025}=1.979$, pero o resultado é practicamente o mesmo. Substituímos na fórmula \[ 177.33 \pm 1.979 \cdot \frac{3.26}{\sqrt{127}} = 177.33 \pm 0.572. \] Por tanto obtense o intervalo $[176.758,\, 177.902]$.

Conclusión: cun nivel de confianza do $95.0$%, a media de altura de adultos españois atópase entre $176.758$ e $177.902$.

Para estima-lo tamaño da mostra para unha media, empregámo-lo estatístico \[ \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}, \] que segue unha distribución normal estándar. Neste caso a varianza poboacional é coñecida. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \right\rvert \leq Z_{\alpha/2}, \] obtense a fórmula \[ \overline{X} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \] A estimación do erro é \[ Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \]

Queremos $Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \epsilon$, onde $\epsilon$ é o valor fixado polo problema. Despexando obtense $n\geq \left(Z_{\alpha/2} \sigma / \epsilon\right)^{2}$.

O nivel de significación é $\alpha=0.05$. Calculamos $Z_{0.025}=1.96$. Neste caso $\epsilon=1$. Substituíndo na fórmula, $n \geq \left(1.96 \cdot 3.26 / 1\right)^{2} = 40.825$.

Conclusión: para que a diferencia entre a media mostral e a media poboacional de altura de adultos españois sexa como moito de $\pm 1$ cun nivel de confianza do $95.0$%, teriamos que tomar unha mostra de polo menos $41$ elementos.

No mesmo estudo anterior, atopouse en 129 mulleres adultas que a altura media era de $163,96$cms, con $s=3,96$cms. ¿Pódese afirmar que a altura media dos homes é maior cá das mulleres, cun nivel de significación de 10%?

Considerámo-las dúas variables aleatorias $X$="altura de homes españois" e $Y$="altura de mulleres españolas".

Temos $n_1=127$, $\overline{X}=177.33$, $s_{1}=3.26$, $n_2=129$, $\overline{Y}=163.96$, $s_{2}=3.96$.

Asumimos que as varianzas das dúas poboacións son iguais.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1 &{} \leq \mu_2,& H_1\colon \mu_1 &{} > \mu_2. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. Para iso empregámo-lo estatístico \[ \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}, \] que segue unha distribución $t$-Student con $n_1+n_2-2$ graos de liberdade.

Aquí a cuasi-varianza mostral conxunta é \[ s_p^2=\frac{\left(n_1 - 1\right) s_1^{2} + \left(n_2 - 1\right) s_2^{2}}{n_1 + n_2 - 2}. \]

Substituíndo na fórmula da cuasi-varianza mostral conxunta: \[ s_p^2=\frac{\left(127 - 1\right) 3.26^{2} + \left(129 - 1\right) 3.96^{2}}{127 + 129 - 2} =13.174, \] polo que $s_p=3.63$.

O valor no estatístico é \[ \frac{\left(177.33 - 163.96\right) - 0}{3.63 \sqrt{\frac{1}{127} + \frac{1}{129}}} =29.467. \]

O nivel de significación é $\alpha=0.1$. O valor en táboa máis próximo é $t_{200\,0.1}=1.286$. Con software informático obtense un valor un pouco máis exacto: $t_{254,\,0.1}=1.285$. En calquera caso, $29.467\notin(-\infty,\, 1.285]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $90.0$%, de que a altura media de homes españois é maior cá das mulleres.

Sábese que o uso prolongado de antibióticos pode causar toxicidade neurolóxica. Cando 10000 persoas recibiron metronidazol, 11 delas sufriron ataxia (movemento muscular non coordinado).

  1. ¿Pódese dicir que este medicamento causa ataxia en máis dun caso por cada 1000 pacientes?
  2. Indica un intervalo de estimación da frecuencia de aparición de síntomas de ataxia.

Considerámo-la variable aleatoria $X$="casos de ataxia en persoas que recibiron metronidazol".

Temos $n=10000$, $\hat{p}=0.0011$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p &{} \leq 0.001,& H_1\colon p &{} > 0.001. \end{aligned} \]

Este é un contraste de hipóteses para unha proporción. Para iso empregámo-lo estatístico \[ \frac{\hat{p} - p}{\sqrt{\frac{p \left(1 - p\right)}{n}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{0.0011 - 0.001}{\sqrt{\frac{0.001 \left(1 - 0.001\right)}{10000}}} =0.3164. \]

Calculámo-lo valor $P$ (aproximadamente), mirando na táboa, como $P=P(Z_{} > 0.32)=0.374$, que é un valor relativamente grande.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa de que a proporción de casos de ataxia en persoas que recibiron metronidazol sexa maior có $0.1$%.

Calculamos agora un intervalo de confianza para unha proporción empregando o estatístico \[ \frac{\hat{p} - p}{\sqrt{\frac{p \left(1 - p\right)}{n}}}, \] que segue unha distribución normal estándar. Despexando $p$ da desigualdade \[ \left\lvert \frac{\hat{p} - p}{\sqrt{\frac{\hat{p} \left(1 - \hat{p}\right)}{n}}} \right\rvert \leq Z_{\alpha/2}, \] obtense a fórmula \[ \hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p} \left(1 - \hat{p}\right)}{n}}. \]

O nivel de significación é $\alpha=0.1$. Calculamos $Z_{0.05}=1.6449$. Substituímos na fórmula \[ 0.0011 \pm 1.6449 \sqrt{\frac{0.0011 \left(1 - 0.0011\right)}{10000}} = 0.0011 \pm 0.0005. \] Por tanto obtense o intervalo $[0.0006,\, 0.0016]$.

Conclusión: cun nivel de confianza do $90.0$%, a proporción de casos de ataxia en persoas que recibiron metronidazol atópase entre $0.06$% e $0.16$%.

En 1977 levouse a cabo un experimento para coñece-la incidencia de efectos secundarios asociados ó uso de minociclina, un antibiótico prescrito para trata-lo acné. Foron incluídos 45 pacientes no grupo de tratamento, e 44 pacientes no grupo placebo. Dos pacientes do grupo de tratamento, 33 presentaron síntomas vestibulares (sensación de vertixe), en comparación con 4 persoas que tiveron síntomas no grupo placebo. Elabora a táboa de continxencia axeitada e determina se existe unha asociación entre ter seguido o tratamento e sufrir síntomas vestibulares.

Temos 2 poboacións, dependendo do "grupo" (paciente ou placebo), e a variable aleatoria $Y$="síntomas".

En primeiro lugar construímo-la táboa de continxencia:

grupo \ síntomassinontamaño
paciente331245
placebo44044
$\Sigma$375289

Temos que face-lo contraste de hipóteses: \[ H_0\colon p_{11}=p_{21}, p_{12}=p_{22}. \]

Este é un contraste de hipóteses para homoxeneidade de datos categóricos, xa que o tamaño da mostra en cada poboación é fixado polo investigador. Para iso empregámo-lo estatístico \[ \sum_{i,j} \frac{\bigl(n_{ij} - \widehat{E_{ij}}\bigr)^{2}}{\widehat{E_{ij}}}, \] que segue unha distribución $\chi^2$ de Pearson con $(f-1)(c-1)$ graos de liberdade.

O número de graos de liberdade da distribución é $(2-1)(2-1)=1$.

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$:

grupo \ síntomassinontamaño
paciente18.7126.2945
placebo18.2925.7144
$\Sigma$375289

Agora calculámo-los valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$:

grupo \ síntomassinon$\Sigma$
paciente10.9197.769
placebo11.1677.946
$\Sigma$37.8

A suma dos valores intermedios, que coincide co valor no estatístico, é 37.8.

Calculámo-lo valor $P$ mirando as táboas para obter $P=P(\chi^2_1 > 37.8) < 0.001$. En realidade, con software informático obtense $P=P(\chi^2_{1} > 37.8)=0.8\cdot 10^{-9}$, que en todo caso é un valor moi pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.9$%, de que hai relación entre ter seguido o tratamento e sufrir síntomas vestibulares.

A ataxia cerebelosa caracterízase por dificultades no equilibrio. Estase a desenvolver unha aplicación para teléfono móbil capaz de medir, mediante un acelerador situado á altura do esterno, o equilibrio estático e dinámico en pacientes con esa enfermidade. Para estima-la validez da aplicación, as medicións $Y$ obtidas con ela relacionáronse co "índice de estabilidade postural estática" $X$ obtido mediante unha plataforma colocada no chan. En 6 pacientes obtivéronse os seguintes resultados:

X45.061.7129.0392.0285.5209.6
Y3.764.044.344.484.804.12

Pídese:

  1. Estima-la puntuación $Y$ que obtería na nova aplicación un paciente con $X = 515.0$.
  2. Calcular e interpreta-lo coeficiente de determinación $r^2$.
  3. Realiza-lo contraste ANOVA para a regresión lineal.

Considerámo-las variables aleatorias $X$="índice de estabilidade postural estática" e $Y$="equilibrio estático e dinámico en pacientes con ataxia".

Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
45.03.762025.0169.214.138
61.74.043806.89249.26816.322
129.04.3416641.0559.8618.836
392.04.48153664.01756.1620.07
285.54.881510.251370.423.04
209.64.1243932.16863.55216.974
$\Sigma$1122.825.54301579.34968.44109.38
Puntos e recta de regresión. 100.0 200.0 300.0 400.0 3.6 4.0 4.4 4.8
Os puntos e a súa recta de regresión

Temos $n=6$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{1122.8}{6}=187.133,\\ \overline{Y} &{}=\frac{25.54}{6}=4.257,\\ s_X^2 &{}=\frac{301579.3}{6}-187.133^2=15244.332,\\ s_Y^2 &{}=\frac{109.38}{6}-4.257^2=0.111,\\ s_{XY} &{}=\frac{4968.44}{6}-187.133\cdot 4.257=31.509. \end{aligned} \]

De aquí obtemos \[ \begin{aligned} b&{}=31.509\,/\,15244.332=0.002,\\ a&{}=4.257-0.002\cdot 187.133=3.87, \end{aligned} \] co que a ecuación da recta de regresión é \[ y=3.87+0.002\,x. \]

Avaliando na recta de regresión, para "índice de estabilidade postural estática" $x=515.0$ estímase o "equilibrio estático e dinámico en pacientes con ataxia" \[ y=3.87+0.002\cdot 515.0=4.934. \]

A estimación do coeficiente de correlación é \[ r=\frac{31.509}{\sqrt{15244.332 \cdot 0.111}}=0.767. \] A calidade da aproximación é moderada.

O coeficiente de determinación vén dado por $r^2=0.588$. Isto interprétase do seguinte xeito: o $58.8$% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Comprobámo-la validez do modelo de regresión linear.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \rho &{} = 0,& H_1\colon \rho &{} \neq 0. \end{aligned} \]

Este é un contraste de hipóteses para a validez do modelo de regresión linear. Para iso empregámo-lo estatístico que se obtén despois de dispoñe-los cálculos nunha táboa ANOVA e que segue unha distribución $F$ de Snedecor con $(1,n-2)$ graos de liberdade.

g.l.$SS$$MS$cociente
regresión$1$$SS_R=6\cdot 0.588\cdot 0.111=0.391$$MS_R=0.391$$5.714$
erro$4$$SS_E=6\cdot(1-0.588)\cdot 0.111=0.274$$MS_E=\frac{0.274}{4}=0.068$
total$5$$SS_Y=6\cdot 0.111=0.664$

Temos que mirar en dúas táboas da $F$ de Snedecor para estima-lo valor $P$ e chegar a que, se $P={P(F_{1, 4} > 5.714)}$, entón $0.05 < P < 0.1$. Calculando o valor $P$ con software estatístico obtense $P=P(F_{1, 4} > 5.714)=0.0751$, que é un valor relativamente pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $90$%, de que o modelo de regresión linear é válido. Non obstante existen dúbidas, xa que cun nivel de confianza do 95% non teriamos evidencia estatística da súa validez.

Exame de maio de 2022

Observouse que en 130 persoas falecidas por COVID-19 en Australia, con idades comprendidas entre 70 e 79 anos, o tempo medio transcorrido dende o diagnóstico da enfermidade ata o falecemento foi de $18.1$ días, cunha cuasi-desviación típica $s = 0.98$ días. Tomar un nivel de significación $\alpha = 5 \%$.

  1. Dar un intervalo de confianza para o tempo medio transcorrido dende o diagnóstico ata o falecemento para esa franxa de idade.
  2. Supoñamos que sabemos que a varianza poboacional é $\sigma^2 = 1.21$. ¿Que tamaño de mostra deberiamos ter tomado para que o erro de estimación fose inferior a $0.5$ días?

Considerámo-la variable aleatoria $X$="tempo transcorrido desde o diagnóstico".

Temos $n=130$, $\overline{X}=18.1$, $s_{n-1}^2=0.96$, e $s_{n-1}=0.98$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}} \right\rvert \leq t_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \overline{X} \pm t_{n-1,\,\alpha/2} \frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $t_{129,\,0.025}=1.979$. Substituímos na fórmula \[ 18.1 \pm 1.979 \cdot \frac{0.98}{\sqrt{130}} = 18.1 \pm 0.17. \] Por tanto obtense o intervalo $[17.93,\, 18.27]$.

Conclusión: cun nivel de confianza do $95.0$%, a media de tempo transcorrido desde o diagnóstico atópase entre $17.93$ e $18.27$.

Neste caso a varianza poboacional é coñecida.

Para estima-lo tamaño da mostra para unha media, empregámo-lo estatístico \[ \frac{\overline{X} - \mu}{\sigma / \sqrt{n}}, \] que segue unha distribución normal estándar. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \right\rvert \leq Z_{\alpha/2}, \] obtense a fórmula \[ \overline{X} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \] A estimación do erro é \[ Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. \]

Queremos $Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \epsilon$, onde $\epsilon$ é o valor fixado polo problema. Despexando obtense \[ n\geq \left(\frac{Z_{\alpha/2} \sigma}{\epsilon}\right)^{2}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $Z_{0.025}=1.96$. Neste caso $\epsilon=0.5$. Substituíndo na fórmula, \[ n \geq \left(\frac{1.96 \cdot 1.1}{0.5}\right)^{2} = 18.593. \]

Conclusión: para que a diferencia entre a media mostral e a media poboacional de tempo transcorrido desde o diagnóstico sexa como moito de $\pm 0.5$ cun nivel de confianza do $95.0$%, teriamos que tomar unha mostra de polo menos $19$ elementos.

Nun estudo realizado en 2005 entre mulleres universitarias, atopouse que a altura media de 564 mulleres de Polonia foi $166 cm$, cunha cuasi-desviación típica $s = 6 cm$. Pola contra, a altura media de 739 mulleres en Alemania foi de $169 cm$, con $s = 9 cm$.

¿Apoia o experimento a hipótese de que a altura media das mulleres universitarias de Alemania é maior cá das de Polonia? Non podemos supoñer $\sigma_1=\sigma_2$. Usa o valor p.

Considerámo-las variables aleatorias $X$="altura das mulleres de Polonia" e $Y$="altura das mulleres de Alemania".

Temos $n_1=564$, $\overline{X}=166.0$, $s_{1}=6.0$, $n_2=739$, $\overline{Y}=169.0$, $s_{2}=9.0$.

Asumimos que as varianzas das dúas poboacións son distintas.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1 &{} \geq \mu_2,& H_1\colon \mu_1 &{} < \mu_2. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. Para iso empregámo-lo estatístico \[ \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{\sqrt{\frac{s_1^{2}}{n_1} + \frac{s_2^{2}}{n_2}}}, \] que segue unha distribución $t$-Student con $\gamma$ graos de liberdade.

O número de graos de liberdade vén dado pola fórmula de Welch-Smith-Satterthwaite: \[ \gamma\sim \frac{\left(\frac{s_1^{2}}{n_1} + \frac{s_2^{2}}{n_2}\right)^{2}}{\frac{\left(s_1^{2} / n_1\right)^{2}}{n_1 - 1} + \frac{\left(s_2^{2} / n_2\right)^{2}}{n_2 - 1}}. \]

Substituíndo na fórmula de Welsch: \[ \gamma\sim \frac{\left(\frac{6.0^{2}}{564} + \frac{9.0^{2}}{739}\right)^{2}}{\frac{\left(6.0^{2} / 564\right)^{2}}{564 - 1} + \frac{\left(9.0^{2} / 739\right)^{2}}{739 - 1}} =1279.175, \] polo que tomamos $\gamma=1279$.

O valor no estatístico é \[ \frac{\left(166.0 - 169.0\right) - 0}{\sqrt{\frac{6.0^{2}}{564} + \frac{9.0^{2}}{739}}} =-7.204. \]

Calculámo-lo valor $P$ como $P={P(t_{1279} < -7.204)}=0.5\cdot 10^{-12}$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.9$%, de que a media de altura das mulleres de Polonia é menor cá media de altura das mulleres de Alemania.

Nun estudo sobre o hábito de fumar entre mozos estudantes universitarios de países en vías de desenvolvemento, atopouse que en Rusia, de 787 estudantes fumaban 233, mentres que en China, de 984 estudantes só fumaban 37.

¿Pódese afirmar que a proporción de mozos estudantes universitarios que fuman en Rusia é superior á de China?

Considerámo-las variables aleatorias $X$="mozos estudantes universitarios rusos que fuman" e $Y$="mozos estudantes universitarios chineses que fuman".

Temos $n_1=787$, $\hat{p}_1=0.2961$, $n_2=984$, $\hat{p}_2=0.0376$.

Nótese que o valor nulo deste contraste de hipóteses é cero.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p_1 &{} \leq p_2,& H_1\colon p_1 &{} > p_2. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de proporcións. Para iso empregámo-lo estatístico \[ \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p} \left(1 - \hat{p}\right) \left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}, \] que segue unha distribución normal estándar.

Aquí considerámo-la proporción ponderada, que se define como \[ \hat{p}=\frac{n_1 \hat{p}_1 + n_2 \hat{p}_2}{n_1 + n_2}. \]

Substituíndo na fórmula da proporción ponderada obtemos \[ \hat{p}=\frac{787 \cdot 0.2961 + 984 \cdot 0.0376}{787 + 984} =0.1525. \]

O valor no estatístico é \[ \frac{0.2961 - 0.0376}{\sqrt{0.1525 \left(1 - 0.1525\right) \left(\frac{1}{787} + \frac{1}{984}\right)}} =15.0354. \]

Calculámo-lo valor $P$ como $P={P(Z_{} > 15.0354)}=0.2\cdot 10^{-50}$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.9$%, de que a proporción de mozos estudantes universitarios rusos que fuman é maior cá proporción de mozos estudantes universitarios chineses que fuman.

Examináronse cinco caixas de diferentes marcas A, B, C, D, E de atún en lata para ver se cumprían ou non certas condicións de calidade alimentaria. Cada caixa contiña 24 latas. Atopouse que o número de latas que non cumprían as condicións foi 3, 8, 5, 3, 9, respectivamente.

  1. Construír unha táboa de continxencia para as variables "marca" e "condicións de calidade".
  2. Face-la correspondente proba de homoxeneidade. Contrasta-la hipótese de que as cinco marcas teñen unha calidade comparable.

Temos cinco poboacións, dependendo de "marca", e unha variable aleatoria $Y$="calidade".

En primeiro lugar construímo-la táboa de continxencia:

marca \ calidadenonsitamaño
A32124
B81624
C51924
D32124
E91524
$\Sigma$2892120

Temos que face-lo contraste de hipóteses: \[ H_0\colon p_{11}=p_{21}=p_{31}=p_{41}=p_{51}, p_{12}=p_{22}=p_{32}=p_{42}=p_{52}. \]

Este é un contraste de hipóteses para homoxeneidade de datos categóricos, xa que o tamaño da mostra en cada poboación é fixado polo investigador. Para iso empregámo-lo estatístico \[ \sum_{i,j} \frac{\bigl(n_{ij} - \widehat{E_{ij}}\bigr)^{2}}{\widehat{E_{ij}}}, \] que segue unha distribución $\chi^2$ de Pearson con $(f-1)(c-1)$ graos de liberdade.

O número de graos de liberdade da distribución é $(5-1)(2-1)=4$.

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$:

marca \ calidadenonsitamaño
A5.618.424
B5.618.424
C5.618.424
D5.618.424
E5.618.424
$\Sigma$2892120

Agora calculámo-los valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$:

marca \ calidadenonsi$\Sigma$
A1.2070.367
B1.0290.313
C0.0640.02
D1.2070.367
E2.0640.628
$\Sigma$7.267

A suma dos valores intermedios, que coincide co valor no estatístico, é 7.267.

Calculámo-lo valor $P$ como $P={P(\chi^2_{4} > 7.267)}=0.1224$, que é un valor relativamente grande.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza do $87.8$%, de que haxa relación entre as dúas variables.

Nun estudo da Organización Mundial da Saúde (OMS) relacionouse o tempo transcorrido (en anos) dende 2006 coa esperanza de vida nun determinado país. Obtivéronse os seguintes datos:

X: Anos transcorridos 13579
Y : Esperanza de vida (anos) 57.558.659.259.965.0
  1. Estima-la esperanza de vida cando pasen 10 anos.
  2. Calcula-lo coeficiente de determinación e interpretalo.
  3. Contrasta-lo modelo de regresión linear (ANOVA). Usar $\alpha= 0.05$.

Considerámo-las variables aleatorias $X$="anos transcorridos" e $Y$="esperanza de vida".

Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
1.057.51.057.53306.25
3.058.69.0175.83433.96
5.059.225.0296.03504.64
7.059.949.0419.33588.01
9.065.081.0585.04225.0
$\Sigma$25.0300.2165.01533.618057.86
Puntos e recta de regresión. 2.0 4.0 6.0 8.0 10.0 12.0 57.0 60.0 63.0 66.0 69.0 72.0
Os puntos e a súa recta de regresión

Temos $n=5$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{25.0}{5}=5.0,\\ \overline{Y} &{}=\frac{300.2}{5}=60.04,\\ s_X^2 &{}=\frac{165.0}{5}-5.0^2=8.0,\\ s_Y^2 &{}=\frac{18057.86}{5}-60.04^2=6.77,\\ s_{XY} &{}=\frac{1533.6}{5}-5.0\cdot 60.04=6.52. \end{aligned} \]

De aquí obtemos \[ \begin{aligned} b&{}=6.52\,/\,8.0=0.815,\\ a&{}=60.04-0.815\cdot 5.0=55.965, \end{aligned} \] co que a ecuación da recta de regresión é \[ y=55.965+0.815\,x. \]

Avaliando na recta de regresión, para "anos transcorridos" $x=10$ estímase "esperanza de vida" \[ y=55.965+0.815\cdot 10=64.115. \]

A estimación do coeficiente de correlación é \[ r=\frac{6.52}{\sqrt{8.0 \cdot 6.77}}=0.886. \] A calidade da aproximación é moderada.

O coeficiente de determinación vén dado por $r^2=0.785$. Isto interprétase do seguinte xeito: o $78.5$% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Comprobámo-la validez do modelo de regresión linear.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \rho &{} = 0,& H_1\colon \rho &{} \neq 0. \end{aligned} \]

Este é un contraste de hipóteses para a validez do modelo de regresión linear. Para iso empregámo-lo estatístico que se obtén despois de dispoñe-los cálculos nunha táboa ANOVA e que segue unha distribución $F$ de Snedecor con $(1,n-2)$ graos de liberdade.

g.l.$SS$$MS$cociente
regresión$1$$SS_R=5\cdot 0.785\cdot 6.77=26.569$$MS_R=26.569$$10.944$
erro$3$$SS_E=5\cdot(1-0.785)\cdot 6.77=7.283$$MS_E=\frac{7.283}{3}=2.428$
total$4$$SS_Y=5\cdot 6.77=33.852$

O nivel de significación é $\alpha=0.05$. Ademais, $F_{1, 3,\,0.05}=10.128$. Entón, $10.944\notin(-\infty,\, 10.128]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que o modelo de regresión linear é válido.

Exame de maio de 2023

Unha compañía asegura que os seus parafusos miden, por termo medio, tres centímetros. Sábese que, debido ó proceso de produción destes, a súa lonxitude segue unha distribución normal. Para comprobalo extráese unha mostra de 25 parafusos e obtense unha media mostral de $3.05$cm, con desviación típica mostral de $0.1$cm. Pídese:

  • Estimar, a partir dos datos mostrais, un intervalo de confianza para a media poboacional cun nivel de confianza do $95\%.$
  • Realiza-lo test estatístico que nos permita decidir, a partir dos resultados da muestra, se a lonxitude media dos parafusos é superior á especificada pola compañía. Resolve-lo test e discuti-lo resultado do test en función do seu valor p.

Considerámo-la variable aleatoria $X$="lonxitude dun parafuso".

Temos $n=25$, $\overline{X}=3.05$, $s_{n-1}^2=0.01$, e $s_{n-1}=0.1$.

Calculamos un intervalo de confianza para unha media empregando o estatístico \[ \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade. Despexando $\mu$ da desigualdade \[ \left\lvert \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}} \right\rvert \leq t_{n-1,\,\alpha/2}, \] obtense a fórmula \[ \overline{X} \pm t_{n-1,\,\alpha/2} \frac{s_{n-1}}{\sqrt{n}}. \]

O nivel de significación é $\alpha=0.05$. Calculamos $t_{24,\,0.025}=2.064$. Substituímos na fórmula \[ 3.05 \pm 2.064 \cdot \frac{0.1}{\sqrt{25}} = 3.05 \pm 0.041. \] Por tanto obtense o intervalo $[3.009,\, 3.091]$.

Conclusión: cun nivel de confianza do $95.0$%, a media de lonxitude dun parafuso atópase entre $3.009$ e $3.091$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu &{} \leq 3,& H_1\colon \mu &{} > 3. \end{aligned} \]

Este é un contraste de hipóteses para unha media. Para iso empregámo-lo estatístico \[ \frac{\overline{X} - \mu}{s_{n-1} / \sqrt{n}}, \] que segue unha distribución $t$-Student con $n-1$ graos de liberdade.

O valor no estatístico é \[ \frac{3.05 - 3}{0.1 / \sqrt{25}} =2.5. \]

Calculámo-lo valor $P$ como $P={P(t_{24} > 2.5)}=0.0098$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.0$%, de que a media de lonxitude dun parafuso é maior ca $3$.

Estase probando a eficacia de dous tipos de exercicio para mellora-los síntomas da artrite reumatoide. O primeiro tratamento (T1) foi probado en 150 pacientes con esta enfermidade obtendo que 127 deles melloran tras un mes de práctica. O segundo tratamento (T2) foi probado en 160 pacientes dos que 72 melloraron tras un mes de práctica.

¿Podemos asegurar que a porcentaxe de pacientes que melloran co tratamento T1 supera en máis de 25 puntos porcentuais á porcentaxe dos que melloran co tratamento T2? Realiza o correspondente contraste de hipóteses e discute o resultado en función do valor-p.

Considerámo-las variables aleatorias $X$="pacientes que melloran de artrite reumatoide co tratamento T1" e $Y$="pacientes que melloran de artrite reumatoide co tratamento T2".

Temos $n_1=150$, $\hat{p}_1=0.8467$, $n_2=160$, $\hat{p}_2=0.45$.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon p_1 - p_2 &{} \leq 0.25,& H_1\colon p_1 - p_2 &{} > 0.25. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de proporcións. Para iso empregámo-lo estatístico \[ \frac{\left(\hat{p}_1 - \hat{p}_2\right) - \left(p_1 - p_2\right)}{\sqrt{\frac{\hat{p}_1 \left(1 - \hat{p}_1\right)}{n_1} + \frac{\hat{p}_2 \left(1 - \hat{p}_2\right)}{n_2}}}, \] que segue unha distribución normal estándar.

O valor no estatístico é \[ \frac{\left(0.8467 - 0.45\right) - 0.25}{\sqrt{\frac{0.8467 \left(1 - 0.8467\right)}{150} + \frac{0.45 \left(1 - 0.45\right)}{160}}} =2.9861. \]

Calculámo-lo valor $P$ como $P={P(Z_{} > 2.9861)}=0.0014$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.9$%, de que a diferencia de proporcións entre pacientes que melloran de artrite reumatoide co tratamento T1 e pacientes que melloran de artrite reumatoide co tratamento T2 é maior có $25.0$%.

Arredor do ano 2008 descubriuse que o ácido acético (AcOH), principal compoñente do vinagre, suprimía a acumulación de graxa corporal en animais de laboratorio. Para investiga-lo efecto do consumo de vinagre na reducción de masa corporal na poboación xaponesa obesa, realizouse un ensaio dobre cego. Para iso cen ($100$) voluntarios dividíronse aleatoriamente en dous grupos de igual tamaño (control e tratados) con similares características corporais entre ambos grupos. Durante 12 semanas suministróuselles coa comida un preparado placebo (ó grupo control) e un preparado con vinagre (ó grupo tratado). Ó finaliza-lo estudo, o grupo control tiña un peso corporal medio de $74.5$kg cunha cuasi-desviación típica de $3.5$kg, e o grupo dos tratados, un peso corporal medio de $72.7$kg cunha cuasi-desviación típica de $3.3$kg. Expor e realiza-lo correspondente test de hipóteses (supoñendo que as varianzas poboacionais son iguais) para comprobar se a inxesta regular de vinagre axuda á diminución da graxa corporal. Discuti-lo test con nivel de significación $\alpha=0.05$.

Considerámo-las variables aleatorias $X$="peso no grupo control" e $Y$="peso no grupo tratado".

Temos $n_1=50$, $\overline{X}=74.5$, $s_{1}=3.5$, $n_2=50$, $\overline{Y}=72.7$, $s_{2}=3.3$.

Asumimos que as varianzas das dúas poboacións son iguais.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \mu_1 &{} \leq \mu_2,& H_1\colon \mu_1 &{} > \mu_2. \end{aligned} \]

Este é un contraste de hipóteses para unha diferencia de medias. Para iso empregámo-lo estatístico \[ \frac{\left(\overline{X} - \overline{Y}\right) - \left(\mu_1 - \mu_2\right)}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}, \] que segue unha distribución $t$-Student con $n_1+n_2-2$ graos de liberdade.

Aquí a cuasi-varianza mostral conxunta é \[ s_p^2=\frac{\left(n_1 - 1\right) s_1^{2} + \left(n_2 - 1\right) s_2^{2}}{n_1 + n_2 - 2}. \]

Substituíndo na fórmula da cuasi-varianza mostral conxunta: \[ s_p^2=\frac{\left(50 - 1\right) 3.5^{2} + \left(50 - 1\right) 3.3^{2}}{50 + 50 - 2} =11.57, \] polo que $s_p=3.401$.

O valor no estatístico é \[ \frac{\left(74.5 - 72.7\right) - 0}{3.401 \sqrt{\frac{1}{50} + \frac{1}{50}}} =2.646. \]

O nivel de significación é $\alpha=0.05$. Ademais, o valor de cola é $t_{98,\,0.05}=1.661$. Entón, $2.646\notin(-\infty,\, 1.661]$.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $95.0$%, de que a media de peso no grupo control é maior cá media de peso no grupo tratado.

Nun estudo dobre cego de eficacia e seguridade do uso do paracetamol para o tratamento da migraña, observouse que entre os que tomaron paracetamol, 31 tiveron problemas digestivos, 5 problemas relacionados co sistema nervioso e 25 efectos adversos doutro tipo, mentres que no grupo control, os casos de efectos adversos foron 25, 3 e 33 respectivamente. Realiza-lo test estatístico axeitado para poder comprobar se o tipo de efecto adverso depende ou non do feito de tomar placebo ou paracetamol. Resolver con nivel de significación $\alpha=0.05$.

Neste problema temos 2 poboacións, dependendo do "grupo", e da variable aleatoria $Y$="efectos".

En primeiro lugar construímo-la táboa de continxencia:

grupo \ efectosdixestivosnerviososoutrostamaño
paracetamol3152561
placebo2533361
$\Sigma$56858122

Temos que face-lo contraste de hipóteses: \[ H_0\colon p_{11}=p_{21}, p_{12}=p_{22}, p_{13}=p_{23}. \]

Este é un contraste de hipóteses para homoxeneidade de datos categóricos, xa que o tamaño da mostra en cada poboación é fixado polo investigador. Para iso empregámo-lo estatístico \[ \sum_{i,j} \frac{\bigl(n_{ij} - \widehat{E_{ij}}\bigr)^{2}}{\widehat{E_{ij}}}, \] que segue unha distribución $\chi^2$ de Pearson con $(f-1)(c-1)$ graos de liberdade.

O número de graos de liberdade da distribución é $(2-1)(3-1)=2$.

A continuación calculámo-las frecuencias esperadas, no suposto de que a hipótese nula sexa certa, mediante a fórmula $\widehat{E_{ij}}=\frac{n_{i\boldsymbol{\cdot}}n_{\boldsymbol{\cdot}j}}{n}$:

grupo \ efectosdixestivosnerviososoutrostamaño
paracetamol28.04.029.061
placebo28.04.029.061
$\Sigma$56858122

Agora calculámo-los valores intermedios do estatístico $(n_{ij}-\widehat{E_{ij}})^2/\widehat{E_{ij}}$:

grupo \ efectosdixestivosnerviososoutros$\Sigma$
paracetamol0.3210.250.552
placebo0.3210.250.552
$\Sigma$2.246

A suma dos valores intermedios, que coincide co valor no estatístico, é 2.246.

O nivel de significación é $\alpha=0.05$. Ademais, o valor de cola é $\chi^2_{2,\,0.05}=5.991$. Entón, $2.246\in(-\infty,\, 5.991]$.

Conclusión: Aceptamos $H_0$, e concluímos que non hai evidencia significativa, cun nivel de confianza do $95.0$%, de que haxa relación entre as dúas variables.

Co obxectivo de facer un modelo linear para predeci-la distancia de freada (espacio percorrido desde a freada ata a parada total do coche) a partir da velocidade dun coche, en 1920 recolectáronse datos de 19 coches escollidos aleatoriamente. A velocidade no momento da frenada (variable $x$) mediuse en millas/hora e a distancia de frenada en pies (variable $y$) obténdose os siguientes valores:

$\sum x=287$,   $\sum y=602$,   $\sum x^2=5009$,   $\sum y^2=28466$,   $\sum xy=11426$.

  • Calcula-la recta de regresión.
  • Calcula-lo coeficiente de determinación $R^2$ e interpreta-lo seu resultado.
  • Contrasta-lo modelo de regresión linear.

Considerámo-las variables aleatorias $X$="velocidade" e $Y$="distancia".

Organizámo-los cálculos nunha táboa.

$X$$Y$$X^2$$XY$$Y^2$
$\Sigma$287.0602.05009.011426.028466.0

Temos $n=19$ datos e \[ \begin{aligned} \overline{X} &{}=\frac{287.0}{19}=15.105,\\ \overline{Y} &{}=\frac{602.0}{19}=31.684,\\ s_X^2 &{}=\frac{5009.0}{19}-15.105^2=35.463,\\ s_Y^2 &{}=\frac{28466.0}{19}-31.684^2=494.321,\\ s_{XY} &{}=\frac{11426.0}{19}-15.105\cdot 31.684=122.77. \end{aligned} \]

De aquí obtemos \[ \begin{aligned} b&{}=122.77\,/\,35.463=3.462,\\ a&{}=31.684-3.462\cdot 15.105=-20.61, \end{aligned} \] co que a ecuación da recta de regresión é \[ y=-20.61+3.462\,x. \]

A estimación do coeficiente de correlación é \[ r=\frac{122.77}{\sqrt{35.463 \cdot 494.321}}=0.927. \] A calidade da aproximación é forte.

O coeficiente de determinación vén dado por $r^2=0.86$. Isto interprétase do seguinte xeito: o $86.0$% da variabilidade da variable $Y$ está explicada polo modelo de regresión.

Comprobámo-la validez do modelo de regresión linear.

Facémo-lo contraste de hipóteses \[ \begin{aligned} H_0\colon \rho &{} = 0,& H_1\colon \rho &{} \neq 0. \end{aligned} \]

Este é un contraste de hipóteses para a validez do modelo de regresión linear. Para iso empregámo-lo estatístico que se obtén despois de dispoñe-los cálculos nunha táboa ANOVA e que segue unha distribución $F$ de Snedecor con $(1,n-2)$ graos de liberdade.

g.l.$SS$$MS$cociente
regresión$1$$SS_R=19\cdot 0.86\cdot 494.321=8075.475$$MS_R=8075.475$$104.269$
erro$17$$SS_E=19\cdot(1-0.86)\cdot 494.321=1316.63$$MS_E=\frac{1316.63}{17}=77.449$
total$18$$SS_Y=19\cdot 494.321=9392.105$

Calculámo-lo valor $P$ como $P={P(F_{1, 17} > 104.269)}=0.1\cdot 10^{-7}$, que é un valor pequeno.

Conclusión: Rexeitamos $H_0$, e concluímos que hai evidencia significativa, cun nivel de confianza do $99.9$%, de que o modelo de regresión linear é válido.