Introdución á inferencia estadística. Estimación

Poboación e mostra

A poboación é o conxunto de individuos ou obxectos que queremos estudar.

A nosa hipótese de partida é que a nosa poboación ten unha característica (unha variable aleatoria $X$) que pretendemos estudar (por exemplo, estatura, peso, etc.) que segue unha distribución da que coñécemo-la súa forma xeral (modelo) pero da que descoñécemo-los seus parámetros. Por exemplo, sábese que a estatura segue (aproximadamente) unha distribución normal, pero non coñecemos nin a media nin a desviación típica dunha poboación dada.

Unha mostra aleatoria é un experimento consistente en tomar $n$ individuos da poboación. Suporemos que a mostra aleatoria se consigue extraendo individuos de xeito independente, de modo que tódolos individuos teñan a mesma probabilidade de ser elexidos en cada momento.

Imaxinemos que temos unha bolsa con bólas brancas e negras, e queremos estima-la proporción de bólas brancas. Para iso extraemos unhas cantas bólas, mirámo-la proporción de brancas entre as bólas extraídas, e estimamos que a proporción de bólas brancas totais ten que ser estimada pola proporción de bólas brancas da mostra.

Aínda que efectivamente se pode facer esa estimación, o problema da mostra así extraída é que non é unha mostra aleatoria simple. Os métodos que empregaremos neste curso non contemplan a posibilidade de que a mostra non sexa aleatoria simple. Neste caso, para que a mostra sexa aleatoria simple é necesario face-la extracción con reemprazamento, é dicir, debemos baralla-las bólas, extraer unha, mira-la cor, volvela meter na bolsa, volver a barallar, sacar de novo, e así sucesivamente.

Ademais de que a mostra é aleatoria simple, suporemos que a información que nos dá é veraz. Por tanto, construímos así $n$ variables aleatorias $X_1,\dots,X_n$ independentes e coa mesma distribución de probabilidade cá da poboación.

Cando os datos involucran información delicada ou embarazosa, non podemos confiar en que a información da mostra sexa veraz. Hai técnicas para tratar de suplir eses problemas (por exemplo, aleatoriza-las respostas), pero nese caso xa non se pode supoñer que a mostra siga a mesma distribución ca variable aleatoria da poboación.

Nótese que despois de face-lo experimento teremos uns valores concretos $x_1,\dots,x_n$, pero mentres deseñámo-lo experimento eses resultados son descoñecidos e por iso son tratados como variables aleatorias en vez de como números; en efecto, antes de realiza-lo experimento estamos extraendo un individuo descoñecido da poboación, e por tanto, a característica que lle estudamos ten a mesma distribución cá da poboación. Dise que $n$ é o tamaño mostral, e que $X_1,\dots,X_n$ é unha mostra aleatoria simple.

É imposible, sen empregar teoría da probabilidade, decidir de xeito científico o tamaño mostral. Por iso diremos que este é $n$, e máis adiante intentaremos decidir como se calcula de xeito concreto este valor.

Un estatístico é unha función dunha mostra aleatoria simple que expresa unha determinada característica da mostra. Son exemplos de estatísticos a media, a varianza, a cuasivarianza e outras medidas que definimos con anterioridade.

Un estimador puntual é un estatístico que toma valores no espazo de parámetros. A súa misión será a de aproximar un parámetro. Un estatístico que ten como misión estimar un parámetro $\theta$ denótase $\hat{\theta}$. Por exemplo, se a poboación segue unha distribución normal $N(\mu,\sigma)$, $\hat{\mu}$ será un estimador puntual da media, e $\hat{\sigma}$ un estimador puntual da desviación típica.

Poboacion de individuos Individuo Frecha á dereita Frecha á dereita Mostra da poboación Individuo Frecha á dereita

$\hat{\mu}$

Poboación

Mostra

Estimador

Existen varios xeitos de escoller estimadores puntuais. Neste curso non enfatizarémo-la súa construcción, pero si que prestaremos atención a estimadores insesgados (aqueles para os que a súa media coincide co valor do parámetro que se pretende estimar) e consistentes (aqueles para os que o erro de medida se aproxima a cero cando o tamaño da mostra tende a infinito).

Cando temos uns datos para unha mostra concreta, un estimador puntual dános unha aproximación do parámetro que pretendemos estimar. O problema dun estimador puntual é que non temos idea de se o valor obtido está preto ou lonxe do valor real. Sería interesante ter unha idea do erro cometido coa estimación e acotar probabilisticamente ese erro. Para iso empréganse os chamados intervalos de confianza.

Chámase intervalo de confianza a un par de estatísticos $T_1$ e $T_2$, entre os cales se estima que estará certo parámetro descoñecido $\theta$ dunha distribución, cunha certa probabilidade de acerto determinada pola condición \[ P\bigl(T_1(X_1,\dots,X_n)\leq \theta\leq T_2(X_1,\dots,X_n)\bigr) \geq 1-\alpha, \] ou ben, \[ P\Bigl(\theta\in\bigl[T_1(X_1,\dots,X_n),\,T_2(X_1,\dots,X_n)\bigr]\Bigr) \geq 1-\alpha, \] onde $X_1,\dots,X_n$ é unha mostra aleatoria simple. A probabilidade de éxito na estimación $1-\alpha$ denomínase nivel de confianza. Nestas circunstancias, $\alpha$ é o erro aleatorio ou nivel de significación.

Na descripción dun intervalo de confianza fálase de que a probabilidade de que un parámetro estea entre dous estatísticos sexa $1-\alpha$. Esta é a formulación correcta do problema e o xeito de construí-lo intervalo a nivel teórico. Para datos concretos dunha mostra, os estatísticos transfórmanse en dous valores entre os que se cre que o parámetro buscado está con confianza $1-\alpha$. Insistimos en que para valores concretos se fala de confianza, non de probabilidade. Se por exemplo $\alpha=0.1$, temos unha confianza do 90% de que o valor real se atope no intervalo calculado, é dicir, que en 90 de cada 100 mostras o intervalo conterá o valor real. Non se pode falar de probabilidade con datos concretos, xa que non hai variables aleatorias e tódolos valores son xa coñecidos.

Estimación da media poboacional

O problema que tratamos de resolver nesta sección é o de estima-la media dunha poboación que sabemos que segue unha distribución normal de media $\mu$ e desviación típica $\sigma$ (que en principio son o que queremos estimar). Para iso extraemos unha mostra aleatoria simple $X_1,\dots,X_n$.

Estimación puntual

Un xeito obvio de estima-la media da poboación é emprega-la media da mostraxe.

A media da mostraxe é o estimador puntual $\hat{\mu}=\overline{X}$, onde \[ \overline{X}=\frac{1}{n}\sum_{i=1}^n X_i. \]

Como $X_1,\dots,X_n$ teñen a mesma distribución $N(\mu,\sigma)$ e son independentes, temos \[ \begin{aligned} E(\overline{X})&{}=\mu, &V(\overline{X})&{}=\frac{\sigma^2}{n}. \end{aligned} \] Debido a estas dúas propiedades, a media mostral é un estimador insesgado e consistente.

Estimación por intervalos: coñecida a varianza poboacional

Supoñamos que a distribución poboacional segue unha distribución normal $N(\mu,\sigma)$ onde a varianza $\sigma^2$ é coñecida.

Se $X_1,\dots,X_n$ é unha mostra aleatoria simple, entón tomámo-lo estatístico \[ \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim Z \] que segue unha distribución normal estándar $Z=N(0,1)$.

Valor para determina-lo intervalo de confianza

Fixemos agora un nivel de significación $\alpha$ (ou un nivel de confianza $1-\alpha$).

Como a distribución normal é simétrica respecto da media, o noso intervalo de confianza tomarémolo da forma $\bigl[\overline{X}-\epsilon,\overline{X}+\epsilon\bigr]$, onde $\epsilon$ é o erro arredor da media que permitimos cometer. Así pois necesitamos \[ P(\mu\in[\overline{X}-\epsilon,\overline{X}+\epsilon])=1-\alpha. \]

Tomámo-lo valor $Z_{\alpha/2}$ para o que $P(Z\geq Z_{\alpha/2})=\alpha/2$.

Regras para manipular inecuacións

Sexan $x,y$ números. Supoñamos $x\leq y$.

Para calquera $a$,
$x+a\leq y+a$.

Se $a>0$, entón $ax\leq ay$.

Se $a<0$, entón $ax\geq ay$.

Así pois témo-la cadea de igualdades \[ \begin{aligned} 1-\alpha &{}=P\bigl(\lvert\overline{X}-\mu\lvert\leq\epsilon\bigr)\\ &{}=P\Bigl(-\frac{\epsilon}{\sigma/\sqrt{n}}\leq\frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \leq\frac{\epsilon}{\sigma/\sqrt{n}}\Bigr)\\ &{}=1-2P\Bigl(Z>\frac{\epsilon}{\sigma/\sqrt{n}}\Bigr), \end{aligned} \] de onde se deduce $Z_{\alpha/2}=\frac{\epsilon}{\sigma/\sqrt{n}}$. Despexando $\epsilon$, témo-lo intervalo de confianza \[ \Bigl[\overline{X}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}},\, \overline{X}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\Bigr]. \]

Equivalentemente, resulta máis sinxelo recordar que a partir do estatístico o intervalo de confianza se obtén despexando $\mu$ da inecuación \[ \left\lvert\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right\rvert \leq Z_{\alpha/2}, \] ou ben, \[ -Z_{\alpha/2}\leq\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\leq Z_{\alpha/2}. \]

Outro xeito de escribi-lo intervalo de confianza anterior (aproveitando a simetría do mesmo) é mediante a expresión \[ \overline{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}. \]

Desexamos estima-lo número medio de latexos por minuto para unha certa poboación. Para iso elíxense aleatoriamente 15 individuos e obtéñense os seguintes resultados:

7895709781
85102757885
115809810192

Supoñendo que a distribución da poboación é normal con desviación típica de 10 latexos por minuto, calcula-lo intervalo de confianza do 99% para a media poboacional de número de latexos por minuto.

Considerámo-la variable aleatoria $X$="número de latexos por minuto". Temos que $X$ ten distribución $N(\mu,10)$, con $\mu$ descoñecido.

En primeiro lugar organizámo-los cálculos para calcula-la media mostral.

$X$
78
95
70
97
81
85
102
75
78
85
115
80
98
101
92
$\Sigma$1332

Tamaño mostral $n=15$. Estimación puntual da media $\overline{X}=1332/15=88.8$ latexos.

Nivel de significación: $\alpha=0.01$. Buscámo-lo valor $Z_{0.005}$ tal que $P(Z\geq Z_{0.005})=0.005$. Aproximadamente, $Z_{0.005}=2.576$.

O intervalo de confianza buscado é entón \[ 88.8\pm 2.576\cdot\frac{10}{\sqrt{15}}=88.8\pm 6.65, \] que resulta ser $[82.1,95.5]$.

Conclusión: cunha confianza do 99%, o número medio de latexos por minuto da poboación estudada atópase entre 82.1 e 95.5.

En ocasións queremos limita-lo erro de estimación para que non sobrepase certo límite. En tal caso hai que tomar unha mostra suficientemente grande. Como o erro vén dado por $Z_{\alpha/2}\,\sigma/\sqrt{n}$, se queremos que sexa menor ca $\epsilon$, entón, despexando, obtemos \[ n\geq\Bigl(\frac{Z_{\alpha/2}\,\sigma}{\epsilon}\Bigr)^2. \]

En caso de que a distribución da poboación non se poida garantir que sexa normal, se o tamaño da mostra é grande, o teorema central do límite dinos que podemos supoñe-la normalidade de $\overline{X}$, e por tanto, os métodos desta sección seguen sendo aproximadamente válidos. Nos apartados seguintes, se a distribución poboacional non é normal, non se aplica o teorema central do límite aínda que o tamaño da mostra sexa grande, así que neses casos habería que empregar outras técnicas que están máis aló dos obxectivos deste curso.

Estimación por intervalos: descoñecida a varianza poboacional

Supoñamos agora que a distribución poboacional segue unha distribución normal $N(\mu,\sigma)$ onde a varianza $\sigma^2$ é descoñecida (o cal é o habitual). Sexa $X_1,\dots,X_n$ é unha mostra aleatoria simple.

Animación das funcións de densidade de varias $t$-Student e as súas colas

Recordemos que a cuasi-varianza ou varianza mostral (en contraposición a "varianza poboacional") vén definida mediante \[ \begin{aligned} s_{n-1}^2 &{}=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2\\ &{}=\frac{1}{n-1}\sum_{i=1}^n X_i^2-\frac{n}{n-1}\overline{X}^2. \end{aligned} \] Así, a cuasi-desviación típica ou desviación típica mostral, $s_{n-1}$, é a raíz cadrada da cuasi-varianza. Neste curso $s$ denotará, salvo que se diga o contrario, a cuasi-desviación típica $s_{n-1}$.

Para estima-la media cando a varianza poboacional non é coñecida tómase o estatístico \[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\sim t_{n-1}. \] Este estatístico resulta seguir unha distribución $t$-Student de $n-1$ graos de liberdade.

https://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student
Funcións de densidade da $t$-Student comparadas coa normal estándar
https://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student
Funcións de densidade da $t$-Student comparadas coa normal estándar

A distribución $t$-Student é unha nova distribución que ten como función de densidade \[ f(x)=c_{n-1}\Bigl(1+\frac{xa^2}{n-1}\Bigr)^\frac{n}{2}, \] sendo $c_{n-1}$ unha constante que non especificaremos.

Nótese que esta distribución depende dun parámetro $n$, chamado graos de liberdade da distribución, e que haberá que ter en consideración cando mirémo-los valores nas táboas.

Algunhas propiedades da $t$-Student:

  • $E(t_n)=0$ e $V(t_n)=n/(n-2)$.
  • É simétrica respecto da media.
  • Ten unha forma parecida á da normal, pero ten cuantiles máis grandes (por tanto produce intervalos de confianza máis grandes).
  • Se $n\geq 100$, $t_n$ pode aproximarse por unha $N(0,1)$.
Valor para determina-lo intervalo de confianza

Para o cálculo dun intervalo de confianza, o razoamento sería similar ó do anterior apartado. Para un nivel de significación $\alpha$, o intervalo de confianza para a media vén determinado pola fórmula \[ \Bigl[\overline{X}-t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}},\, \overline{X}+t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}\Bigr], \] ou ben, \[ \overline{X}\pm t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}, \] sendo $t_{n-1,\,\alpha/2}$ o valor tal que $P(t_{n-1}\geq t_{n-1,\,\alpha/2})=\alpha/2$.

Igual ca no caso anterior, recordar estas fórmulas non resulta sinxelo. Non obstante, coñecido o estatístico necesario para resolve-lo problema, só temos que lembrar que hai que considera-la inecuación \[ -t_{n-1,\,\alpha/2}\leq\frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\leq t_{n-1,\,\alpha/2}, \] e despexar o valor de $\mu$.

Os pesos ó nacer (en gramos) de 10 nenos, elexidos aleatoriamente nun hospital, son:

27503316396922112806
41953061382735723430

Supoñendo que a poboación segue unha distribución normal, calcular un intervalo de confianza do 95% para a media do peso ó nacer dos nenos dese hospital.

Considerámo-la variable aleatoria $X$="peso ó nacer". Temos que $X$ ten distribución $N(\mu,\sigma)$, con $\mu$ e $\sigma$ descoñecidos.

En primeiro lugar, organizámo-los cálculos para a media e cuasi-varianza mostrais.

$X$$X^2$
27507562500
331610995856
396915752961
22114888521
28067873636
419517598025
30619369721
382714645929
357212759184
343011764900
$\Sigma$33137113211233

Tamaño mostral $n=10$. Estimación puntual da media $\overline{X}=33137/10=3313.7$. A cuasi-varianza calcúlase como \[ \begin{aligned} s_n^2&{}=\frac{113211233}{10}-3313.7^2=340516,\\ s_{n-1}^2&{}=\frac{10}{9}340516=378351. \end{aligned} \] Extraendo a raíz cadrada obtemos $s_{n-1}=615.10$.

Nivel de significación: $\alpha=0.05$. Buscámo-lo valor $t_{9,0.025}$ tal que $P(t_9>t_{9,0.025})=0.025$. Aproximadamente, $t_{9,0.025}=2.262$.

O intervalo de confianza buscado é entón \[ 3313.7\pm 2.262\cdot\frac{615.10}{\sqrt{10}}=3313.7\pm 440.02, \] ou explicitamente, $[2873.68,3753.72]$.

Conclusión: cunha confianza do 95%, o peso medio ó nacer dos nenos do hospital estudado atópase entre 2873.68 e 3753.72 gramos.

Estimación da varianza poboacional

Nesta sección o problema será o de estima-la varianza dunha poboación que segue unha distribución normal. Tomamos unha mostra aleatoria simple $X_1,\dots,X_n$.

Estimación puntual

Se a media da poboación é coñecida, tomámo-lo seguinte estimador puntual

Definimos \[ s_\mu^2=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2. \]

Entón, tense \[ E(s_\mu^2)=\sigma^2, \] é dicir, que $s_\mu^2$ é insesgado.

Se a media da poboación é descoñecida, o cal é o que sucede habitualmente, cabería pensar que un estimador para a varianza podería ser $s_n^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2$. Isto resulta non se-la mellor idea pois \[ E(s_n^2)=\frac{n-1}{n}\sigma^2, \] é dicir, que este estimador non é insesgado (ten tendencia a infraestima-la varianza.)

Un xeito máis correcto de estima-la varianza da poboación é emprega-la cuasi-varianza.

A cuasi-varianza da mostraxe ou varianza mostral defínese como \[ s_{n-1}^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2. \]

Neste caso, \[ \begin{aligned} E(s_{n-1}^2)&{}=\sigma^2. \end{aligned} \] A cuasi-varianza mostral é un estimador insesgado.

Estimación por intervalos: coñecida a media poboacional

https://en.wikipedia.org/wiki/Chi-squared_distribution
Funcións de densidade da $\chi^2$ de Pearson para distintos graos de liberdade

Supoñemos, aínda que normalmente non sucede, que a media poboacional $\mu$ é coñecida. É preferible, por tanto, emprega-lo estimador $s_\mu$ en lugar da cuasi-varianza mostral, xa que o parámetro $\mu$ é coñecido exactamente e non cómpre ser aproximado. En realidade esta é unha situación teórica, pois a media poboacional non é coñecida na práctica, pero serve para ir introducindo unha nova distribución que empregaremos máis adiante.

Para estima-la varianza poboacional dunha poboación normal con media coñecida toma-lo estatístico \[ \frac{n s_\mu^2}{\sigma^2}\sim \chi_n^2, \] que segue unha distribución $\chi$-cadrado de Pearson con $n$ graos de liberdade.

A distribución $\chi^2$ de Pearson ten como función de densidade de probabilidade \[ f(x)=c_n\, x^{n/2-1} e^{-x/2},\ x>0, \] onde $c_n$ é unha constante.

A distribución $\chi^2$ de Pearson, ó igual que sucedía coa distribución $t$ de Student, depende dun parámetro que se coñece como o número de graos de liberdade da distribución.

https://en.wikipedia.org/wiki/Chi-squared_distribution
Funcións de densidade da $\chi^2$ de Pearson para distintos graos de liberdade

Algunhas propiedades da $\chi^2$ de Pearson:

  • $E(\chi^2_n)=n$ e $V(\chi^2_n)=2n$.
  • Só está definida para valores positivos e non é simétrica.
  • Se $n>30$, $\chi_n^2$ pode aproximarse por unha normal $N(n,\sqrt{2n})$; unha aproximación aínda mellor é $\sqrt{2\chi_n^2}-\sqrt{2n-1}\cong N(0,1)$.
Valores para determina-lo intervalo de confianza

Dado que a distribución $\chi^2$ de Pearson non é simétrica, o intervalo de confianza que construímos tampouco o será. Fixado un nivel de significación $\alpha$, buscamos dous extremos de intervalo $a$ e $b$ de xeito que á esquerda de $a$ e á dereita de $b$ quede probabilidade $\alpha/2$. É dicir, buscámo-los valores $a=\chi^2_{n,\,1-\alpha/2}$ e $b=\chi^2_{n,\,\alpha/2}$ tales que $P(\chi^2_n\geq \chi^2_{n,\,1-\alpha/2})=1-\alpha/2$ e $P(\chi^2_n\geq \chi^2_{n,\,\alpha/2})=\alpha/2$.

Nestas condicións, o intervalo de confianza para a varianza poboacional buscado vén dado pola fórmula \[ \Bigl[\frac{n s_\mu^2}{\chi^2_{n,\,\alpha/2}},\, \frac{n s_\mu^2}{\chi^2_{n,\,1-\alpha/2}}\Bigr]. \]

Como sempre, resulta máis sinxelo, coñecido o estatístico necesario para estima-la varianza poboacional, calcula-lo intervalo de confianza a partir de despexar $\sigma^2$ da inecuación \[ \chi^2_{n,\,1-\alpha/2}\leq \frac{n s_\mu^2}{\sigma^2}\leq \chi^2_{n,\,\alpha/2}, \]

Estimación por intervalos: descoñecida a media poboacional

O procedemento é similar ó caso anterior, pero agora temos que emprega-la cuasi-varianza mostral.

Para estima-la varianza poboacional dunha poboación normal con media descoñecida tomámo-lo estatístico \[ \frac{(n-1) s_{n-1}^2}{\sigma^2}\sim \chi_{n-1}^2, \] que segue unha distribución $\chi^2$ de Pearson con $n-1$ graos de liberdade.

O procedemento para atopar un intervalo de confianza é similar a casos anteriores. De feito, o intervalo de confianza buscado, para unha nivel de significación $\alpha$, é determinado por \[ \chi^2_{n-1,\,1-\alpha/2}\leq \frac{(n-1) s_{n-1}^2}{\sigma^2}\leq \chi^2_{n-1,\,\alpha/2} \]

Despexando $\sigma^2$ obtemos: \[ \Bigl[\frac{(n-1) s_{n-1}^2}{\chi^2_{n-1,\,\alpha/2}},\, \frac{(n-1) s_{n-1}^2}{\chi^2_{n-1,\,1-\alpha/2}}\Bigr]. \]

Obtense unha mostra aleatoria de 100 adultos aparentemente sans co fin de establecer un patrón con respecto ó que se considerará unha lectura normal de calcio. Extráese unha mostra de sangue de cada adulto. A variable estudada é $X$="contido de calcio en mg/dl de sangue", que se supón que presenta unha distribución aproximadamente normal. Obtívose unha media mostral de 9.5mg/dl e unha varianza $s_n^2=0.2475$. Calcular intervalos de confianza do 99% para a media e a desviación típica da poboación.

Considerámo-la variable aleatoria $X$="contido de calcio en mg/dl de sangue".

Os datos que temos no enunciado son o tamaño da mostra $n=100$, a media mostral $\overline{X}=9.5$ e a varianza $s_n^2=0.2475$. A cuasi-varianza é $s_{n-1}^2=\frac{100}{99}\cdot 0.2475=0.25$; logo $s_{n-1}=0.5$. O nivel de significación é $\alpha=0.01$.

Para o cálculo dun intervalo de confianza para a media buscámo-lo valor $t_{99,0.005}=2.63$. Así un intervalo para a media é \[ 9.5\pm 2.63\cdot\frac{0.5}{\sqrt{100}}=9.5\pm 0.13, \] ou ben, $[9.37, 9.63]$.

A continuación pasamos á varianza. Temos que buscar dous valores da $\chi^2$: $\chi_{99,0.005}^2=138.99$ e $\chi_{99,0.995}^2=66.51$. O intervalo de confianza para a varianza é \[ \Bigl[\frac{99\cdot 0.25}{138.99},\frac{99\cdot 0.25}{66.51}\Bigr] =[0.18,0.37]. \] Simplemente extraendo raíces cadradas temos un intervalo de confianza para a desviación típica: $[0.42,0.61]$.

Conclusión: cunha confianza do 99%, o contido en calcio en sangue medido en mg/dl na poboación estudada ten unha media que está comprendida entre 9.37 e 9.63, e unha desviación típica entre 0.42 e 0.61.

Estimación dunha proporción

Supoñamos que temos unha variable con dous posibles valores. Temos unha poboación na que queremos estima-la proporción $p$ de individuos que teñen un deses valores. Unha mostra individual desa poboación seguirá pois unha distribución de Bernoulli de parámetro $p$, mentres que a poboación segue unha distribución binomial de parámetros $N$ (número de elementos) e $p$.

https://es.wikipedia.org/wiki/Distribuci%C3%B3n_binomial
Función de masas dunha binomial (30, 0.35)

Recordemos que a distribución binomial de parámetros $N$ e $p$ é unha distribución discreta con función de masa \[ P(X=k)=\binom{N}{k}p^k(1-p)^{N-k}. \] A súa media e a súa varianza son \[ \begin{aligned} E(X)&{}=Np,& V(X)&{}=Np(1-p). \end{aligned} \]

Estimación puntual

Queremos construír un estimador $\hat{p}$ de $p$. Para iso definímo-la variable aleatoria $X$ que lle asigna $1$ ó valor que queremos medir, e $0$ ó outro. Escollemos unha mostra aleatoria simple $X_1,\dots,X_n$.

Para estimar unha proporción é razoable toma-lo estimador puntual \[ \hat{p}=\frac{1}{n}\sum_{i=1}^n X_i, \] que aproxima a proporción da característica que queremos medir cos datos da mostra escollida.

A anterior distribución binomial comparada cunha normal da mesma media e varianza

Temos que $n\hat{p}=\sum_{i=1}^n X_i$ segue unha distribución binomial de parámetros $n$ e $p$. No caso de que a mostra sexa grande (con $np,n(1-p)\geq 5$ acostuma ser suficiente), podemos aproxima-la binomial por unha normal.

Co obxectivo de estandariza-los cálculos e facer máis inmediato o emprego das táboas realizaremos o procedemento típico de tipifica-la variable.

Por tanto, habitualmente consideraremos que a distribución na mostraxe para estimar unha proporción vén dada por \[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\sim Z \] que segue (aproximadamente) unha $N(0,1)$.

Satisfaise que \[ \begin{aligned} E(\hat{p})&{}=p,& V(\hat{p})&{}=\frac{p(1-p)}{n}, \end{aligned} \] e por tanto, dise que $\hat{p}$ é un estimador insesgado e consistente de $p$.

Estimación por intervalos

O procedemento para atopar un intervalo de confianza é similar ó explicado para a media, aínda que hai algunha dificultade que presentamos a continuación. Sexa $\alpha$ o nivel de significación. Tomamos $Z_{\alpha/2}$ tal que $P(z\geq Z_{\alpha/2})=\alpha/2$. En principio o cálculo dun intervalo de confianza viría expresado despexando $p$ na fórmula \[ \left\lvert\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\right\rvert\leq Z_{\alpha/2}. \] O problema é que o denominador $\sqrt{p(1-p)/n}$ depende de $p$, que é xusto o que queremos estimar. En consecuencia, aproximaremos $\sqrt{{p(1-p)}/{n}}$ por $\sqrt{{\hat{p}(1-\hat{p})}/{n}}$.

Así un intervalo de confianza para a proporción vén dado pola expresión \[ -Z_{\alpha/2}\leq\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\leq Z_{\alpha/2}. \]

Despexando $p$ obtemos. \[ \biggl[\,\hat{p}-Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}},\, \hat{p}+Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\,\biggr], \] ou ben, \[ \hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. \]

Un laboratorio desexa averigua-la proporción de cápsulas defectuosas que produce dun determinado medicamento. Para iso selecciona e proba 2000 unidades e descubre un total de 200 unidades defectuosas. Estima-la proporción de cápsulas defectuosas na produción. Calcular un intervalo de confianza ó 95% para a proporción.

Considerámo-la variable aleatoria $X$ que asigna o valor $1$ ás cápsulas defectuosas e $0$ ás correctas.

Tamaño mostral $n=2000$. Estimación puntual da proporción $\hat{p}=200/2000=0.1=10\%$.

Nivel de significación: $\alpha=0.05$. Buscámo-lo valor $Z_{0.025}$ tal que $P(Z\geq Z_{0.025})=0.025$. Aproximadamente, $Z_{0.025}=1.96$.

O intervalo de confianza buscado é entón \[ 0.1\pm 1.96\sqrt{\frac{0.1(1-0.1)}{2000}}=0.1\pm 0.0131, \] que explicitamente, en termos de porcentaxes, é $[8.69\%,11.31\%]$.

Conclusión: cunha confianza do 95%, a porcentaxe de cápsulas defectuosas na producción do laboratorio sitúase entre o 8.69% e o 11.31%.

Determinación do tamaño da mostra

En vista do intervalo de confianza construído para a proporción, o erro cometido ó tomar $\hat{p}$ en lugar do valor verdadeiro $p$ estímase que é \[ Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \] que depende do tamaño mostral $n$, do nivel de confianza $\alpha$, e de $\sqrt{\hat{p}(1-\hat{p})}$. Se coñecemos (ou podemos estimar con precisión) o valor de $\hat{p}$, bastaría impoñer que a anterior fórmula é $<\epsilon$ e despexar $n$.

Cando o valor de $\hat{p}$ non é coñecido pode estimarse o tamaño da mostra necesario para limita-lo erro, se ben o valor obtido será máis grande que cando $\hat{p}$ é coñecido. No intervalo $[0,1]$ pode verse, empregando as técnicas do cálculo, que o máximo de $\sqrt{x(1-x)}$ está en $x=1/2$, de xeito que teremos sempre \[ Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\leq Z_{\alpha/2}\sqrt{\frac{0.5(1-0.5)}{n}}. \] Se queremos que o erro sexa menor ca $\epsilon$, basta entón impoñe-la condición \[ Z_{\alpha/2}\sqrt{\frac{0.5(1-0.5)}{n}}<\epsilon, \] de onde resulta \[ n> \frac{Z_{\alpha/2}^2}{4\epsilon^2}. \]

Para toma-la decisión de someter ou non a referendo unha lei, o goberno dun certo país necesita encargar un estudo sobre a porcentaxe de votantes que a apoiaría. Dada a importancia política da mesma e a polémica xurdida, necesita unha estimación do voto cun erro menor do 1%. ¿Cal sería o tamaño mostral mínimo requerido para un nivel de confianza do 99%?

Considerámo-la variable aleatoria $X$="intención de voto".

Para estima-lo tamaño da mostra para unha proporción, empregámo-lo estatístico \[ \frac{\hat{p}-p}{\sqrt{\frac{p \left(1-p\right)}{n}}}, \] que segue unha distribución normal estándar. Despexando $p$ da desigualdade \[ \left\lvert \frac{\hat{p}-p}{\sqrt{\frac{\hat{p} \left(1-\hat{p}\right)}{n}}} \right\rvert \leq Z_{\alpha/2}, \] obtense a fórmula \[ \hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p} \left(1-\hat{p}\right)}{n}}. \] A estimación do erro é \[ Z_{\alpha/2} \sqrt{\frac{\hat{p} \left(1-\hat{p}\right)}{n}}. \]

Neste caso non temos unha estimación da proporción $\hat{p}$. É sinxelo ver que a función $x\mapsto\sqrt{x(1-x)}$ alcanza o seu máximo no intervalo $[0,1]$ no punto $x=1/2$. Por tanto, necesitamos despexar $n$ da desigualdade $Z_{\alpha/2}\sqrt{\frac{0.5(1-0.5)}{n}} \leq \epsilon$, onde $\epsilon$ é o valor fixado polo problema. Así, obtense $n \geq \left(\frac{Z_{\alpha/2}}{2 \epsilon}\right)^{2}$.

O nivel de significación é $\alpha=0.01$. Calculamos $Z_{0.005}=2.5758$. Neste caso $\epsilon=0.01$. Substituíndo na fórmula, $n \geq \left(\frac{2.5758}{2\cdot 0.01}\right)^{2} = 16587.2415$.

Conclusión: para que a diferencia entre a proporción mostral e a proporción poboacional de intención de voto sexa como moito dun $\pm 1\%$ cun nivel de confianza do $99$%, teriamos que tomar unha mostra de polo menos $16588$ persoas.

Resumo de estimadores

Táboa resumo cos resultados explicados neste capítulo.

\[ \overline X=\frac{1}{n}\sum_{i=1}^n X_i \]
\[ \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim Z=N(0,1) \]
\[ -Z_{\alpha/2}\leq\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\leq Z_{\alpha/2} \]
Intervalo de confianza
\[ \Bigl[\overline{X}-Z_{\alpha/2}\frac{\sigma}{\sqrt{n}},\, \overline{X}+Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\Bigr] \]
Valores en táboa
\[ P\bigl(N(0,1)\geq Z_{\alpha/2}\bigr)=\frac{\alpha}{2} \]
\[ \overline X=\frac{1}{n}\sum_{i=1}^n X_i \]
\[ \frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}} \sim t_{n-1} \]
\[ -t_{n-1,\,\alpha/2}\leq\frac{\overline{X}-\mu}{s_{n-1}/\sqrt{n}}\leq t_{n-1,\,\alpha/2} \]
Intervalo de confianza
\[ \Bigl[\overline{X}-t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}},\, \overline{X}+t_{n-1,\,\alpha/2}\frac{s_{n-1}}{\sqrt{n}}\Bigr] \]
Valores en táboa
\[ P\bigl(t_{n-1}\geq t_{n-1,\,\alpha/2}\bigr)=\frac{\alpha}{2} \]
\[ s_\mu^2=\frac{1}{n}\sum_{i=1}^n (X_i-\mu)^2 \]
\[ \frac{n s_\mu^2}{\sigma^2} \sim \chi_{n}^2 \]
\[ \chi_{n,\,1-\alpha/2}^2\leq\frac{n s_\mu^2}{\sigma^2}\leq \chi_{n,\,\alpha/2}^2 \]
Intervalo de confianza
\[ \Bigl[\frac{n s_\mu^2}{\chi_{n,\,\alpha/2}^2},\, \frac{n s_\mu^2}{\chi_{n,\,1-\alpha/2}^2}\Bigr] \]
Valores en táboa
\[ \begin{aligned} P\bigl(\chi_{n}^2\geq \chi_{n,\,\alpha/2}\bigr)&{}=\frac{\alpha}{2}\\ P\bigl(\chi_{n}^2\geq \chi_{n,\,1-\alpha/2}\bigr)&{}=1-\frac{\alpha}{2} \end{aligned} \]
\[ s_{n-1}^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2 \]
\[ \frac{(n-1) s_{n-1}^2}{\sigma^2} \sim \chi_{n-1}^2 \]
\[ \chi_{n-1,\,1-\alpha/2}^2\leq\frac{(n-1) s_{n-1}^2}{\sigma^2}\leq \chi_{n-1,\,\alpha/2}^2 \]
Intervalo de confianza
\[ \Bigl[\frac{(n-1) s_{n-1}^2}{\chi_{n-1,\,\alpha/2}^2},\, \frac{(n-1) s_{n-1}^2}{\chi_{n-1,\,1-\alpha/2}^2}\Bigr] \]
Valores en táboa
\[ \begin{aligned} P\bigl(\chi_{n-1}^2\geq \chi_{n-1,\,\alpha/2}\bigr)&{}=\frac{\alpha}{2}\\ P\bigl(\chi_{n-1}^2\geq \chi_{n-1,\,1-\alpha/2}\bigr)&{}=1-\frac{\alpha}{2} \end{aligned} \]
\[ \hat{p}=\frac{1}{n}\sum_{i=1}^n X_i \]
\[ \frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}} \sim Z=N(0,1) \]
\[ -Z_{\alpha/2}\leq\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\leq Z_{\alpha/2} \]
Intervalo de confianza
\[ \Bigl[\hat{p}-Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}},\, \hat{p}+Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\Bigr] \]
Valores en táboa
\[ P\bigl(N(0,1)\geq Z_{\alpha/2}\bigr)=\frac{\alpha}{2} \]