Preliminares

A Estatística é a rama das Matemáticas que estuda e interpreta os procesos aleatorios, para permitir deducir propiedades dunha poboación a partir dun subconxunto pequeno da mesma. Ademais de ter un corpo formal como parte das Matemáticas, a estatística é a miúdo empregada noutras ciencias co obxectivo de permitir establecer correlacións e dependencias entre diversos fenómenos físicos ou naturais.

Método da inferencia estatística Problema Plantexamento do problema (obxectivos e medios) Modelo estatístico (cálculo de probabilidades) Recollida de información mostral (técnicas de mostraxe, deseño de experimentos) Depuración dos datos (análise de datos) Estimación dos parámetros (teoría da estimación) Contrastes de simplificación (contraste de hipóteses) Crítica e diagnosis do modelo (análise de datos) ¿É o modelo axeitado? Coñecemento científico Previsións Decisións si non
Diagrama de fluxo do método estatístico

Estatística descriptiva

A estatística descriptiva é a técnica matemática que organiza e describe un conxunto de datos co propósito de poder entendelos con máis facilidade. A continuación presentamos algúns conceptos relevantes na estatística descriptiva.

Tipos de datos

Os datos poden ter diversa natureza:

Precisión

A precisión entenderémola como o número de cifras representativas empregadas para expresar unha medida. Aínda que neste curso non faremos especial fincapé neste tema, convén ter en conta que os erros de precisión nos números se van propagando a medida que imos facendo operacións aritméticas. Para certos cálculos (p. ex. o coeficiente de correlación) é necesario empregar unha cantidade suficiente de decimais para non chegar a resultados absurdos.

Medidas de tendencia central

A media e a mediana dan lugar a medidas similares en variables que se distribúen de xeito aproximadamente normal, como as alturas e os pesos dos seres vivos dunha determinada especie, ou os erros de medición. Para outro tipo de variables poden dar resultados moi distintos. Aínda que a media goza de máis popularidade e é sinxela de entender, hai ocasións en que a mediana resulta moito máis informativa e veraz.

Media vs mediana renta capita media mediana

Por exemplo, en términos económicos, a media soe dar información moi distinta á mediana. Unha medida habitual da economía é o producto interior bruto, ou a renta per capita. Esta última, que vén a ser unha media das rentas das persoas dun país, está sesgada cara ás élites dos ricos. Se por exemplo o 90% da xente perde poder adquisitivo, pero o 10% dos ricos se convirten en moito máis ricos, é perfectamente posible que a renta per capita aumente, dando impresión de que a economía mellora, a pesar de que ó 90% da poboación lle vai peor. Non obstante, a mediana reflicte moito mellor a economía da maioría da xente, xa que nos dá a renta que divide á poboación en dúas metades do mesmo tamaño: a metade da poboación ten unha renta inferior a esa cifra, e a outra metade, superior. No caso anterior, a mediana da renta disminuiría, xa que a maior parte da xente perde poder adquisitivo. Con esta medida quedaría máis claro que é o que lle pasa á meirande parte da poboación.

Medidas de posición

Medidas de dispersión

Salvo que se especifique o contrario, neste curso asumiremos que $s$ denota a cuasi-desviación típica, e $s^2$ a cuasi-varianza.

Séguese das fórmulas anteriores:

  • A varianza, a cuasi-varianza, a desviación típica e a cuasi-desviación típica non poden ser negativas.
  • Son cero se e só se tódolos datos son iguais á media.

Transformación de datos

Se $Y=aX+b$ entón, \[ \begin{aligned} \overline{Y}&{}=a\overline{X}+b,\\ s_{n,Y}^2&{}=a^2 s_{n,X}^2,\\ s_{n,Y}&{}=\lvert a \rvert s_{n,X}. \end{aligned} \]

A miúdo se empregan cambios para modifica-la media e a varianza:

Variables aleatorias

Unha variable aletoria pode describirse informalmente como unha variable que mide unha determinada característica numérica dunha poboación, de xeito que os seus valores dependen do resultado dun experimento aleatorio. Ó longo desta sección suporemos que $X$ é unha variable aleatoria absolutamente continua, o que vén a querer dicir que dita variable toma os seus valores nun intervalo.

Toda variable aleatoria ten asociada unha función de distribución que vén dada por $F(x)=P(X\leq x)$, é dicir, $F(x)$ é a probabilidade de que a variable aleatoria $X$ tome un valor menor ou igual ca $x$.

A función de densidade dunha variable aleatoria absolutamente continua é a derivada da súa función de distribución, $f(x)=F'(x)$.

A área baixo a gráfica da función da densidade nun determinado intervalo $[a,b]$ expresa a seguinte probabilidade: \[ P(a\leq X\leq b)=\int_a^b f(x)dx. \] En particular, $P(X\leq b)=F(b)=\int_{-\infty}^b f(x)dx$.

Neste curso calcularanse moitas veces probabilidades do estilo \[ P(X\geq x)=\int_x^\infty f(x)dx. \] Á función $P(X\geq x)=1-F(x)$ tamén se lle chama función de supervivencia da variable aleatoria $X$.

A media ou esperanza de $X$ defínese como \[ E(X)=\int_{-\infty}^{+\infty} xf(x)dx. \] A media ou esperanza da distribución denótase por $\mu$.

A varianza de $X$ defínese como \[ V(X)=\int_{-\infty}^{+\infty} (x-\mu)^2 f(x)dx = E(X^2)-E(X)^2. \] A varianza dunha distribución denótase por $\sigma^2$, e $\sigma$ denotará a súa desviación típica.

O seguinte teorema dá unha idea de como se concentra a probabilidade dunha variable aleatoria arredor da media, sexa cal sexa a súa distribución.

(Desigualdade de Chebyshev) Para unha variable aleatoria $X$ satisfaise \[ P(\lvert X-\mu\rvert\geq k\sigma)\leq\frac{1}{k^2}. \]

Por exemplo, poñendo $k=2$ na desigualdade de Chebyshev, obtemos $P(\lvert X-\mu\rvert\geq 2\sigma)\leq 1/4$, é dicir, que polo menos tres cuartas partes da probabilidade dunha variable aleatoria arredor da media están contidas entre $(\mu-2\sigma,\mu+2\sigma)$.

Distribución normal

https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal
Distribución normal estándar

O exemplo máis coñecido e máis útil de variable aleatoria continua vén dado pola distribución normal ou campá de Gauss de media $\mu$ e desviación típica $\sigma$. Denótase por $N(\mu,\sigma)$ e está definida mediante a función de densidade \[ f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}. \]

A función de densidade da distribución normal está definida e é positiva en toda a recta real. Ademais, é simétrica respecto da súa media.

A distribución normal apareceu como un xeito de estima-las desviacións debidas a erros de medida. Tal propiedade está xustificada matematicamente polo teorema central do límite:

(Teorema central do límite) O promedio de moitas variables aleatorias arbitrarias independentes e coa mesma distribución ten, aproximadamente, unha distribución normal.