Tema 5: estadísticos univariables: medidas resumen para variables cuantitativas

Resumen numérico de una serie estadística

Podemos resumir una serie de observaciones mediante "estadístico".
Encontramos tres tipos de medidas estadística:
  • Medias de tendencia central: las medidas o parámetros de centralización nos indican en torno a qué valor se distribuyen los datos, y son:
- Mediana.
- Media.
- Moda.
  • Medidas de posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
- Cuartiles.
- Deciles.
- Percentiles.
  • Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de nuestras observaciones.
- Rango.
- Desviación media.
- Varianza.
- Desviación típica.
- Coeficiente de variación

Medidas de tendencia central
  • Media aritmética o media, (x): se calcula para variables cuantitativas y se trata  del centro geométrico o de gravedad de nuestros  datos. Es la suma de todos valores de la variable  observada entre el total de observaciones.
    Es la medida más calculada y utilizada en estadística descriptiva 
    siempre le acompaña la desviación típica. La formula es:
Mi diario Python: Calculando Media aritmética - Estadística con Python

Propiedades de la media:
  • La suma de las desviaciones respecto a la media es igual a 0.
  • La media no se altera por una transformación  lineal de escala:
- Si un conjunto de datos cuya media es X, se le suma a cada datos una constante K, la media aumenta en K unidades.
- Si un conjunto de datos cuyo media es X, se multiplica cada dato por una constante K, la media queda multiplicada por K.
  • Es muy sensible a las puntuaciones extrema.
  • Mediana: la mediana es la puntuación que ocupa la posición central de la distribución.
    Para poder hallarla necesitamos que nuestros datos estén ordenados, de forma creciente o decreciente.
    Es el valor de la observación tal que un 50% de los datos es menos y otro 50% es mayor.
    Si la media y la mediana son iguales, la distribución de la variable es simétrica.
    A diferencia de la  media aritmética, la mediana es más robusta y menos sensible a los valores extremos.
    Cuando la muestra posee muy pocos datos, o existen valores extremos o datos censurados-truncados, debemos calcular siempre la mediana.
    -Si el número de observaciones es impar, el valor que se tomará sera el que ocupa la posición: (n+1)/2
    -Si el número de observaciones es par, el valor que se tomará sera el que ocupa la posición: ((n/2)+ ((n/2) + 1)) /2 .
  • Moda: es el valor que más se repite.
    Las distribuciones que contienen una sola moda se llaman unimodales. Bimodal, si son dos modas, o multimodal, si es más de dos.
    Se puede calcular para cualquier variable, aunque es la medida de tendencia central menos empleada.
    Podemos decir que es una distribución unimodal simétrica cuando los valores de la media aritmética, mediana y moda coinciden.
    Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y amplitud es mayor (hi/ci).

Media Aritmética, mediana y moda - Fundamentos de Matemática USIL


Medidas de posición 
  • Cuartiles: se calcula para variables cuantitativas. Sólo se tiene en cuenta la posición de los valores en la muestra, como la mediana.
    Se define el cuantil de orden "n" como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada, n.
    Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según se divida la muestra ordenada en 100, 10 ó 4.
Percentiles: Dividen la muestra ordenada en 100 partes,los percentiles serían los 99 puntos o valores que dividen la distribución en cien partes iguales. P(n).
El percentil "i" P(i): valor donde las observaciones ordenados en forma creciente el i% de ellas son menores que él. Asimismo, el (100-i)% restante son mayores.
Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil. El valor del P50 corresponde al valor de la mediana.

Deciles: dividen la muestra ordenada en 10 partes. Los deciles son los nueve valores que dividen a la distribución en diez partes iguales.
Cada parte incluye el 10% de los valores de la distribución. Se representan por la letra D.
El decil "i" D(i): valor donde las observaciones ordenados en forma creciente el i/10% de ellas son menores que él. Asimismo, el (100-i)% restante son mayores.
El valor del D5 corresponde al valor de la mediana y, por tanto, al de P50.

Cuartiles: dividen la muestra ordenada en 4 partes. Son los valores que dividen la distribución en cuatro partes iguales, cada parte incluye un 25% de los valores de esta variable. Se representan por Q1, Q2, Q3.

-El Q1, primer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
-El Q2, es el segundo cuartil, indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son mayores y el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con el valor de la mediana P50.
-El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y un 25% mayores.
-El Q4, cuarto cuartil que indica que es el mayor de la serie numérica.

Medidas de dispersión

Se utiliza cuando las medidas de tendencias centrales son limitadas.
  • Rango: es la medida de dispersión más simple y consiste en tomar la puntuación mayor y restarle la puntuación menor.
    La principal limitación del rango es que al tener en cuenta solamente los valores más altos y bajos, se ve muy afectado por los valores extremos. 
Rango (o recorrido estadístico)
  • Desviación media: es la media aritmética de las distancias de cada observación con respecto a la media de la muestra. 
Desviación media, ejemplos y ejercicios | MateMovil

  • Varianza: es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
    Siempre tiene un valor positivo.
    Se mide en unidades de la variable estudiada.
    Cuanto menor sea la varianza mayor será la homogeneidad y menor dispersión
Cómo calcular la varianza: 15 Pasos (con imágenes)Cómo calcular la varianza: 15 Pasos (con imágenes)

  • Desviación típica o estándar: expresa la dispersión de la distribución mediante un valor que siempre es positivo y en las mismas unidades de medida de la variable, siendo la medida de dispersión más utilizada en estadística descriptiva.
    Cuando los datos están muy alejados de la media, el numerador será grande y la varianza y la desviación típica también lo serán.
    Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.

    Propiedades:
    • La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
    • Si a todos los valores de la variable se les suma un número la desviación típica no varía.
    • Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.

    Observaciones:
    • La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.
    • En los casos que no se pueda hallar media, tampoco será posible hallar la desviación típica.
    • Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

  • Coeficiente de variación: también recibe el nombre de variabilidad relativa, puesto que es una medida de dispersión relativa de los datos.
    Se calcula dividiendo la desviación típica entre la media de la muestra, y expresado en el porcentaje.
    El CV es una medida adimensional y nos permite comparar la dispersión o variabilidad de dos o más grupos. Sin embargo, no debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.
Distribuciones normales

En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto a los valores de posición central (media, mediana y moda, que coinciden en estas distribuciones).
Esta curva se conoce como campana de Gauss.



Medidas de forma

Asimetrías y Curtosis.
Las medidas de forma indican si la distribución es simétrica y el grado de apuntamiento, tomando siempre como referencia la curva normal.


Asimetrías

Coeficiente de asimetría de una variable: grado de simetría de la distribución de sus datos en torno a su media.
Las distribuciones asimétricas, también llamadas sesgadas, se caracterizan porque el pico de la misma se encuentra descentrado (no simétrica), apareciendo una cola más larga que la otra.
Es adimensional y adopta valores entre -1 y +1.


Interpretación del coeficiente de asimetría:

  • g1= 0. Distribución simétrica. Existe la misma concentración de valores a la derecha y a la izquierda de la media.



  • g1> 0. Distribución asimétrica positiva, la cola de distribución es más larga hacia la derecha y los valores más elevados están en la izquierda. La concentración de los datos se da hacia izquierda.


  • g<0. Distribución asimétrica negativa, la cola más larga queda hacia la izquierda, y los valores más elevados a la derecha. La concentración de los datos se da hacia la derecha.
Una distribución tiene un coeficiente de asimetría de -0,8, la curva presenta asimetría hacia la derecha. Puesto que los valores están concentrado hacia la derecha y la cola más larga hacia la izquierda.
Curtosis o apuntamiento

Coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media. Seria el pico de la curva.
Se elige como referencia una variable con distribución normal, donde el coeficiente de curtosis es 0, es decir, una campana de Gauss, el valor 0 de curtosis sería el punto medio.
Adopta también valores entre -1 y 1.Es una medida adimensional.

Interpretación:
  • g2= 0. Distribución mesocúrtica. Presenta un grado de concentración medio alrededor de los valores centrales de la variable.
  • g2> 0. Distribución leptocúrtica. Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
  • g2<0. Distribución platicúrtica. Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.










Comentarios

Entradas populares de este blog

Tema 6: representación de variables

Tema 1: estadística desde el origen a su aplicación en la salud

Tema 15: concepto de red de información sanitaria