Medidas de
dispersión o de variabilidad
Las medidas de dispersión permiten conocer la variabilidad de un conjunto de datos. Al hablar de dispersión se debe considerar que la calidad de la información y la variación están inversamente relacionadas. De aquí la necesidad de medir la variación que existe en un conjunto de datos. Las más comunes son el rango, varianza, desviación estándar y el coeficiente de variación.
Rango. Es la diferencia entre las observaciones mayor y menor, pero posee el inconveniente de que no toma en consideración la forma en que se distribuyen los datos entre los valores más pequeños y más grandes.
R=(Xmax-Xmin)
Varianza. miden la dispersión "promedio" en torno a la media, es decir cómo fluctúan las observaciones mayores por encima de la media y cómo se distribuyen las observaciones menores por debajo de ella.
La desviación estándar.Es la raíz cuadrada de la varianza:
Puede observarse que ni la varianza ni
la desviación estándar, pueden ser negativos, y hay un único caso
en que pueden ser nulos: cuando todos los valores de la muestra son
iguales.
Coeficiente de variación (CV). Expresa la variación de un conjunto de datos en relación a su mediase, se reporta como el porcentaje en el cual se compara la desviación estándar con el valor del promedio de los datos. Es útil cuando se compara la variabilidad de dos o más conjuntos de datos, expresados en diferentes unidades.
En algunas situaciones se recomienda un valor menor al 10% el estimador se considera
aceptable
- Para
datos sesgados o agrupados, el coeficiente de variación cuartil puede ser
más útil que el CV.
Sesgo y Curtosis
- Sesgo.
Es una medida de la desviación de una muestra con respecto a la
media de una distribución normal. En otras palabras, mide la
asimetría en la distribución de un conjunto de datos.Sesgo y Curtosis
El
sesgo es cero cuando se tiene una distribución simétrica con
respecto a la media. Cuando es positivo indica que las observaciones
se agrupan a la izquierda de la media, con la mayoría de los valores
extremos a la derecha de la media. En otras palabras el signo del
sesgo indica hacia que lado de la media se tienen los valores
extremos.
-Curtosis.
Es una medida del pico o aplanado de una distribución. Una
distribución normal estándar tiene una curtosis de 3. De tal manera
que un valor mayor que 3.0 indica un pico mayor a una distribución
normal, mientras un valor menor que 3.0 indica una distribución más
aplanada que una normal.
- Outlier
Un
outlier u observación aberrante es un resultado distante de la
mayoría de las observaciones. Se identifica porque su distancia al
cuartil más cercano es mayor a 1.5 veces el rango intercuartílico.
No hay comentarios:
Publicar un comentario