Diagrama de Cajas y Bigotes (Box-plot)
El diagrama de caja es una presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, la simetría o asimetría y la identificación de observaciones atípicas (una observación que parece desviarse notablemente de las otras observaciones de la muestra en la que aparece). El diagrama de caja representa los tres cuartiles, y los valores mínimo y máximo de los datos sobre un rectángulo (caja), alineado horizontal o verticalmente.
Nota: Los percentiles de un conjunto de
observaciones dividen en centésimos la frecuencia total. Esto es, el
p-percentil o el percentil p es el valor por debajo del cual se presenta
el p% de las observaciones. Así, el percentil 50 es el valor por
debajo del cual se tiene el 50% de las observaciones.
A veces se necesitan valores que dividen el porcentaje total en partes iguales como: cuartos, décimos, quintos o tercios. Los puntos de división para estas distintas particiones se llaman cuartiles, deciles, quintiles y terciles, respectivamente. Así, el primer cuartil corresponde al percentil 25, ya que es el primer cuarto. El séptimo decil equivale al percentil 70, el segundo cuartil o el quinto decil son otras formas de llamar al percentil 50 (Marques, 2004).
Construcción de un diagrama de cajas y bigotes
- Ordenar los datos de menor a mayor.
- Calcular la mediana, el cuartil inferior, el cuartil superior y la distancia intercuartil (DI, RQ, DC)
- Calcular las cotas que permitán decidir si un dato es outlier (atípico):
- 2ª cota
inferior = CI – 3 DI
- 1ª cota
inferior = CI – 1.5 DI
- 1ª cota
superior = CS + 1.5 DI
- 2ª cota
superior = CS + 3 DI
Cualquier dato que
“caiga” entre la 1ª y 2ª cota inferior o entre la 1ª y 2ª
cota superior será declarado outlier.
Cualquier dato que
caiga por fuera de la 2ª cota inferior o la 2ª cota superior será
declarado outlier severo.
- Dibujar una escala que cubra el rango de variación de los datos y marcar la mediana y los cuartiles. Dibujar una caja que se extienda entre los cuartiles y marcar en ella la posición de la mediana.
- Partiendo del cuartil inferior trazar una línea (bigote) que llegue hasta el último dato contenido “dentro” de la 1ª cota inferior.
Partiendo del
cuartil superior trazar una línea (bigote) que llegue hasta el
último dato contenido “dentro” de la 1ª cota superior.
- Marcar la posición de los outliers con un símbolo (por ejemplo, *) y de los outliers severos con otro símbolo (por ejemplo, ○).
No hay comentarios:
Publicar un comentario