Subsections
Es una prueba no paramétrica que se usa tanto para distribuciones discretas como continuas.
Se formulan las siguientes hipótesis:
- : la variable tiene distribución de probabilidad con los parámetros específicos
- : tiene otra distribución de probabilidad.
Por ejemplo, la distribución de probabilidad que se supone en la hipótesis nula, esto es en , puede ser una distribución normal cuyos parámetros serían la media y la desviación estándar .
La hipótesis nula se evalúa con un cierto nivel de significación , esto es, una medida del error que se cometería al rechazarla siendo cierta.
Por lo general este nivel se establece en , 0.05 o 0.10; indicando que el resultado de la prueba en fiable en un 1%, 5% o 10% respectivamente.
Para aplicarla los datos deben estar agrupados en frecuencias y la muestra tiene que ser lo suficientemente grande para que sea válida.
Usualmente se establece que si en los datos agrupados aparece una frecuencia con valor menor a 5, esta barra del histograma no se use. Si hay más de una columna con frecuencia menor a 5, entonces deben combinarse en una para obtener una frecuencia con valor numérico mayor a 5.
El estadístico viene dado por
(1.1)
donde es el número del grupos del histograma de frecuencia, es la frecuencia observada del grupo y es el valor esperado para el grupo si su distribución de probabilidades fuese la supuesta en la hipótesis nula.
Para aceptar o rechazar la hipótesis nula se compara el valor obtenido en la ecuación (1.1) con un valor crítico tabulado
. Aceptando la hipótesis nula si
(1.2)
donde es el grado de libertad y .
El número de fallas por semana que sufre un equipo durante 36 semanas de
trabajo es la siguiente:
|
1 |
2 |
3 |
4 |
5 |
Nº fallas por semana |
0 |
1 |
2 |
3 |
4 o más |
Nº de semanas con fallas |
6 |
8 |
10 |
6 |
6 |
¿La muestra de datos se ajusta a una distribución de Poisson con
media , con un nivel de significación de ?
Para responder la pregunta se debe realizar una prueba de bondad
de ajuste donde las hipótesis deben ser: H Los datos se ajustan a
la distribución de Poisson contra :H Los datos no se ajustan a
la distribución de Poisson.
Comencemos por calcular el promedio de fallas por semana, que es
nuestro estimador para la media ,
Ahora calculamos los valores esperados a partir de
de donde obtenemos la tabla
|
0 |
1 |
2 |
3 |
4 o más |
|
6 |
8 |
10 |
6 |
6 |
|
5.1504 |
10.0147 |
9.7365 |
6.3107 |
4.7878 |
|
0.1401 |
0.4053 |
0.0071 |
0.0153 |
0.3069 |
Con los datos tabulados calculamos
También, buscamos el valor de
,
donde es número de categorías en que se agrupan los datos, es el número
de parámetros estimados en la distribución teórica y son los
grados de libertad de la distribución .
En nuestro caso es
como entonces se acepta la hipótesis nula H con un
nivel de significación del 5%, es decir,
que se acepta que la muestra de
datos correspondientes al número de fallas por semana se ajusta a la
distribución de Poisson.
Repitiendo el procedimiento del ejemplo , haremos la prueba de bondad de ajuste para el histograma de tiempo entre llegadas (ver Fig. a) que se obtuvo en el ejemplo .
Comencemos calculando la media y la varianza muestral, dadas por
respectivamente, donde es el tamaño de la muestra, es el número de intervalos o grupos del histograma, es la frecuencia del -ésimo intervalo, y son los extremos superior e inferior de ese intervalo, por lo tanto,
es su punto medio.
Sabiendo la naturaleza del fenómeno, observando la forma del histograma de frecuencia y viendo que la desviación estándar muestral, min, es aproximadamente igual a la media muestral,
min, cabe preguntarse si los tiempos entre llegadas de personas al punto de atención al público siguen una distribución exponencial con media
min, cuyas funciones de densidad y de distribución viene dadas por
respectivamente.
Para responder a la pregunta hagamos la prueba de bondad de ajuste con un nivel de significación de .
Los valores esperado en cada intervalo vienen dados por
De estos datos obtenemos
En este caso tenemos intervalos, parámetro estimado en la distribución teórica y, por lo tanto son los grados de libertad de la distribución que tenemos que usar con un nivel de significancia .
como
podemos decir que se acepta, con un nivel de significancia de , la hipótesis nula H: que los tiempos entre llegada se distribuyen según una exponencial con media
min.
Mediante una prueba de bondad de ajuste determine si el tipo de servicio de solicitado por los clientes del ejemplo (ver Fig. b) se ajusta a una distribución donde el 5% de los clientes solicitan una trámite de apertura, 80% hacen una consulta y el 15% restante vienen al punto por un reclamo.
Note que en este caso no es necesario estimar ningún parámetro (m=0).