Pregunta:
Comprender los gráficos de control estadístico
Dave Kincaid
2011-09-09 17:52:12 UTC
view on stackexchange narkive permalink

Los gráficos de control están de moda en mi empresa en estos días. Nuestros "analistas de datos" (las citas son a propósito) están poniendo límites de control en casi todos los gráficos que producen. El otro día estuvimos viendo algunos gráficos de llamadas a nuestro centro de llamadas de soporte durante el último año. Tenemos medidas del número de llamadas para cada semana que se trazan en un gráfico de líneas. Recientemente, los analistas que preparan estos gráficos han comenzado a poner líneas en los gráficos que indican "límites de control".

La pregunta que tengo es acerca de cómo están calculando dónde deberían estar estos límites de control. Cuando pregunté cómo determinaron los límites, aquí está la respuesta que obtuve:

Primero encontramos una sección del gráfico donde los puntos se ven algo estables (es decir, una pequeña variación) y luego calculamos la media de esos puntos. Luego calculamos el error estándar de esos puntos y dibujamos los límites de control en +/- 3 errores estándar de la media que calculamos.

¿Es correcto calcular la media de esta manera? Parece que deberíamos usar TODOS los puntos para calcular la media en lugar de descartar cualquier cosa que "parezca" que varía demasiado.

¿Tiene sentido poner límites de control en una medida como esta? (la cantidad de llamadas que ingresan a un centro de llamadas)? Siempre que las medidas estén dentro de los límites de control, consideramos la semana normal. Si la medición del volumen de llamadas de una semana está fuera de estos límites de control, se considera importante y merece un análisis más detallado. Algo me parece artificial en todo esto.

¿Realmente * querían decir * "error estándar" (de la media) y no "desviación estándar"? (Independientemente, no hay * nada * correcto en los procedimientos que describe; nada de esto tiene ninguna justificación en la teoría o la práctica; y tiene razón al sospechar de cada elemento que ha mencionado).
De acuerdo con whuber. ¿El objetivo es estimar los percentiles 0,135 y 99,865 de la distribución de llamadas por semana? (Si el dist'n fuera normal, y se refería a std dev, y no arrojaron datos, entonces esa parece ser la estimación objetivo). Con <1000 observaciones (del mismo dist'n), es difícil, pero posible, por ejemplo [Dekkers y de Haan (1989)] (http://www.jstor.org/pss/2241666). Entonces: estoy de acuerdo con whuber que el método actual es injustificado; preguntándose si también estaba pidiendo sugerencias positivas o simplemente la confirmación de sus pensamientos críticos (correctos).
Realmente estoy tratando de entender si los gráficos de control son apropiados para estas medidas y si lo son, entonces, ¿cómo se supone que deben implementarse?
En cuanto a la pregunta sobre la desviación estándar versus la estimación estándar, la llaman desviación estándar, pero su cálculo parece un error estándar (sd / sqrt (N)). Sin embargo, confieso que no comprendí completamente cuál es cuál.
La desviación estándar nos dice cuánto diferirán típicamente los valores de su media. El error estándar nos dice cuánto es probable que la media muestral difiera de la media verdadera. Tenga en cuenta el $ 1 / \ sqrt (N) $: esto implica que los límites de control se reducirán a medida que se usen períodos históricos más grandes, lo que demuestra que los límites dependen de esta elección * arbitraria *. La estimación de la DE, por otro lado, se estabilizará (a la DE de la población) a medida que $ N $ crezca.
Además de los otros comentarios y respuestas, su empresa puede lanzar nuevos productos de vez en cuando, tener retiradas de productos, etc., que también podrían resultar en variaciones temporales.
Dos respuestas:
whuber
2011-09-09 22:19:20 UTC
view on stackexchange narkive permalink

El propósito de un gráfico de control es identificar, lo más rápido posible, cuando algo que se puede solucionar va mal. Para que funcione bien, debe no identificar cambios aleatorios o incontrolables como "fuera de control".

Los problemas con el procedimiento descrito son colector. Incluyen

  • La sección "estable" del gráfico no es típica. Por definición, es menos variable de lo habitual. Al subestimar la variabilidad de la situación bajo control, hará que el gráfico identifique incorrectamente muchos cambios como fuera de control.

  • Usar errores estándar es simplemente un error. Un error estándar estima la variabilidad de muestreo de la media tasa de llamadas semanales, no la variabilidad de las tasas de llamadas en sí.

  • Establecer los límites en $ \ pm 3 $ las desviaciones estándar pueden ser efectivas o no. Se basa en una regla general aplicable a los datos distribuidos normalmente que no están correlacionados en serie. Las tarifas de las llamadas no se distribuirán normalmente a menos que sean moderadamente altas (alrededor de 100+ por semana, aproximadamente). Pueden estar correlacionados en serie o no.

  • El procedimiento asume que el proceso subyacente tiene una tasa invariable a lo largo del tiempo. Pero no estás creando widgets; está respondiendo a un mercado que, con suerte, está (a) aumentando de tamaño pero (b) disminuyendo su tasa de llamadas con el tiempo. Se esperan tendencias temporales. Tarde o temprano, cualquier tendencia hará que los datos se vean constantemente fuera de control.

  • Las personas tienden a experimentar ciclos anuales de actividad. correspondiente a temporadas, calendario académico, festivos, etc. Estos ciclos actúan como tendencias para causar eventos fuera de control predecibles (pero sin sentido).

Un conjunto de datos simulado ilustra estos principios y problemas.

Control chart

El procedimiento de simulación crea una serie realista de datos que están bajo control: en relación con un patrón subyacente predecible, incluye ninguna excursiones fuera de control que se puedan asignado una causa. Este gráfico es un resultado típico de la simulación.

Estos datos se extraen de las distribuciones de Poisson, un modelo razonable para las tasas de llamadas. Comienzan en una línea de base de 100 por semana, con una tendencia ascendente linealmente en 13 por semana por año. Superpuesto a esta tendencia se encuentra un ciclo anual sinusoidal con una amplitud de ocho llamadas por semana (trazada por la curva gris discontinua). Esta es una tendencia modesta y una estacionalidad relativamente pequeña, creo.

Los puntos rojos (alrededor de las semanas 12 a 37) se identificaron como el período de 26 semanas de desviación estándar más baja encontrado durante los primeros 1.5 años de este gráfico de dos años. Las líneas finas rojas y azules se establecen en $ \ pm 3 $ errores estándar alrededor de la media de este período. (Obviamente, son inútiles). Las líneas gruesas de oro y verde se establecen en $ \ pm 3 $ desviaciones estándar alrededor de la media.

(Normalmente no se proyectan líneas de control al revés con el tiempo, pero lo he hecho aquí como referencia visual. Por lo general, no tiene sentido aplicar controles retroactivamente: están destinados a identificar cambios futuros .)

Observe cómo el secular La tendencia y las variaciones estacionales llevan al sistema a condiciones aparentemente fuera de control entre las semanas 40-65 (un máximo anual) y después de la semana 85 (un máximo anual más la tendencia acumulada de un año). Cualquiera que intente utilizar esto como un gráfico de control estaría buscando por error causas inexistentes la mayor parte del tiempo. En la práctica, este sistema sería odiado y pronto ignorado por todos. (He visto empresas en las que todas las puertas de las oficinas y las paredes de los pasillos estaban cubiertas de gráficos de control que nadie se molestaba en leer porque todos sabían mejor).

La forma correcta de proceder comienza con las preguntas básicas, como ¿cómo se mide la calidad? ¿Qué influencias puedes tener sobre él? ¿Cómo, a pesar de sus mejores esfuerzos, es probable que fluctúen estas medidas? ¿Qué le dirían las fluctuaciones extremas (cuáles podrían ser sus causas controlables)? Luego, debe realizar un análisis estadístico de los datos pasados. Cual es su distribucion? ¿Están correlacionados temporalmente? ¿Hay tendencias? Componentes estacionales? ¿Evidencia de excursiones pasadas que podrían haber indicado situaciones fuera de control?

Una vez hecho todo esto, puede ser posible crear un sistema de gráficos de control efectivo (u otro sistema de monitoreo estadístico). La literatura es extensa, por lo que si esta empresa se toma en serio el uso de métodos cuantitativos para mejorar la calidad, existe una amplia información sobre cómo hacerlo. Pero ignorar estos principios estadísticos (ya sea por falta de tiempo o por falta de conocimiento) prácticamente garantiza que el esfuerzo fracasará.

+1: Increíble respuesta. Supongo que no tienes algunas referencias a parte de la literatura canónica que mencionaste.
@SnOrfus Me gustaría poder darle referencias confiables, pero no estoy al día con la literatura. Esta publicación se basa en lo que leí hace un cuarto de siglo y he aprendido al aplicar esa información. (Escribí y vendí software de gráficos de control especializado en ese entonces y, en consecuencia, tuve la oportunidad de mirar, literalmente, varios millones de gráficos de control de datos de clientes y pensar en la idoneidad de esos gráficos para sus procesos de toma de decisiones).
Completamente comprensible. Muchas gracias de cualquier forma.
Greg Snow
2011-09-09 21:38:40 UTC
view on stackexchange narkive permalink

La idea general de los gráficos de control es distinguir entre variación de causa común y variación de causa especial. La idea es que el proceso sea bastante estable y genere datos a partir de una distribución determinada (aunque Poisson tiene más sentido para el número de llamadas que lo normal). Una gran ventaja de los gráficos de control es que limitan la reacción exagerada a la variación natural y, al mismo tiempo, permiten encontrar cuándo ha cambiado el proceso.

Elegir un conjunto de observaciones porque tienen una pequeña variación casi garantizaría que los límites sean demasiado estrecho y por lo tanto aumentan las reacciones inapropiadas a la variación normal. Usar todos los datos tiene mucho más sentido, y usar un gráfico de Poisson C podría ser mejor que un gráfico de barras x. Sin embargo, también parece que un centro de llamadas esperaría diferencias debido a las vacaciones o la temporada (según lo que se respalde), por lo que las suposiciones subyacentes pueden no ser apropiadas aquí.

Parece que lo están haciendo algo porque pueden en lugar de porque responde a una pregunta significativa.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...