Todos hablan de los requisitos para el uso adecuado de una muestra. Todos dicen que la muestra debe ser estrictamente aleatoria además de ser representativa. Pocos no ignoran una tercera condición igual de importante si se quiere tener una muestreo realmente probabilístico. Se trata de la independencia serial de las muestras. Definimos primero los términos aleatoria, representativa, y probabilístico antes de abundar sobre el carácter de independencia serial que debe poseer toda buena muestra.
Qué es independencia serial? Es cuando la data recolectada en el tiempo T+1 es independiente (libre de toda influencia) de la data recolectada en el tiempo T, o vice versa. Un sistema que tome en cuenta el valor de una muestra para generar la siguiente, o un sistema donde una data esta bajo influencia de otra puede generar agrupamiento de datos, o tendencias, y perder la independencia serial. De hecho son 4 las características que hacer perder su independencia serial a una muestra:
La prueba estadística que evidencia la independencia serial se llama Run Test y es una prueba no paramétrica con un nivel de significancia de 0.01. Nuestro propósito no es enseñar sobre independencia serial, sino sus consecuencias sobre la validez de un muestra que la pierda. Cuando una muestra falla por agrupamiento falla la independencia serial y automáticamente no puede ser aleatoria porque los datos del grupo son dependientes y por ello se llama grupo. La generación de una data del grupo depende de los otros datos del mismo grupo o simplemente en español los datos son similares (pocas variaciones entre ellos). Cuando una muestra falla por mezcla, es decir tiene de manera consecutiva valores altos y bajos intercalados y alejados de la mediana, falla independencia serial y automáticamente no puede ser aleatoria por la misma definición estadística de mezcla que acabamos de dar. Valores intercalados no pueden ser aleatorios. En estos dos casos ni vale la pena profundizar, puesto que la característica principal que todos conocen, la aleatoriedad de la muestra, deja de existir y en consecuencia la muestra no tiene nada probabilística y no debe ser usada. Su uso puede generar resultados y conclusiones equivocados y no duraderos.
Cuando la muestra falla por tendencia o por oscilación (la oscilación es igual a la mezcla pero tiene valores cerca de la mediana), también pierde la independencia serial. Pero no necesariamente la aleatoriedad. Y si además es representativa el dilema es usar o no usar dicha muestra. Usar una muestra sin independencia serial imposibilita de antemano por lo menos un análisis de varianza, ANOVA, donde la independencia es una prerrogativa. También puede resultar en la invalidación de una análisis de regresión multiple incrementando el parámetro de VIF Variance Inflation Factor el cual evidencia dependencia entre los predictores, o el valor del Durbin Watson que sugiere autocorrelación entre los residuos. Aunque la regresión multiple trata de mas de un predictor y que cada predictor en sí es un conjunto de muestras, es evidente que si existe tendencia o oscilación en un grupo de muestras de un predictor, mayor es la probabilidad de dependencia de este con otro predictor, y maxima es la probabilidad de fallo del Durbin Watson ya que la autocorrelación sucederá cuando las variables independientes tienen una estructura temporal repetitiva en determinadas ocasiones a lo largo del tiempo es decir que los residuos del tiempo T+1 dependerán de los residuos pasados del tiempo T y no se cumplirá el supuesto de independencia del modelo lineal clásico.
Sin embargo no se debe descartar por completo el uso de la muestra por fallo de tendencia en la independencia serial. Si se puede eliminar parte de los datos que revelan la tendencia sin perder la representatividad de la muestra, esta última puede ser usada sin inconvenientes mayores. De esta manera se tendría una muestra aleatoria, representativa y con independencia serial. La continuidad de la representatividad puede ser probada con un prueba de hipótesis de la muestra con los valores de tendencia y la muestra sin los valores de tendencia. Si se falla en rechazar la hipótesis nula, significando que las medias son iguales, pues la muestra sin los valores de tendencia mantiene su representatividad siendo igual a la que contiene dichos valores.
En conclusión una muestra que no tiene independencia serial en algunos casos también no tendrá aleatoriedad y en otros casos no facilitará el uso de herramientas analítica fundamental en tomas de decisiones acertadas. Es decir que no se debe usar a menos que se le resuelve el conflicto pero sin perder su representatividad. El problema es que poca gente saben y toman en cuenta este tercer requisito de muestro, y por ellos tantos problemas recurrentes de calidad y productividad en las empresas.
- Aleatoriedad en una muestra es muy distinta al azar, aunque en muchas literaturas de forma errónea se menciona indistintamente los dos términos. Aleatoriedad implica que cada elemento de la muestra siempre tiene igual probabilidad de ser escogido, mientras que el elemento azar no toma en cuenta la probabilidad de selección sino que más bien sufre influencia mental a la hora de seleccionar por vez consecutiva muestras de conjunto. La mente nos programa para tomar diferentes y/o de otro lugar, aumentando así la probabilidad de los elementos restantes.
- Representatividad es en función a una cantidad del conjunto total. El conjunto donde se va a extraer la muestra puede ser homogéneo y por ende la muestra representativa es simplemente una porción significativa del total para evitar errores de inferencia (tipo 1 y tipo 2); o puede ser no homogénea con varios grupos, tipos o categorías, en cual caso la muestra representativa debe incluir una proporción significativa de cada total de grupos, tipos o categorías. Cosas que no siempre se hace y es incorrecto no hacer.
- Probabilístico implica que responde a las teorías estadísticas y puede se usado correctamente por la estadísticas sin incurrir en falsos resultados o conclusiones débiles. El muestreo no probabilístico es una técnica de muestreo en la cual el investigador selecciona muestras basadas en un juicio subjetivo y discrecional, y como tal puede llegar a conclusiones erróneas o solamente temporalmente certeras.
Qué es independencia serial? Es cuando la data recolectada en el tiempo T+1 es independiente (libre de toda influencia) de la data recolectada en el tiempo T, o vice versa. Un sistema que tome en cuenta el valor de una muestra para generar la siguiente, o un sistema donde una data esta bajo influencia de otra puede generar agrupamiento de datos, o tendencias, y perder la independencia serial. De hecho son 4 las características que hacer perder su independencia serial a una muestra:
- Agrupamiento de datos o clustering en inglés
- Mezcla o mixture
- Tendencia
- Oscilación
La prueba estadística que evidencia la independencia serial se llama Run Test y es una prueba no paramétrica con un nivel de significancia de 0.01. Nuestro propósito no es enseñar sobre independencia serial, sino sus consecuencias sobre la validez de un muestra que la pierda. Cuando una muestra falla por agrupamiento falla la independencia serial y automáticamente no puede ser aleatoria porque los datos del grupo son dependientes y por ello se llama grupo. La generación de una data del grupo depende de los otros datos del mismo grupo o simplemente en español los datos son similares (pocas variaciones entre ellos). Cuando una muestra falla por mezcla, es decir tiene de manera consecutiva valores altos y bajos intercalados y alejados de la mediana, falla independencia serial y automáticamente no puede ser aleatoria por la misma definición estadística de mezcla que acabamos de dar. Valores intercalados no pueden ser aleatorios. En estos dos casos ni vale la pena profundizar, puesto que la característica principal que todos conocen, la aleatoriedad de la muestra, deja de existir y en consecuencia la muestra no tiene nada probabilística y no debe ser usada. Su uso puede generar resultados y conclusiones equivocados y no duraderos.
Cuando la muestra falla por tendencia o por oscilación (la oscilación es igual a la mezcla pero tiene valores cerca de la mediana), también pierde la independencia serial. Pero no necesariamente la aleatoriedad. Y si además es representativa el dilema es usar o no usar dicha muestra. Usar una muestra sin independencia serial imposibilita de antemano por lo menos un análisis de varianza, ANOVA, donde la independencia es una prerrogativa. También puede resultar en la invalidación de una análisis de regresión multiple incrementando el parámetro de VIF Variance Inflation Factor el cual evidencia dependencia entre los predictores, o el valor del Durbin Watson que sugiere autocorrelación entre los residuos. Aunque la regresión multiple trata de mas de un predictor y que cada predictor en sí es un conjunto de muestras, es evidente que si existe tendencia o oscilación en un grupo de muestras de un predictor, mayor es la probabilidad de dependencia de este con otro predictor, y maxima es la probabilidad de fallo del Durbin Watson ya que la autocorrelación sucederá cuando las variables independientes tienen una estructura temporal repetitiva en determinadas ocasiones a lo largo del tiempo es decir que los residuos del tiempo T+1 dependerán de los residuos pasados del tiempo T y no se cumplirá el supuesto de independencia del modelo lineal clásico.
Sin embargo no se debe descartar por completo el uso de la muestra por fallo de tendencia en la independencia serial. Si se puede eliminar parte de los datos que revelan la tendencia sin perder la representatividad de la muestra, esta última puede ser usada sin inconvenientes mayores. De esta manera se tendría una muestra aleatoria, representativa y con independencia serial. La continuidad de la representatividad puede ser probada con un prueba de hipótesis de la muestra con los valores de tendencia y la muestra sin los valores de tendencia. Si se falla en rechazar la hipótesis nula, significando que las medias son iguales, pues la muestra sin los valores de tendencia mantiene su representatividad siendo igual a la que contiene dichos valores.
En conclusión una muestra que no tiene independencia serial en algunos casos también no tendrá aleatoriedad y en otros casos no facilitará el uso de herramientas analítica fundamental en tomas de decisiones acertadas. Es decir que no se debe usar a menos que se le resuelve el conflicto pero sin perder su representatividad. El problema es que poca gente saben y toman en cuenta este tercer requisito de muestro, y por ellos tantos problemas recurrentes de calidad y productividad en las empresas.
» Six Sigma concepts into Lean 8 Wastes
» Términos estadísticos
» Analítica de riesgo
» Cómo funciona en la práctica los cálculos de un Kanban?
» Statistics Based Kaizen
» 9 key to Productivity Improvement
» What is Lean Six Sigma?
» Sistema de gestión de la calidad: Sobre auditoría de la trazabilidad.
» Tips sobre R&R (Repetibilidad y Reproducibilidad)