1. Chi cuadrado
¿Qué es la prueba de chi-cuadrado?
La prueba de chi o Ji cuadrado (Χ2), es sin duda la más conocida y probablemente la más utilizada para el análisis de
variables cualitativas. Su nombre lo toma de la distribución Chi cuadrado de la probabilidad, en la que se basa.
variables cualitativas. Su nombre lo toma de la distribución Chi cuadrado de la probabilidad, en la que se basa.
La prueba de chi cuadrado de independencia entre dos variables cualitativas fué desarrollada ya en 1900 por Pearson, y su
utilidad es precisamente evaluar la independencia entre dos variables nominales u ordinales, dando un método para
verificar si las frecuencias observadas en cada categoría son compatibles con la independencia entre ambas variables.
utilidad es precisamente evaluar la independencia entre dos variables nominales u ordinales, dando un método para
verificar si las frecuencias observadas en cada categoría son compatibles con la independencia entre ambas variables.
¿Cómo se obtiene la independencia entre variables?
Para evaluar la independencia entre las variables, se calculan los valores que indicarían la independencia absoluta, lo que se
denomina “frecuencias esperadas”, comparándolos con las frecuencias de la muestra.
denomina “frecuencias esperadas”, comparándolos con las frecuencias de la muestra.
Como es habitual, la hipótesis nula (H0) indica que ambas variables son independientes, mientras que la hipótesis
alternativa (H1) indica que las variables tienen algún grado de asociación o relación.
alternativa (H1) indica que las variables tienen algún grado de asociación o relación.
Para comparar dos variables cualitativas y saber si están relacionadas o no están relacionadas. Es decir si son independientes
o no son independientes una de la otra.
o no son independientes una de la otra.
Razonamiento a seguir: suponemos la hipótesis cierta, y estudiamos cómo es de probable que siendo iguales los dos
grupos a comparar se obtengan resultados como los obtenidos o haber encontrado diferencias más grandes por grupos.
grupos a comparar se obtengan resultados como los obtenidos o haber encontrado diferencias más grandes por grupos.
Tablas de contingencia-Frecuencias absolutas
Tablas de doble entrada que se emplean para registrar y analizar la asociación entre dos o más variables de naturaleza
cualitativa (nominales u ordinales)
cualitativa (nominales u ordinales)
Veamos: Tabla de contingencia general para la comparación de dos variables dicotómicas.
Por ejemplo ¿Existen diferencias en el consumo de tabaco en función del sexo? Comparamos:
Por ejemplo ¿Existen diferencias en el consumo de tabaco en función del sexo?
Hipótesis:
–Ho=No existe asociación entre el consumo de tabaco y el sexo.
–H1=Existe asociación entre el consumo de tabaco y el sexo.
- Porcentajes por fila (género).
- Porcentajes por columna (consumo de tabaco)
1. En primer lugar se debe plantear las hipótesis que someteremos a prueba.
La prueba o estadístico Chi cuadrado se utiliza para comprobar si la diferencia en los datos que observamos:
–Es debida al azar
Recordemos que la Ho establece que no hay diferencia, es decir, que hay igualdad. Aceptamos la Ho.
–Es debida a algo más, por ejemplo una asociación entre las variables que estudiamos. Rechazamos la H0. Aceptamos la
H1.
H1.
Los contrastes se basan en la comparación de las frecuencias observadas (frecuencias empíricas) en la muestra con aquellas
que cabría esperar (frecuencias teóricas o esperadas) si la hipótesis nula fuera cierta. Así, la hipótesis nula se rechaza si
existe una diferencia significativa entre las frecuencias observadas y las esperadas.
que cabría esperar (frecuencias teóricas o esperadas) si la hipótesis nula fuera cierta. Así, la hipótesis nula se rechaza si
existe una diferencia significativa entre las frecuencias observadas y las esperadas.
La prueba chi-cuadrado, a diferencia de otras pruebas, no establece restricciones sobre el número de modalidades por
variables, y no es necesario que el número de filas y el número de columnas de las tablas coincida.
variables, y no es necesario que el número de filas y el número de columnas de las tablas coincida.
Sin embargo, sí es necesario que se aplique a estudios basados en muestras independientes, y cuando todos los valores
esperados sean mayores de 5. Como ya hemos mencionado, los valores esperados son aquellos que indican la
independencia absoluta entre ambas variables.
esperados sean mayores de 5. Como ya hemos mencionado, los valores esperados son aquellos que indican la
independencia absoluta entre ambas variables.
Además, para utilizar la prueba chi-cuadrado, el nivel de medida debe ser nominal o superior. No tiene un límite superior,
es decir, no nos permite conocer la intensidad de la correlación. Dicho de otro modo, el chi-cuadrado toma valores entre 0 e
infinito.
es decir, no nos permite conocer la intensidad de la correlación. Dicho de otro modo, el chi-cuadrado toma valores entre 0 e
infinito.
Por otro lado, si aumenta la muestra, aumenta el valor de chi-cuadrado, pero debemos ser cautos en su interpretación,
porque eso no significa que haya más correlación.
porque eso no significa que haya más correlación.
Condiciones para aplicar la Chi cuadrado
- Las observaciones deben ser independientes.
Es decir, al clasificar los sujetos en cada casilla, debe haber sujetos distintos; no puede haber sujetos repetidos en más de
una casilla. Ni los sujetos se pueden clasificar en más de un lugar.
una casilla. Ni los sujetos se pueden clasificar en más de un lugar.
- Utilizar en variables cualitativas.
- Más de 50 casos.
- Las frecuencias teóricas o esperadas en cada casilla de clasificación no deben ser inferiores a 5. Si son menores que 5, no
podemos sacar conclusiones del contraste de hipótesis con Chi-cuadrado. Algunos autores señalan como tolerable que un
20% de las casillas tengan una frecuencia teórica inferior a 5, pero no deben ser muy inferiores.
podemos sacar conclusiones del contraste de hipótesis con Chi-cuadrado. Algunos autores señalan como tolerable que un
20% de las casillas tengan una frecuencia teórica inferior a 5, pero no deben ser muy inferiores.
Si no se cumplen los requisitos: Se usan pruebas paramétricas
- Utilizar el estadístico de Fisher.
- Corrección de continuidad de Yates: Actualmente discutido por bastantes autores y se puede no tener en cuenta. Conviene
mencionarla porque responde a una práctica muy generalizada y figura en muchos textos.
mencionarla porque responde a una práctica muy generalizada y figura en muchos textos.
Corrección de Yates
La corrección de Yates es una fórmula matemática que se aplica con tablas 2x2 y con una frecuencia teórica pequeña
(menos de 10), para corregir los posibles errores de la prueba chi-cuadrado.
(menos de 10), para corregir los posibles errores de la prueba chi-cuadrado.
Generalmente, se aplica la corrección de Yates o también “corrección por continuidad” cuando una variable discreta se
aproxima a una distribución continua.
aproxima a una distribución continua.
Recordemos en la prueba de Chi cuadrado
Frecuencia observada: la que recogen los datos.
Frecuencia esperada: la que observaríamos si no hubiera
relación.
Grados de libertad (gl): Número de valores o datos que pueden variar libremente dado un determinado resultado.
Ejemplo: 300 sujetos están clasificados según elijan A, B o C (tres categorías de clasificación).
Ejemplo: 300 sujetos están clasificados según elijan A, B o C (tres categorías de clasificación).
–Grados de libertad = k -1 (número de categorías menos una)
–Grados de libertad serán 3-1 = 2
Si dos criterios de clasificación:
Grados de libertad (gl) = (filas -1)*(columnas -1) (número de filas menos una) por (número de columnas menos una).
Los grados de libertad son la combinación del número de observaciones de un conjunto de datos que varían de manera
aleatoria e independiente menos las observaciones que están condicionadas a estos valores arbitrarios.
aleatoria e independiente menos las observaciones que están condicionadas a estos valores arbitrarios.
En otras palabras, los grados de libertad son el número de observaciones puramente libres (que pueden variar) cuando
estimamos los parámetros.
estimamos los parámetros.
Prueba chi-cuadrado
Permite determinar si dos variables cualitativas están o no asociadas. Es decir si son dependientes (H1) o independientes
(Ho). Para su cómputo calculamos:
(Ho). Para su cómputo calculamos:
Frecuencias esperadas (FE): aquellas que deberían haberse observado si la Ho fuese cierta, si ambas variables fueran
independientes.
independientes.
Frecuencias observadas (FO) en nuestro estudio. Las comparamos para calcular el valor del estadístico chi cuadrado (𝑋2):
Cuanto mayor sea la diferencia (y, por tanto, el valor del estadístico), mayor es la asociación/dependencia entre ambas
variables. Por otra parte, como las diferencias entre las frecuencias observadas y esperadas están elevadas al cuadrado, esto
hace que el valor de 𝑋2 siempre sea positivo.
variables. Por otra parte, como las diferencias entre las frecuencias observadas y esperadas están elevadas al cuadrado, esto
hace que el valor de 𝑋2 siempre sea positivo.
Para obtener los valores esperados , éstos se calculan a través del producto de los valores totales marginales dividido por el
número total de casos (n). Para el caso más sencillo de una tabla 2x2:
número total de casos (n). Para el caso más sencillo de una tabla 2x2:
Calculando las frecuencias…Ejemplo
Sabiendo que en una población de 289 estudiantes 126 no fuman (a+c=23+103) y que en esa población hay 51 chicos
(a+b=23+28).
(a+b=23+28).
- ¿Cuántas chicas sí fuman? (163-28=135)
- ¿Cuántos chicos no deberían fumar? (FE=126*51/289)…
- ¿Cuantos chicos deberían fumar? (FE=163*51/289)…
- ¿Cuantas chicas no deberían/deberían fumar?...
Las comparamos para calcular el valor del estadístico chi cuadrado (𝑋2) 𝑎 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠:
Las comparamos para calcular el valor del estadístico chi cuadrado (𝑋2) 𝑎 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠:
Prueba chi-cuadrado…Decisión
𝑋2 =0,056 (𝑋2 observada)
¿Existen asociación entre el sexo y el consumo de tabaco?
Ho=No existe asociación entre el sexo y el consumo de tabaco (son independientes) p=α>0,05
H1=Existe asociación entre el sexo y el consumo de tabaco (son dependientes) p=α≤0,05
Cuando Ho es cierta (hay independencia) los valores del test siguen una distribución teórica conocida como chi-cuadrado
que depende de un parámetro llamado “grados de libertad” (g.l.)
que depende de un parámetro llamado “grados de libertad” (g.l.)
En nuestro caso que estudiamos variables dicotómicas, tabla de 2x2, sería (2 filas-1)*(2 columnas-1)= 1 grado de libertad.
Grado de significación = alfa = probabilidad de rechazar de manera incorrecta H0 cuando sea cierta (normalmente 0.05,
0.01, 0.001)
0.01, 0.001)
Vamos a conocer ahora el valor de la Chi-cuadrado teórica Para ello, miramos en la tabla,
http://labrad.fisica.edu.uy/docs/tabla_chi_cuadrado.pdf teniendo en cuenta:
http://labrad.fisica.edu.uy/docs/tabla_chi_cuadrado.pdf teniendo en cuenta:
- Grados de libertad: (Número de filas-1)*(Número de columnas-1)
- A un nivel de significación de 0,05
Chi cuadrado en la tabla (teórica): 3,8415(el modelo teórico)
Chi cuadrado en los datos (observada): 0,056 obtenido mediante la fórmula a partir de los datos.
0,056 es menor que el resultado de las tablas, 3,8415, o lo que es lo mismo, NO hay más diferencia en los datos más
allá
que la que habría sí la diferencia fuera producto del azar. Así que aceptamos Ho. No existe asociación entre el sexo y
el consumo de tabaco a un nivel de significación del 0,05.
allá
que la que habría sí la diferencia fuera producto del azar. Así que aceptamos Ho. No existe asociación entre el sexo y
el consumo de tabaco a un nivel de significación del 0,05.
Resumen Procedimiento
- Establecer la hipótesis nula (H0).
- Realizar una tabla con los datos observados o frecuencias observadas (fo).
- Calcular los grados de libertad (gl).
- Calcular las frecuencias esperadas o teóricas (fe o ft).
- Utilizar el estadístico:
- Compararlo con las tablas al nivel de significación fijado.
- Aceptar o rechazar la H0.
Odds ratio
- Permite cuantificar la importancia/fuerza de la asociación entre dos variables.
- Puede acompañar al resultado de la prueba chi-cuadrado (en variables dicotómicas)
- ¿Recordamos la odds? Frecuencia expuestos/frecuencia no expuestos (casos y controles)
- Odds ratio sería el cociente entre la odds del grupo de individuos de la categoría 1 de la variable supuestamente
dependiente (variable 2) (a/c), frente a la odds del otro grupo formado por los individuos de la categoría 2 de esa misma
variable (b/d).
dependiente (variable 2) (a/c), frente a la odds del otro grupo formado por los individuos de la categoría 2 de esa misma
variable (b/d).
Características
- No tiene dimensiones.
- El rango va de 0 a ∞
- OR=1 indica que no hay asociación (independencia)
- OR>1 la presencia del factor de exposición (V1.1) se asocia a mayor ocurrencia del evento (V2.1)
- OR<1 la presencia del factor de exposición (V1.1) se asocia a menor ocurrencia del evento (V2.1)
En el ejemplo: si suponemos que “ser chico” sea un factor de riesgo para fumar, calculamos la OR para “ser chico”:
Si comparamos una variable…
Si se da el caso que las frecuencias esperadas sean pequeñas o menores de 5… no se puede utilizar el estadístico Chi
cuadrado
cuadrado
¿Qué hacemos?
- Reagrupar los valores de las categorías
- Utilizar:
La Prueba exacta de Fisher
Corrección de Yates
Corrección de Yates
- Por ejemplo:
Un enfermero de la unidad de digestivo observa que se produce diferencias relacionadas con los meses (tiempo) en los
reingresos de pacientes con úlcera gástrica. Recoge los siguientes datos:
reingresos de pacientes con úlcera gástrica. Recoge los siguientes datos:
Fe= 48/12= 4
4<5 → no podemos utilizar la Chi
¿Qué hacemos? Reagrupar… ( en SPSS: recodificar en distintas variables)
- Invierno: 7
- Primavera: 15
- Verano: 6
- Otoño: 20
Total: 48 ; Fe: 48/4=12
Grados de libertad: n-1= →7 4-1=3
- A un nivel de significación de 0,05
H0: la incidencia de complicaciones de úlceras gástrica es la misma en todas las épocas del año.
- X2 = 11.6 obtenido mediante la fórmula a partir de los datos
-Chi en la tabla: 7,82 (el modelo teórico)
- Chi de los datos: 11,6 (observado)
- 11, 6 es mayor que el resultado de las tablas 7,82 o lo que es lo mismo hay más diferencia en los datos que la que
habría sí la diferencia fuera producto del azar. Rechazamos Ho y Aceptamos H1.
habría sí la diferencia fuera producto del azar. Rechazamos Ho y Aceptamos H1.
- La incidencia de complicaciones en las úlceras gástricas está relacionada con el tiempo o no es la misma en los cuatro
trimestres a un nivel de significación del 0,05.
trimestres a un nivel de significación del 0,05.
Para calcular la chi cuadrado
1. Calcular los grados de libertad
–En el ejemplo (2-1)(2-1) = 1
2. Buscar en la tabla de la X2 a un nivel de significación del 0,05 y con un grado de libertad el valor es = 3,84
Chi X2 observada en los datos o que obtenemos mediante la fórmula= 3,27
Chi X2 teórica (la que habría esperar si no hubiera diferencia… )= 3,84
3,27 < 3,84
La diferencia de los datos es menor que la teórica … por lo que podemos decir que la diferencia entre los servicios es
menor que la que obtendríamos al azar o… que los dos servicios tienen la misma posibilidad de complicaciones en las
heridas quirúrgicas.
menor que la que obtendríamos al azar o… que los dos servicios tienen la misma posibilidad de complicaciones en las
heridas quirúrgicas.
Aceptamos H0
No hay comentarios:
Publicar un comentario