1. Inferencia estadística
Se le denomina inferencia estadística al conjunto de procedimientos estadísticos que permiten pasar de lo
particular, la muestra, a lo general, la población.
La estadística analítica o inferencial se ocupa de generalizar los datos obtenidos en la muestra a la población
de la que procede. Al extender los resultados de la muestra a un colectivo mayor (la población de la que
procede), asumimos que puede haber variables o elementos en la población que difieran de los que componen
la muestra, y por eso, asumimos que al inferir o generalizar los hallazgos obtenidos en la muestra a la
población, tenemos alguna probabilidad de cometer un error. Este es el motivo por el que la inferencia es
probabilística, y el grado de error que asumimos podemos cometer, es decir, la probabilidad de que los datos
obtenidos en la muestra sean diferentes en la población, son expresados al proporcionar los resultados del
estudio.
No se deben realizar cálculos de estadística inferencial si la muestra ha sido seleccionada mediante un
muestreo no probabilístico puesto que, como ya hemos visto, con ese tipo de muestreo no podemos asegurar
que la muestra sea representativa de la población. En estos casos, se deben realizar solo cálculos de
estadística descriptiva, puesto que estos se limitan a describir los hallazgos encontrados en la muestra,
sin pretender generalizar dichos hallazgos a la población.
Estadística inferencial o analítica: tiene como objetivo “inferir”, o sea, establecer conclusiones sobre una
población a partir de los resultados obtenidos de una muestra, todo ello, con un determinado nivel de seguridad
o intervalo de confianza. Es por tanto, el conjunto de procedimientos estadísticos que permiten pasar de lo
particular, la muestra, a lo general, la población, le denominamos: inferencia estadística.
La inferencia estadística exige la aleatoriedad (randomización) en la selección de los sujetos que forman la
muestra.
Población: Conjunto de personas, sujetos o unidades que presentan una característica común. Puede ser
finita o infinita.
Muestra: Subconjunto extraído y seleccionado de una población a la que representa.
- Muestra independiente: Está formada por datos independientes, o sea, aquellos obtenidos tras una única
observación.
Ej. Estudio para conocer el patrón de alimentación en una población escolar.
- Muestra apareada o dependiente: Está constituida por datos apareados (también llamados dependientes o
emparejados).
Comparan el mismo grupo de sujetos en dos tiempos diferentes (por ejemplo antes y después de una
intervención), o bien son grupos muy relacionados entre sí. Ej. Estudio para conocer el cambio en el patrón de
alimentación de estudiantes antes y después de una intervención de educación nutricional.
Antes de comenzar a explicar cómo se desarrollan los dos métodos de inferencia, es necesario subrayar
siempre que vamos a inferir (generalizar) los resultados obtenidos en la muestra a la población diana, lo
haremos asumiendo un cierto grado de error.
Debemos asumir que puede haber casos excepcionales que no están representados en la muestra, y por eso,
nunca vamos a poder inferir resultados con una certeza absoluta. Aceptamos que los resultados se darán en, al
menos, el 95% de los sujetos de la población, o lo que es lo mismo, que pueden ser diferentes en menos del
5% de los individuos.
Una vez explicados estos conceptos básicos relativos a la inferencia estadística, comenzamos a exponer las
dos técnicas por las que se infieren los hallazgos de la muestra a la población.
Dos formas de inferencia estadística:
- ESTIMACIÓN del valor en la población (Parámetro) a partir de un valor de la muestra (Estimador).
Estadístico / Estimador: Índice que representa una información de la muestra estudiada. Suelen expresarse
mediante letras del alfabeto latino Ej. Desviación estándar de la muestra (s), media aritmética (Ẋ). Las
propiedades deseables de un estimador son las siguientes:
Insesgadez: Un estimador es insesgado cuando la esperanza matemática del este es igual al parámetro que
se desea estimar.
Por tanto, la diferencia entre el parámetro a estimar y la esperanza de nuestro estimador tendría que ser 0.
Eficiente: Un estimador es más eficiente o tiene la capacidad de estimar de forma precisa cuando su varianza
es reducida.
Por lo tanto ante 2 estimadores, siempre elegiremos el que tenga una varianza menor.
Consistencia: Un estimador consistente es aquel que a medida que la medida que la muestra crece se
aproxima cada vez más al valor real del parámetro. Por lo tanto, cuantos más valores entran en la muestra, el
parámetro estimado será más preciso.Parámetro: Cada uno de los estadísticos que tras inferirse, nos
proporcionan información sobre la población.
A diferencia de los estadísticos, éstos se representan mediante letras del alfabeto griego. Ej. Desviación
estándar de la población (s), media aritmética de la población (µ).
- CONTRASTE DE HIPÓTESIS, a partir de valores de la muestra, se concluye si hay diferencias entre ellos en
la población (lo veremos en el tema 10).
población a partir de los resultados obtenidos de una muestra, todo ello, con un determinado nivel de seguridad
o intervalo de confianza. Es por tanto, el conjunto de procedimientos estadísticos que permiten pasar de lo
particular, la muestra, a lo general, la población, le denominamos: inferencia estadística.
La inferencia estadística exige la aleatoriedad (randomización) en la selección de los sujetos que forman la
muestra.
Población: Conjunto de personas, sujetos o unidades que presentan una característica común. Puede ser
finita o infinita.
Muestra: Subconjunto extraído y seleccionado de una población a la que representa.
- Muestra independiente: Está formada por datos independientes, o sea, aquellos obtenidos tras una única
observación.
Ej. Estudio para conocer el patrón de alimentación en una población escolar.
- Muestra apareada o dependiente: Está constituida por datos apareados (también llamados dependientes o
emparejados).
Comparan el mismo grupo de sujetos en dos tiempos diferentes (por ejemplo antes y después de una
intervención), o bien son grupos muy relacionados entre sí. Ej. Estudio para conocer el cambio en el patrón de
alimentación de estudiantes antes y después de una intervención de educación nutricional.
Antes de comenzar a explicar cómo se desarrollan los dos métodos de inferencia, es necesario subrayar
siempre que vamos a inferir (generalizar) los resultados obtenidos en la muestra a la población diana, lo
haremos asumiendo un cierto grado de error.
Debemos asumir que puede haber casos excepcionales que no están representados en la muestra, y por eso,
nunca vamos a poder inferir resultados con una certeza absoluta. Aceptamos que los resultados se darán en, al
menos, el 95% de los sujetos de la población, o lo que es lo mismo, que pueden ser diferentes en menos del
5% de los individuos.
Una vez explicados estos conceptos básicos relativos a la inferencia estadística, comenzamos a exponer las
dos técnicas por las que se infieren los hallazgos de la muestra a la población.
Dos formas de inferencia estadística:
- ESTIMACIÓN del valor en la población (Parámetro) a partir de un valor de la muestra (Estimador).
Estadístico / Estimador: Índice que representa una información de la muestra estudiada. Suelen expresarse
mediante letras del alfabeto latino Ej. Desviación estándar de la muestra (s), media aritmética (Ẋ). Las
propiedades deseables de un estimador son las siguientes:
Insesgadez: Un estimador es insesgado cuando la esperanza matemática del este es igual al parámetro que
se desea estimar.
Por tanto, la diferencia entre el parámetro a estimar y la esperanza de nuestro estimador tendría que ser 0.
Eficiente: Un estimador es más eficiente o tiene la capacidad de estimar de forma precisa cuando su varianza
es reducida.
Por lo tanto ante 2 estimadores, siempre elegiremos el que tenga una varianza menor.
Consistencia: Un estimador consistente es aquel que a medida que la medida que la muestra crece se
aproxima cada vez más al valor real del parámetro. Por lo tanto, cuantos más valores entran en la muestra, el
parámetro estimado será más preciso.Parámetro: Cada uno de los estadísticos que tras inferirse, nos
proporcionan información sobre la población.
A diferencia de los estadísticos, éstos se representan mediante letras del alfabeto griego. Ej. Desviación
estándar de la población (s), media aritmética de la población (µ).
- CONTRASTE DE HIPÓTESIS, a partir de valores de la muestra, se concluye si hay diferencias entre ellos en
la población (lo veremos en el tema 10).
´X: Media aritmética
S: Desviación estándar
P: valor de la probabilidad, nivel de significación
Para las variables cuantitativas: Sigma: desviación estándar de la población y Mu: media aritmética
población
Para las variables cualitativas: Pi: proporción poblacional
La generalización (inferencia estadística) hacia la población se puede hacer mediante dos procedimientos:
- Estimación de parámetros poblacionales: que puede ser puntual o por intervalos. En la estimación de
parámetros se calcula cuál será el valor (en la estimación puntual) o el rango de valores (en la estimación por
intervalos) que se pueden encontrar en la población a partir de los datos obtenidos en la muestra que ha
participado en el estudio.
A partir de este procedimiento podríamos calcular, por ejemplo, qué proporción de hipertensos hay en la
Comunidad de Madrid, o cuál es el valor medio de calcio en las mujeres de 60 a 65 años.
- Contraste de hipótesis: se formula la hipótesis nula (H0), que postula que no hay diferencias entre los
grupos que se comparan, y se contrasta con los datos obtenidos para determinar si esta es verdadera (se
acepta la H0 y se establece que no hay diferencias estadísticamente significativas entre los grupos) o falsa (se
rechaza la H0 y se establece que sí hay diferencias estadísticamente significativas). En cualquier caso, la
decisión de aceptar o rechazar la hipótesis se hace con un cierto margen de error o nivel de confianza, que es
una probabilidad.
Mediante el contraste de hipótesis podríamos saber si una intervención educativa reduce las cifras de tensión
arterial o si la aparición de osteoporosis en las mujeres se relaciona con el número de embarazos que hayan
tenido, por ejemplo.
S: Desviación estándar
P: valor de la probabilidad, nivel de significación
Para las variables cuantitativas: Sigma: desviación estándar de la población y Mu: media aritmética
población
Para las variables cualitativas: Pi: proporción poblacional
La generalización (inferencia estadística) hacia la población se puede hacer mediante dos procedimientos:
- Estimación de parámetros poblacionales: que puede ser puntual o por intervalos. En la estimación de
parámetros se calcula cuál será el valor (en la estimación puntual) o el rango de valores (en la estimación por
intervalos) que se pueden encontrar en la población a partir de los datos obtenidos en la muestra que ha
participado en el estudio.
A partir de este procedimiento podríamos calcular, por ejemplo, qué proporción de hipertensos hay en la
Comunidad de Madrid, o cuál es el valor medio de calcio en las mujeres de 60 a 65 años.
- Contraste de hipótesis: se formula la hipótesis nula (H0), que postula que no hay diferencias entre los
grupos que se comparan, y se contrasta con los datos obtenidos para determinar si esta es verdadera (se
acepta la H0 y se establece que no hay diferencias estadísticamente significativas entre los grupos) o falsa (se
rechaza la H0 y se establece que sí hay diferencias estadísticamente significativas). En cualquier caso, la
decisión de aceptar o rechazar la hipótesis se hace con un cierto margen de error o nivel de confianza, que es
una probabilidad.
Mediante el contraste de hipótesis podríamos saber si una intervención educativa reduce las cifras de tensión
arterial o si la aparición de osteoporosis en las mujeres se relaciona con el número de embarazos que hayan
tenido, por ejemplo.
Ante ¿Cuál es la diferencia entre pruebas paramétricas y no paramétricas?
Las pruebas paramétricas: se basan en las leyes de distribución normal para analizar los elementos de una muestra.
Generalmente, solo se aplican a variables numéricas y para su análisis debe mantener una población grande, ya que permite que el cálculo sea más exacto.
- La prueba estadística para t de Student es el valor t.. Se utiliza para determinar si hay una diferencia significativa entre las medias de dos grupos, es decir que se utiliza cuando deseamos comparar dos medias. Se utiliza para la comparación de dos medias de poblaciones independientes y normales. Asumimos que las variables dependientes tienen una distribución normal.
- El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student.
- La prueba de Fisher es el test exacto utilizado cuando se quiere estudiar si existe asociación entre dos variables cualitativas, es decir, si las proporciones de una variable son diferentes dependiendo del valor que adquiera la otra variable.
- El coeficiente de correlación de Pearson se utiliza para estudiar la relación (o correlación) entre dos variables aleatorias cuantitativas (escala mínima de intervalo); por ejemplo, la relación entre el peso y la altura. Es una medida que nos da información acerca de la intensidad y la dirección de la relación.
Las pruebas no paramétricas son aquellas que se encargan de analizar datos que no tienen una distribución particular y se basan en una hipótesis, pero los datos no están organizados de forma normal. Aunque tienen algunas limitaciones, cuentan con resultados estadísticos ordenados que facilita su comprensión.
- En estadística la prueba U de Mann-Whitney (también llamada de Mann-Whitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es una prueba no paramétrica aplicada a dos muestras independientes.
Es, de hecho, la versión no paramétrica de la habitual prueba "t" de Student.
- La prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un método no paramétrico para probar si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por categorías. Es una extensión de la prueba de la U de Mann-Whitney para 3 o más grupos.
En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa -nominales u ordinales-.
¿Cuál es la ventaja de usar una prueba no paramétrica?
Las pruebas no paramétricas son más robustas que las paramétricas. En otras palabras, son válidas en un rango
más amplio de situaciones (exigen menos condiciones de validez).
¿Cuál es la ventaja de usar una prueba paramétrica?
La ventaja de usar una prueba paramétrica en lugar de una no paramétrica consiste en que la primera tiene más
potencia estadística que la segunda. En otras palabras, una prueba paramétrica tiene mayor capacidad para
conducir a un rechazo de H0. La mayoría de las veces, el valor p asociado a una prueba paramétrica es menor
que el valor p asociado a su equivalente no paramétrica ejecutada sobre los mismos datos.
2. Estimaciones
La estimación de un parámetro poblacional a partir de los datos obtenidos en la muestra puede ser puntual o por
intervalos.
La estimación de un parámetro poblacional a partir de los datos obtenidos en la muestra puede ser puntual o por
intervalos.
- La estimación puntual:
Una estimación puntual de un parámetro poblacional es cuando se utiliza un único valor para estimar este
parámetro, es decir, se usa un punto en concreto de la muestra para estimar el valor deseado. Cuando estimamos
un parámetro de forma puntual, podemos saber con certeza, cuál es ese valor.
Una estimación puntual de un parámetro poblacional es cuando se utiliza un único valor para estimar este
parámetro, es decir, se usa un punto en concreto de la muestra para estimar el valor deseado. Cuando estimamos
un parámetro de forma puntual, podemos saber con certeza, cuál es ese valor.
Imaginemos una población de 30 personas de las que seleccionamos una muestra de 20 para las que conocemos
sus edades.
Estimar de forma puntual la media de edad, sería tan sencillo como sumar estos 20 datos y dividirlos entre el total
de la muestra estadística.
Pensemos ahora en que queremos estimar la altura media de esa muestra. Al contrario que antes, no tenemos el
valor de la altura de cada persona. En este caso no podríamos realizar una estimación puntual, es decir, no
podríamos hallar un valor concreto de esa altura media. En este caso tendríamos que realizar una estimación por
intervalos, es decir, podríamos acotar el valor más alto y más bajo de las alturas de las personas con cierta
seguridad o lo que en estadística se conoce como cierto nivel de confianza.
valor de la altura de cada persona. En este caso no podríamos realizar una estimación puntual, es decir, no
podríamos hallar un valor concreto de esa altura media. En este caso tendríamos que realizar una estimación por
intervalos, es decir, podríamos acotar el valor más alto y más bajo de las alturas de las personas con cierta
seguridad o lo que en estadística se conoce como cierto nivel de confianza.
Utiliza el valor del estadístico calculado en la muestra como valor del parámetro que se desea estimar.
Habitualmente, se utiliza el valor de la media muestral ´x como estimador de la media poblacional μ.
Por ejemplo, si el valor medio de colesterol en una muestra de pacientes es de 180.48, diríamos que este es el
valor medio de colesterol en la población.
También se pueden hacer estimaciones puntuales de otros parámetros poblacionales, como la varianza o la
desviación típica, a partir de los muestrales. Pero el problema de las estimaciones puntuales es que no
proporcionan información acerca del grado de exactitud (o si se prefiere, de error) de la información que
suministramos.
- La estimación por intervalos:
Informa de la probabilidad de que el parámetro poblacional se encuentre entre unos valores determinados. Para
realizar esta estimación es necesario construir un intervalo de confianza (IC), que establece un rango de posibles
valores del parámetro en la población e indica la probabilidad de estar en lo cierto. El límite superior e inferior del
rango de valores se denominan límites de confianza.
Es lo más aconsejable. Perdemos mucha precisión, pero a veces esa precisión nos compensa cuando tenemos
una horquilla de valores. Por ejemplo: a partir de los datos de una muestra hemos calculado que hay un 95% de
probabilidad de la TAS media de una población esté comprendida entre 120 y 130 mmHg (120 y 130 son los
límites de intervalo de confianza). Se puede dar para cualquier parámetro de la población, para una media,
proporción, prevalencia, incidencia, riesgo relativo…
Se utilizan como indicadores de la variabilidad de las estimaciones. Cuanto más “estrecho” sea el intervalo, mejor.
Si consigo tener un intervalo estrecho soy más preciso a la hora de acercarme al parámetro, pero también aumento
el riesgo de error.
Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un
par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una
determinada probabilidad).
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y
otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a
localizar el parámetro poblacional.
Conocer el verdadero poblacional, por lo general, suele ser algo muy complicado. Pensemos en una población de
4 millones de personas. ¿Podríamos saber el gasto medio en consumo por hogar de esa población? En principio sí.
Simplemente tendríamos que hacer una encuesta entre todos los hogares y calcular la media. Sin embargo, seguir
ese proceso sería tremendamente laborioso y complicaría bastante el estudio.
Ante situaciones así, se hace más factible seleccionar una muestra estadística. Por ejemplo, 500 personas. Y
sobre dicha muestra, calcular la media. Aunque seguiríamos sin saber el verdadero valor poblacional, podríamos
suponer que este se va a situar cerca del valor muestral. A esa media le sumamos el margen de error y tenemos
un valor del intervalo de confianza. Por otro lado, le restamos a la media ese margen de error y tendremos otro
valor. Entre esos dos valores estará la media poblacional.
En conclusión, el intervalo de confianza no sirve para dar una estimación puntual del parámetro poblacional, si nos
va a servir para hacernos una idea aproximada de cuál podría ser el verdadero de este. Nos permite acotar entre
dos valores en dónde se encontrará la media de la población.
El cálculo de un intervalo de confianza depende principalmente de los siguientes factores:
- Tamaño de la muestra seleccionada: Dependiendo de la cantidad de datos que se hayan utilizado para
calcular el valor muestral, este se acercará más o menos al verdadero parámetro poblacional.
- Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra estimación acierta. Los niveles
habituales son el 95% y el 99%.
- Margen de error de nuestra estimación: Este se denomina como alfa y nos informa de la probabilidad que
existe de que el valor poblacional esté fuera de nuestro intervalo.
- Lo estimado en la muestra (media, varianza, diferencia de medias…): De esto va a depender el estadístico
pivote para el cálculo del intervalo.
- Tamaño de la muestra seleccionada: Dependiendo de la cantidad de datos que se hayan utilizado para
calcular el valor muestral, este se acercará más o menos al verdadero parámetro poblacional.
- Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra estimación acierta. Los niveles
habituales son el 95% y el 99%.
- Margen de error de nuestra estimación: Este se denomina como alfa y nos informa de la probabilidad que
existe de que el valor poblacional esté fuera de nuestro intervalo.
- Lo estimado en la muestra (media, varianza, diferencia de medias…): De esto va a depender el estadístico
pivote para el cálculo del intervalo.
3. Error estándar
El error estándar de la media (EEM) mide la dispersión hipotética que tendrían las medias de infinitas
muestras tomadas de una población determinada. El EEM responde, por tanto a la pregunta: ¿En qué medida
la media obtenida en la muestra 1 tomada de la población A sería diferente si en lugar de haber tomado la
muestra 1 hubiéramos cogido la muestra 2, 3, 4,... de esa misma población A?
El EEM es, por tanto, el error de muestreo, la fluctuación que el valor de un estadístico puede tener entre
distintas muestras tomadas de una misma población, ya que cuantifica en qué medida los valores de la muestra
seleccionada pueden diferir de los que hallaríamos si los sujetos hubieran sido otros que pertenecen a la
misma población.
Cuanto más pequeño es EE más pequeña será la variación de los estadísticos (media, porcentaje, etc.); es
decir, más preciso resulta el estudio.
De esta ecuación se deduce que al aumentar el tamaño muestral (n), disminuye el EE, y viceversa.
Depende de cada estimador: media / proporción.
El error estándar de la media (EEM) está relacionado con la representatividad de la muestra. Así, cuando se
dice que el EEM es del 5%, estamos afirmando que, con un 95% de probabilidad, la población de estudio
estará representada en mi muestra.
El EEM depende de la desviación típica de la población y del tamaño muestral, de manera que
Matemáticamente, el EE se obtiene dividiendo la desviación estándar del estadístico entre la raíz cuadrada del
tamaño muestral. Su fórmula es la siguiente.
Veamos un ejemplo para aclarar más los conceptos: a 1000 estudiantes de enfermería se les somete a un
examen de la convocatoria EIR donde la media de las puntuaciones obtenidas en una muestra aleatoria de 25
sujetos (n = 25) es de 100 ( = 100), con una desviación típica s = 10.
Si tomamos otra muestra aleatoria de 25 sujetos en esa misma población, la media obtenida podría ser 105 y
en otra muestra aleatoria de 25 sujetos, podría ser de 97, por ejemplo. Esta fluctuación entre las medias de las
distintas muestras es lo que se conoce como error estándar de la media.
Si extrajéramos 40 muestras de esta población, tendríamos 40 medias con las que podríamos construir un
polígono de frecuencias (3) que seguiría una distribución normal (esto ha sido demostrado por expertos en
estadística).
Esta distribución de muestreo de la media es una distribución teórica (porque en la práctica nunca se realiza, ya
que nunca se toman tantas muestras de una población, sino solo una). En realidad, para saber el grado de
dispersión que puede haber entre las diferentes muestras se calcula el EEM, a partir de su fórmula:
muestras tomadas de una población determinada. El EEM responde, por tanto a la pregunta: ¿En qué medida
la media obtenida en la muestra 1 tomada de la población A sería diferente si en lugar de haber tomado la
muestra 1 hubiéramos cogido la muestra 2, 3, 4,... de esa misma población A?
El EEM es, por tanto, el error de muestreo, la fluctuación que el valor de un estadístico puede tener entre
distintas muestras tomadas de una misma población, ya que cuantifica en qué medida los valores de la muestra
seleccionada pueden diferir de los que hallaríamos si los sujetos hubieran sido otros que pertenecen a la
misma población.
Cuanto más pequeño es EE más pequeña será la variación de los estadísticos (media, porcentaje, etc.); es
decir, más preciso resulta el estudio.
De esta ecuación se deduce que al aumentar el tamaño muestral (n), disminuye el EE, y viceversa.
Depende de cada estimador: media / proporción.
El error estándar de la media (EEM) está relacionado con la representatividad de la muestra. Así, cuando se
dice que el EEM es del 5%, estamos afirmando que, con un 95% de probabilidad, la población de estudio
estará representada en mi muestra.
El EEM depende de la desviación típica de la población y del tamaño muestral, de manera que
Matemáticamente, el EE se obtiene dividiendo la desviación estándar del estadístico entre la raíz cuadrada del
tamaño muestral. Su fórmula es la siguiente.
Veamos un ejemplo para aclarar más los conceptos: a 1000 estudiantes de enfermería se les somete a un
examen de la convocatoria EIR donde la media de las puntuaciones obtenidas en una muestra aleatoria de 25
sujetos (n = 25) es de 100 ( = 100), con una desviación típica s = 10.
Si tomamos otra muestra aleatoria de 25 sujetos en esa misma población, la media obtenida podría ser 105 y
en otra muestra aleatoria de 25 sujetos, podría ser de 97, por ejemplo. Esta fluctuación entre las medias de las
distintas muestras es lo que se conoce como error estándar de la media.
Si extrajéramos 40 muestras de esta población, tendríamos 40 medias con las que podríamos construir un
polígono de frecuencias (3) que seguiría una distribución normal (esto ha sido demostrado por expertos en
estadística).
Esta distribución de muestreo de la media es una distribución teórica (porque en la práctica nunca se realiza, ya
que nunca se toman tantas muestras de una población, sino solo una). En realidad, para saber el grado de
dispersión que puede haber entre las diferentes muestras se calcula el EEM, a partir de su fórmula:
Si queremos hacer una estimación de la media poblacional más exacta, es decir, reducir el EEM, tendremos
que aumentar el tamaño de la muestra (n). Algo lógico ya que, como ya hemos visto, aumentar el tamaño de la
muestra hace que el error aleatorio disminuya.
que aumentar el tamaño de la muestra (n). Algo lógico ya que, como ya hemos visto, aumentar el tamaño de la
muestra hace que el error aleatorio disminuya.
De igual forma, el EE de un porcentaje, es la desviación estándar de una distribución formada “n” porcentajes
resultantes de la observación de “n” muestras de esa población.
El EE nos proporciona información sobre la dispersión que presentaría el estadístico observado, tras una
hipotética repetición del estudio.
- Se aplica cuando las variables del estudio son cualitativas o atributos, en consecuencia no podemos
cuantificarlos para obtener su media aritmética.
- Los pasos a seguir son idénticos que para la estimación de la media, con la única salvedad que al tratarse de
un porcentaje (proporción), los resultados hallados tras una multirepetición del estudio, seguirán una distribución
binomial.
Donde P es el porcentaje o proporción a estimar.
resultantes de la observación de “n” muestras de esa población.
El EE nos proporciona información sobre la dispersión que presentaría el estadístico observado, tras una
hipotética repetición del estudio.
- Se aplica cuando las variables del estudio son cualitativas o atributos, en consecuencia no podemos
cuantificarlos para obtener su media aritmética.
- Los pasos a seguir son idénticos que para la estimación de la media, con la única salvedad que al tratarse de
un porcentaje (proporción), los resultados hallados tras una multirepetición del estudio, seguirán una distribución
binomial.
Donde P es el porcentaje o proporción a estimar.
4. Teorema central del límite
El teorema central del límite (TCL) es una teoría estadística que establece que: dada una muestra
suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución
normal.
Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa, la media muestral se
acercará a la media de la población.
Por tanto, mediante el TCL podemos definir la distribución de la media muestral de una determinada población
con una varianza conocida. De manera que la distribución seguirá una distribución normal si el tamaño de la
muestra es lo suficientemente grande.
Principales propiedades del teorema central del límite:
El teorema central del límite tiene una serie de propiedades de gran utilidad en el ámbito estadístico y
probabilístico.
Las principales son:
- Si el tamaño de la muestra es suficientemente grande, la distribución de las medias muestrales seguirá
aproximadamente una distribución normal. El TCL considera una muestra como grande cuando el tamaño de la
misma es superior a 30. Por tanto, si la muestra es superior a 30, la media muestral tendrá una función de
distribución próxima a una normal. Y esto se cumple independientemente de la forma de la distribución con la
que estamos trabajando.
- La media poblacional y la media muestral serán iguales. Es decir, la media de la distribución de todas las
medias muestrales será igual a la media del total de la población.
- La varianza de la distribución de las medias muestrales será σ²/n. Que es la varianza de la población dividido
entre el tamaño de la muestra.
Que la distribución de las medias muestrales se parezca a una normal es tremendamente útil. Porque la
distribución normal es muy fácil de aplicar para realizar contrastes de hipótesis y construcción de intervalos de
confianza. En estadística que una distribución sea normal es bastante importante, dado que muchos
estadísticos requieren este tipo de distribución.
Además, el TCL nos permitirá hacer inferencia sobre la media poblacional a través de la media muestral. Y esto
es de gran utilidad cuando por falta de medios no podemos recolectar datos de toda una población.
suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución
normal.
Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa, la media muestral se
acercará a la media de la población.
Por tanto, mediante el TCL podemos definir la distribución de la media muestral de una determinada población
con una varianza conocida. De manera que la distribución seguirá una distribución normal si el tamaño de la
muestra es lo suficientemente grande.
Principales propiedades del teorema central del límite:
El teorema central del límite tiene una serie de propiedades de gran utilidad en el ámbito estadístico y
probabilístico.
Las principales son:
- Si el tamaño de la muestra es suficientemente grande, la distribución de las medias muestrales seguirá
aproximadamente una distribución normal. El TCL considera una muestra como grande cuando el tamaño de la
misma es superior a 30. Por tanto, si la muestra es superior a 30, la media muestral tendrá una función de
distribución próxima a una normal. Y esto se cumple independientemente de la forma de la distribución con la
que estamos trabajando.
- La media poblacional y la media muestral serán iguales. Es decir, la media de la distribución de todas las
medias muestrales será igual a la media del total de la población.
- La varianza de la distribución de las medias muestrales será σ²/n. Que es la varianza de la población dividido
entre el tamaño de la muestra.
Que la distribución de las medias muestrales se parezca a una normal es tremendamente útil. Porque la
distribución normal es muy fácil de aplicar para realizar contrastes de hipótesis y construcción de intervalos de
confianza. En estadística que una distribución sea normal es bastante importante, dado que muchos
estadísticos requieren este tipo de distribución.
Además, el TCL nos permitirá hacer inferencia sobre la media poblacional a través de la media muestral. Y esto
es de gran utilidad cuando por falta de medios no podemos recolectar datos de toda una población.
5. Intervalos de confianza
El cálculo de los límites de confianza se basa en el concepto de error estándar de la media (EEM) y en los
principios relacionados con la distribución normal o de Gauss.
A pesar de que el grado o nivel de confianza que se desea obtener es arbitrario, como ya se ha comentado, los
investigadores en ciencias de la salud utilizan convencionalmente un intervalo de confianza que oscila entre 95%
y el 99%, o lo que es lo mismo, asumen un nivel de error de entre 5% y el 1% respectivamente (0.05 y 0.01
expresado como probabilidad, en tanto por uno).
Para construir un intervalo de confianza se aplica la fórmula:
Z = Valor de la tabla inversa de la distribución normal tipificada para dos colas α/2 (0,025) = 1,96 (Error α =
0,05 ó Seguridad = 95%)
Si queremos determinar el IC con una seguridad del 99%, o lo que es lo mismo, un error inferior al 1%, habrá
que sumar y restar a la media 2,57 veces el EEẊ. Donde 2,57 es z, el valor de la distribución normal tipificada
para dos colas α/2 (0,005)
Son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar (error
aleatorio) Se trata de un par de números tales que, con un nivel de confianza determinados, podamos asegurar
que el valor del parámetro es mayor o menor que ambos números. Se calcula considerando que el estimador
muestral sigue una distribución normal.
Imaginemos que realizamos un estudio para conocer si una determinada dieta reduce los valores medios de
glucemia de las mujeres embarazadas de una determinada zona básica de salud y el error estándar de la
media ha sido de 4.
El valor medio de colesterol en una muestra de pacientes es de 180.48, diríamos que este es el valor medio de
colesterol en la población.
- Construimos un intervalo de confianza del 95% sustituyendo los datos en la fórmula:
Esta ultima expresión se interpreta como sigue: podemos afirmar que, con un 95% de probabilidad, el verdadero
valor de la media poblacional está entre 172.64 y 188.32.
Sería como decir que si repitiéramos el estudio en 100 muestras diferentes de esa población, en el 95% de las
muestras que se tomaran de esa población, la media de colesterol obtenida no sería ni inferior a 172.64 ni
superior a 188.32, y solo en el 5% de esas 100 muestras se obtendrían valores fuera de ese rango.
- Si ahora quisiéramos construir un intervalo de confianza del 99%, la fórmula a aplicar sería:
Esta ultima expresión se interpreta como que podemos afirmar que, con un 99% de probabilidad el verdadero
valor de la media poblacional está entre 170.2 y 190.76.
Vemos cómo, si queremos dar resultados más precisos, asumiendo un menor grado de error (puesto que una
probabilidad del 99% asume menos error que una probabilidad del 95%), el rango de valores que puede tomar
la variable se amplía, como ya se adelantaba al explicar el cálculo del tamaño muestral.
IMPORTANTE:
Mientras mayor sea la confianza que queramos otorgar al intervalo, éste será más amplio, es decir el extremo
inferior y el superior del intervalo estarás más distanciados y, por tanto, el intervalo será menos preciso.
Se puede calcular intervalos de confianzas para cualquier parámetro: medias aritméticas, proporciones, riesgos
relativos, odds ratio, etc.
principios relacionados con la distribución normal o de Gauss.
A pesar de que el grado o nivel de confianza que se desea obtener es arbitrario, como ya se ha comentado, los
investigadores en ciencias de la salud utilizan convencionalmente un intervalo de confianza que oscila entre 95%
y el 99%, o lo que es lo mismo, asumen un nivel de error de entre 5% y el 1% respectivamente (0.05 y 0.01
expresado como probabilidad, en tanto por uno).
Para construir un intervalo de confianza se aplica la fórmula:
Z = Valor de la tabla inversa de la distribución normal tipificada para dos colas α/2 (0,025) = 1,96 (Error α =
0,05 ó Seguridad = 95%)
Si queremos determinar el IC con una seguridad del 99%, o lo que es lo mismo, un error inferior al 1%, habrá
que sumar y restar a la media 2,57 veces el EEẊ. Donde 2,57 es z, el valor de la distribución normal tipificada
para dos colas α/2 (0,005)
Son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar (error
aleatorio) Se trata de un par de números tales que, con un nivel de confianza determinados, podamos asegurar
que el valor del parámetro es mayor o menor que ambos números. Se calcula considerando que el estimador
muestral sigue una distribución normal.
Imaginemos que realizamos un estudio para conocer si una determinada dieta reduce los valores medios de
glucemia de las mujeres embarazadas de una determinada zona básica de salud y el error estándar de la
media ha sido de 4.
El valor medio de colesterol en una muestra de pacientes es de 180.48, diríamos que este es el valor medio de
colesterol en la población.
- Construimos un intervalo de confianza del 95% sustituyendo los datos en la fórmula:
IC 95% = 180.48 ± (1.96 x 4) = 180.48 ± 7.84 = (172.64 ≥ μ ≤ 188.32).
Esta ultima expresión se interpreta como sigue: podemos afirmar que, con un 95% de probabilidad, el verdadero
valor de la media poblacional está entre 172.64 y 188.32.
Sería como decir que si repitiéramos el estudio en 100 muestras diferentes de esa población, en el 95% de las
muestras que se tomaran de esa población, la media de colesterol obtenida no sería ni inferior a 172.64 ni
superior a 188.32, y solo en el 5% de esas 100 muestras se obtendrían valores fuera de ese rango.
- Si ahora quisiéramos construir un intervalo de confianza del 99%, la fórmula a aplicar sería:
IC 99% = 180.48 ± (2.57x4) = 180.48 ± 10.28 = (170.2 ≥ μ ≤ 190.76)
Esta ultima expresión se interpreta como que podemos afirmar que, con un 99% de probabilidad el verdadero
valor de la media poblacional está entre 170.2 y 190.76.
Vemos cómo, si queremos dar resultados más precisos, asumiendo un menor grado de error (puesto que una
probabilidad del 99% asume menos error que una probabilidad del 95%), el rango de valores que puede tomar
la variable se amplía, como ya se adelantaba al explicar el cálculo del tamaño muestral.
IMPORTANTE:
Mientras mayor sea la confianza que queramos otorgar al intervalo, éste será más amplio, es decir el extremo
inferior y el superior del intervalo estarás más distanciados y, por tanto, el intervalo será menos preciso.
Se puede calcular intervalos de confianzas para cualquier parámetro: medias aritméticas, proporciones, riesgos
relativos, odds ratio, etc.
6. Contraste de hipótesis
Para controlar los errores aleatorios, además del cálculo de intervalos de confianza, contamos con una
segunda herramienta en el proceso de inferencia estadística: los tests o contrastes de hipótesis.
La prueba o el contraste de hipótesis (LO VEREMOS EN EL SIGUIENTE TEMA) consiste en contrastar la
hipótesis del estudio con los datos obtenidos en la muestra con el fin de verificar si existen diferencias en los
hallazgos obtenidos en ambos grupos debidas a la acción de la variable independiente, o si simplemente estas
diferencias han sido fruto del azar.
- Ante una pregunta de investigación…
¿Es esta técnica de cuidados más efectiva que la habitual para disminuir la ansiedad?
¿Influye el consumo de tabaco de la madre en el bajo peso al nacer?
¿Son los pacientes que se sienten inseguros más agresivos que los que se sienten seguros?
Con los intervalos nos hacemos una idea de un parámetro de una población dando un par de números entre
los que confiamos que esté el valor desconocido.
Con los contrastes (tests) de hipótesis la estrategia es la siguiente:
- Establecemos a priori una hipótesis acerca del valor del parámetro.
- Realizamos la recogida de datos.
- Analizamos la coherencia de entre la hipótesis previa y los datos obtenidos.
ERRORES DE HIPÓTESIS: Con una misma muestra podemos aceptar o rechazar la hipótesis nula, todo
depende de un error, al que llamamos α. El error α es la probabilidad de equivocarnos al rechazar la hipótesis
nula El error α más pequeño al que podemos rechazar H0 es el error p. Habitualmente rechazamos H0 para
un nivel α máximo del 5% (p).
segunda herramienta en el proceso de inferencia estadística: los tests o contrastes de hipótesis.
La prueba o el contraste de hipótesis (LO VEREMOS EN EL SIGUIENTE TEMA) consiste en contrastar la
hipótesis del estudio con los datos obtenidos en la muestra con el fin de verificar si existen diferencias en los
hallazgos obtenidos en ambos grupos debidas a la acción de la variable independiente, o si simplemente estas
diferencias han sido fruto del azar.
- Ante una pregunta de investigación…
¿Es esta técnica de cuidados más efectiva que la habitual para disminuir la ansiedad?
¿Influye el consumo de tabaco de la madre en el bajo peso al nacer?
¿Son los pacientes que se sienten inseguros más agresivos que los que se sienten seguros?
Con los intervalos nos hacemos una idea de un parámetro de una población dando un par de números entre
los que confiamos que esté el valor desconocido.
Con los contrastes (tests) de hipótesis la estrategia es la siguiente:
- Establecemos a priori una hipótesis acerca del valor del parámetro.
- Realizamos la recogida de datos.
- Analizamos la coherencia de entre la hipótesis previa y los datos obtenidos.
ERRORES DE HIPÓTESIS: Con una misma muestra podemos aceptar o rechazar la hipótesis nula, todo
depende de un error, al que llamamos α. El error α es la probabilidad de equivocarnos al rechazar la hipótesis
nula El error α más pequeño al que podemos rechazar H0 es el error p. Habitualmente rechazamos H0 para
un nivel α máximo del 5% (p).
No hay comentarios:
Publicar un comentario