LA ESTADÍSTICA Y SUS COSAS : TEMA 8: TEORÍA DE MUESTRAS

1. Estimación e inferencia estadística

Al conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la
población le llamamos técnicas de muestreo.

Siempre que trabajamos con muestras (no estudiamos el problema en toda la población sino en una parte de ella (hay que

asumir un cierto error).

Si la muestra se elige por un procedimiento de azar, se puede evaluar ese error. La técnica de muestreo en ese caso se

denomina muestreo probabilístico o aleatorio y el error asociado a esa muestra elegida al azar se llama error aleatorio.

En los muestreos no probabilísticos (no usan el azar) no es posible evaluar el error. En los muestreos probabilísticos, el

error aleatorio es inevitable, pero es evaluable.

Proceso de inferencia estadística: Quiero medir un parámetro en la población, no puedo medirlo en todos los

sujetos y realizo una preselección preferiblemente aleatoria y a través de esa muestra obtengo el estimador que me
permite realizar la inferencia.

La muestra es el subconjunto de elementos de una población. Para que los resultados obtenidos en ella puedan generalizarse
(inferirse) a la población de donde se ha tomado, la muestra debe ser:

Representativa de la población diana de la que procede: la representatividad de la muestra está, en parte,
condicionada con la técnica de muestreo utilizada, como se explica más adelante.

De un tamaño adecuado: es el otro factor que influye en la representatividad. Debe ser lo suficientemente grande para garantizar que la muestra representa a la población diana, y lo suficientemente pequeña para facilitar el análisis.

Comparable: como ya se ha explicado, en los estudios analíticos en los que se compara un grupo (expuesto a un factor o

en el que se aplica una intervención) con otro (que no tiene dicho factor de exposición o al que no se le ha aplicado dicha

intervención), ambos deben ser similares al inicio del estudio. Esto hará que se pueda concluir que las diferencias

encontradas entre ambos grupos son solo consecuencia de la exposición o no al factor o de la aplicación o no de la

intervención.

2. Procedimiento muestral

Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad

de que ese pequeño grupo posea las características de la población que estamos estudiando. Debería ser de tal manera que
me permitiera tener una muestra lo más parecida posible a la realidad, porque si tomo la tensión en una plaza de abastos,
la mayoría de los participantes van a ser sólo personas mayores y sobre todo mujeres.

El muestreo se define como el proceso de selección de la muestra.

Las unidades de muestreo son las unidades sobre las que se aplican los métodos de selección de la muestra, mientras que
las unidades de análisis son aquellas sobre las que se realiza el estudio.

Por ejemplo, si queremos medir la prevalencia de obesidad en escolares, la unidad de muestreo podrían ser las escuelas,
si seleccionamos, mediante un muestreo aleatorio simple, por ejemplo, los centros escolares en los que vamos a recoger los
datos. Pero la unidad de análisis, en este ejemplo, serían los niños, puesto que ellos serán los sujetos que proporcionen los
datos para el estudio.

3. Tipos de muestreo

Los tipos de muestreo son las técnicas utilizadas por los investigadores para seleccionar la muestra. En una primera
clasificación distinguimos dos tipos de muestreo: probabilístico y no probabilístico.

Muestreo Probabilístico: Todas las unidades que componen la población tienen una probabilidad de ser elegidas y se
puede calcular de antemano. No utilizan el azar, no permite evaluar errores y hay sesgos de selección.

Muestreo no Probabilístico: Las unidades que componen la población tienen diferente probabilidad de ser elegidas ya que
no solo interviene el azar sino también otras condiciones. No se puede calcular la probabilidad de antemano y no todos los
elementos tienen alguna posibilidad de ser incluidos. (dudosa representatividad). Introducen el azar. El azar me permite
dimensionar el error aleatorio que cometo.

4. Muestreo no probabilístico o por conveniencia

No siguen el proceso aleatorio, por lo que no conocemos la probabilidad de que un sujeto participe en el estudio. Eso quiere
decir que los estudios que utilizan muestreo por conveniencia no representan las características del grupo completo, no
podemos hacer inferencia. Se caracteriza porque el investigador selecciona la muestra siguiendo unos criterios identificados
para los fines del estudio que realiza.

Muestreo Consecutivo:

Es el muestreo no probabilístico más utilizado. Si se realiza de manera adecuada, la representatividad de la
muestra que se obtiene puede ser semejante a la obtenida con un muestreo probabilístico.

El diseño de muestreo consecutivo consiste en reclutar a todos los individuos de la población accesible
que cumplan con los criterios de selección durante el periodo de reclutamiento fijado para el estudio. El periodo de
reclutamiento se fija en función del tamaño muestral deseado y del número de sujetos reclutables cada día.

Si, por ejemplo, queremos conocer las horas de sueño diarias de los niños recién nacidos, podríamos
realizar un muestreo consecutivo tomando a todos los recién nacidos que acudan a un centro de salud determinado durante
un año.

Sus principales limitaciones vienen determinadas porque el reclutamiento no se realice de manera
consecutiva, produciéndose interrupciones, por ejemplo, por situaciones de alta demanda asistencial. También puede
suponer una limitación para el empleo de este tipo de muestreo que el periodo de reclutamiento sea corto y no refleje
fluctuaciones estacionales del problema que estamos estudiando.

Por conveniencia o accidental:

Se seleccionan aquellos sujetos más fácilmente accesibles para el equipo investigador o que se presenten
voluntariamente.

Si, por ejemplo, el investigador se sitúa en una calle determinada y pregunta a quienes pasan por ella su
opinión sobre los servicios sanitarios.

Es una de las técnicas menos sólidas, aunque se utiliza en numerosas ocasiones. Requiere que los
fenómenos que se investigan sean suficientemente homogéneos en la población puesto que, de no ser así, se puede producir
un sesgo al no recoger toda la heterogeneidad del fenómeno.

Muestreo intencional o a criterio:

Es el propio investigador el que selecciona a aquellos sujetos que considere más apropiados para formar la
muestra.

El muestreo a criterio se aplica a menudo cuando se desea tomar una muestra de expertos.

Por ejemplo: Si quisiéramos conocer qué dificultades encuentran los enfermeros para investigar y, para
ello, utilizásemos una técnica de consenso, como por ejemplo la técnica Delphi, para seleccionar el grupo de expertos que
participarán, podríamos optar por realizarlo mediante un muestreo a criterio, eligiendo a los sujetos que considerásemos
más adecuados para formar la muestra.

Este tipo de diseño de muestreo no ofrece ningún método externo y objetivo para valorar la idoneidad de
los sujetos seleccionados; no obstante, su utilización puede ofrecer ciertas ventajas en investigaciones como la presentada
en el ejemplo.

Estos dos últimos tipos de muestreo no probabilístico (de conveniencia e intencional) son los que más se utilizan en la
investigación cualitativa.

Muestreo bola de nieve, de avalancha o muestreo en cadena

En este tipo de muestreo, el equipo investigador elige a un participante que cumpla los criterios de
inclusión a quien, además, se le pide que identifique a otros sujetos que también los cumple, de modo que cada uno de los
sujetos localiza a otros individuos y estos a otros, y así sucesivamente hasta que se alcanza la muestra suficiente.

Con esta forma de selección de participantes es posible acceder a personas difíciles de identificar, por lo que
se utiliza frecuentemente cuando se realizan estudios en poblaciones consideradas marginales tales como delincuentes,
sectas, etc. Es, por tanto, una forma de seleccionar sujetos muy utilizada para la realización de estudios cualitativos, dado
que es un tipo de muestreo más práctico y eficiente que el muestreo de conveniencia y, además, gracias a la presentación que
hace el sujeto e incluido en el estudio, resulta más fácil establecer una relación de confianza con los nuevos participantes.

Sin embargo, puede ocurrir que la muestra sea restringida debido a la reducida red de contactos, lo que
supone su principal inconveniente. Además la calidad de los nuevos participantes puede estar influida por el hecho de que
los sujetos que invitaron confiaran en el investigador y realmente desearan cooperar.

Por ejemplo, si realizamos un estudio para conocer cómo se desarrolla el día a día del cuidador que atiende a
un familiar dependiente, y a cada cuidador nos dirige hacia otro cuidador que atiende a otra persona dependiente, estaríamos
utilizando este tipo de muestreo

Muestreo teórico

En el muestreo teórico la selección de los participantes se hace de forma gradual bien porque el propósito
del estudio es la generación de teoría o porque la integración de la muestra se va decidiendo sobre la marcha con el fin de
que los datos recogidos permitan capturar la máxima variación posible de significados.

Por tanto, en este tipo de muestreo, los participantes deben cubrir todas la características, perfiles o patrones
que pueden influir en los significados del fenómeno estudiado, y que se hayan identificado a partir de la biografía, la
información obtenida a partir de los informantes o de la experiencia del investigador en el tema objeto de estudio, por
ejemplo.

5. Muestreo probabilístico (aleatorio)

Muestreo aleatorio simple

Consiste en seleccionar al azar (mediante una tabla de números aleatorios o el uso de un programa informático) un número
n (el tamaño muestral) de elementos de una población. Es conceptualmente el método más sencillo y, sin embargo, el menos
utilizado, porque requiere contar a priori con un listado con todas las unidades que componen la población accesible, por lo
que se utiliza cuando la población es pequeña.

Es el método que produce muestras más representativas, ya que solo interviene el azar. Sin embargo, no es muy utilizado por
sus desventajas:

Es necesario contar con un listado enumerado de todas las unidades de población.

Los sujetos pueden estar muy dispersos por lo que contactar con todos ellos puede resultar costoso en tiempo y
dinero.

Algunos subgrupos de población, especialmente los minoritarios, pueden no estar representados si la nuestra es
pequeña.

Por ejemplo, imaginemos que vamos a realizar un muestreo aleatorio simple para seleccionar la muestra de un estudio que
pretende conocer el nivel de burnout en enfermeras de un hospital determinado.

Necesitamos un listado de todas las enfermeras que trabajan en dicho hospital y numerados consecutivamente a las
enfermeras (por ejemplo, N = 400).

El programa informático nos proporciona los sujetos que necesitemos en función de nuestro tamaño muestral n (por
ejemplo, n = 100). En concreto, nos proporciona los 100 números aleatorios entre el 1 y el 400 que tenemos que seleccionar,
y cogemos como muestra a las enfermeras que ocupan esos 100 números del listado (por ejemplo: 1, 3, 8, 12, 15, 23, 25,
32, etc.).

Muestreo aleatorio sistemático:

Consiste en seleccionar individuos según una regla o proceso periódico.

Para realizar este tipo de muestreo, debemos realizar los siguientes pasos:

Calculamos la constante de muestreo (K = N/n à población candidata/ muestra).

Elegimos un número al azar entre 1 y K, y esa será la primera unidad (r) de la muestra.

Sumamos la constante K al número r hasta conseguir el tamaño muestral, siendo el primer individuo quien ocupe la
posición r, el segundo (r+K), el tercero (r+2K), el cuarto (r+3K)... y así sucesivamente.

Imaginemos que queremos conocer la satisfacción de las mujeres que acuden a las urgencias ginecológicas de un
determinado hospital y vamos a seleccionar la muestra utilizando un muestreo aleatorio sistemático. Para ello, primero
calculamos la constante de muestreo tomando como valor de N el número de mujeres atendidas en las urgencias
ginecológicas durante el año anterior. Imaginemos que N/n = 400/100 = 4 = K. Sabemos que r tiene que ser un número
entre 1 y 4, por ejemplo, el 3, por tanto, r = 3.

Así, el primer individuo de la muestra será el que haga el número 3 de orden de asistencia al servicio de urgencias, el
segundo el que haga el número de orden 7 (3+4); el tercero el que haga el número 11 (3 + [2x4]); el cuarto el que haga el
número 15 (3 + [3x4]),... hasta llegar al individuo 100 que será el 399 (3+ [99x4]).

La ventaja de este tipo de muestreo es que no necesitamos tener antes la lista de toda la población, sino que se pueden
seleccionar los individuos según se vaya formando el listado.

Muestreo estratificado

Se utiliza cuando la característica objeto de estudio no se distribuye de forma homogénea en la población y puede afectar a
los resultados del estudio, pero existen grupos o estratos donde sí se presenta de manera homogénea. Estos grupos tienen
alguna característica en común pero son mutuamente excluyentes.

Ventaja: conocer cómo se comporta una variable en cada subgrupo de la población con precisión.
Desventaja: necesita más información y un listado de cada individuo de la población.

Por ejemplo, imaginemos que deseamos conocer el nivel de burnout en una población de enfermeros del Hospital
Universitario 12 de Octubre de Madrid, pero nos interesa también conocer cómo es el nivel de burnout en enfermeros y
enfermeras. Imaginemos que el personal de enfermería total son 1000 sujetos (N = 1000). Tenemos que tomar una muestra
de 200 trabajadores mediante un muestreo estratificado según el sexo.
Para ello dividimos a la población en dos estratos hombres y mujeres, y recabamos información sobre el número de sujetos
en cada estrato siendo en nuestro ejemplo de 700 mujeres y 300 hombres. Como tenemos que tomar una muestra aleatoria
simple de cada estrato, necesitamos el listado de los 700 hombres y el de las 300 mujeres y, mediante la utilización de una
tabla de números aleatorios, tomamos la muestra.

El muestreo por conglomerados:

Es una técnica que aprovecha la existencia de grupos o conglomerados en la población que representan correctamente el
total de la población en relación a la característica que queremos medir. Dicho de otro modo, estos grupos contienen toda la
variabilidad de la población. Si esto sucede, podemos seleccionar únicamente algunos de estos conglomerados para conocer
la información de interés del total de la población.
Podemos ver esta técnica desde otro punto de vista. Mientras que en todas las técnicas vistas hasta ahora las unidades de
muestreo coinciden con las unidades a estudiar (individuos), en el muestreo por conglomerados las unidades de muestreo son
grupos de unidades a estudiar (grupos de individuos), algo que puede resultar muy beneficioso en términos de coste.
A cambio, es habitual obtener una menor precisión al usar esta técnica, causada por falta de heterogeneidad dentro de los
conglomerados.

El proceso de muestreo

El primer paso para aplicar esta técnica es definir los conglomerados. Se trata de identificar una característica que permite
dividir la población en grupos disjuntos (sin solapamiento) y de forma exhaustiva (todos los individuos deben estar en un
grupo), de tal manera que los grupos no difieran entre sí en relación a aquello que queremos medir. Una vez hemos definido
estos conglomerados, seleccionaremos al azar algunos de ellos para estudiarlos.

Un criterio habitual para definir conglomerados es el geográfico. Por ejemplo, si queremos estudiar qué proporción de la
población española que fuma, podemos dividir el total de la población en provincias y seleccionar algunas de ellas para ser
estudiadas. Si no tenemos razones de peso para pensar que el porcentaje de fumadores va a cambiar de una provincia a otra,
esta solución nos permitirá concentrar el esfuerzo de muestreo en un único entorno geográfico. Si el estudio se va a hacer
mediante entrevistas personales, esto representa un importante ahorro de costes de desplazamientos.

Una vez definimos los conglomerados, el siguiente paso es seleccionar los conglomerados a estudiar, ya sea mediante un
muestreo aleatorio simple o sistemático.

Por último, una vez seleccionados los conglomerados a estudiar, podemos investigar a todos los sujetos que forman parte de
los mismos, o bien aplicar un nuevo proceso de muestreo dentro del conglomerado, por ejemplo obteniendo una muestra
mediante muestreo aleatorio simple o sistemático. Si optamos por esta posibilidad, estaremos hablando de un muestreo en
dos etapas o bietápico: la primera etapa será la selección del conglomerado; la segunda, la de individuos dentro del
conglomerado. Si por el contrario estudiamos todos los individuos del conglomerado, hablaremos de muestreo por
conglomerados unietápico.

Muestreo estratificado y muestreo por conglomerados

La idea del muestreo por conglomerados recuerda a la del muestreo estratificado. En ambos casos dividimos la población en
grupos. Sin embargo, los principios detrás de ambas técnicas son en cierto modo opuestos.

El muestreo estratificado es especialmente adecuado cuando los grupos (estratos) son muy homogéneos internamente y
muy diferentes entre sí. En ese caso, conviene asegurar que tenemos representantes en nuestra muestra que provienen de
todos los estratos. Por el contrario, el muestreo por conglomerados es muy adecuado cuando los grupos en que dividimos
la población son muy similares entre sí, por lo que no hay gran diferencia entre estudiar individuos de un grupo o de otro.
Es por ello que pese a que ambas técnicas dividen la población en estratos o conglomerados, el proceso de selección de
individuos es radicalmente diferente.

Ventajas y desventajas del muestreo por conglomerados:

✔ La principal ventaja: de esta técnica es de tipo operativa: seleccionar un conglomerado a estudiar suele ser más fácil y
económico que hacer una muestra aleatoria o sistemática. Hemos visto por ejemplo que usar conglomerados geográficos
puede representar un importante ahorro en desplazamientos de personas.
Curiosamente, es habitual hacer estudios a través de Internet en los que se sigue pensando en términos de estudiar sólo unas
zonas geográficas, cuando en realidad a través de Internet no obtenemos ningún beneficio operativo; al contrario, incurrimos
en mayor riesgo de tener menor precisión por diferencias entre las regiones estudiadas y el resto de la población.
Esta práctica es una herencia injustificada de técnicas que eran buenas en entrevistas personales, pero que no lo son al usar
otras metodologías.

✘ Como principal inconveniente, al usar muestreo por conglomerados corremos un riesgo importante: que los
conglomerados no sean realmente homogéneos entre ellos.

6. Tamaño de la muestra

Para determinar el tamaño muestral de un estudio, debemos considerar los diferentes fines para los que se desarrolla un
estudio:

Estimar parámetros poblacionales: a partir de los datos obtenidos en la muestra que ha participado en el estudio

(proporciones, medias) pretendemos hacer inferencias a valores poblacionales.

Contrastar hipótesis: el estudio pretende comparar si existen diferencias en los valores medios o las proporciones

de las variables a estudio entre los grupos que conforman la muestra.

Para el Cálculo del tamaño de una muestra para estimar la media de una población tenemos una fórmula donde:

Zα , es el coeficiente que corresponde al nivel de confianza prefijado.

– Para un nivel de confianza del 95%, α = 0.05, el valor de Zα = 1.96
– Para un nivel de confianza del 99%, α = 0.01, el valor de Zα = 2.57

S2, es la varianza de la distribución de la variable cuantitativa que se supone existe en la población. Este dato lo
podemos obtener de estudios previos o de un estudio piloto.

e, es la precisión con la que se desea estimar el parámetro (también fijado por los investigadores)

Por tanto, para calcular el tamaño muestral necesario para estimar una media necesitamos saber solo el valor de S2, puesto
que tanto el valor de Zα como el de e es fijado por los investigadores.

Si no tuviéramos datos acerca del valor aproximado de la varianza, ni fuera posible realizar un piloto, podemos obtener una
primera aproximación al valor de la varianza a partir de la estimación de la desviación típica, s, (que, como se ha explicado
ya en un tema anterior, es la raíz cuadrada de la varianza), se podría utilizar una regla práctica que consiste en determinar la
diferencia entre los valores máximos y mínimos esperables, y dividir esta diferencia entre 4. El número obtenido se
aproxima al de la desviación típica, s.

El tamaño de la muestra a tomar va a depender de:

El error aleatorio (estándar)

De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a
estudiar.

De la variabilidad de la variable a estudiar (varianza en la población).

El tamaño de la población de estudio.

Cálculo del tamaño de una muestra para estimar la media de una población:

Z es un valor que depende del nivel de confianza que se quiera dar a los intervalos calculados a partir de estimadores
de esa muestra (Para confianza de 95% z=1,96 y para nivel de confianza de 99% z=2,58)

S2 : es la varianza poblacional

E: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la
variable a estudiar

Si tras esta operación se cumple el resultado: N>n (n-1) el cálculo del tamaño muestral termina aquí.

Si no se cumple, obtendremos el tamaño de la muestra con esta fórmula:

Para calcular el tamaño de una muestra para estimar una proporción:

P es la proporción de una categoría de la variable (por ejemplo, la presencia de la enfermedad, si o no)

1-p: es la proporción de la otra categoría

Z: es el valor de la confianza

N es el tamaño de la población

E: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la
variable a estudiar.

Si no tuviéramos datos acerca del valor aproximado del parámetro que se está buscando, ni fuera posible realizar un piloto

para obtener una primera aproximación a dicho valor, se puede adoptar la postura de máxima indeterminación y considerar
que el parámetro estará presente en la mitad de los sujetos estudiados (lo mismo que se daría por azar), que es el valor que
requiere mayor cantidad de individuos. Su inconveniente es que estudiaríamos a un número de sujetos superior al necesario
para garantizar la representatividad de la muestra.

LA ESTADÍSTICA Y SUS COSAS

Home

sábado, 6 de junio de 2020

TEMA 8: TEORÍA DE MUESTRAS

No hay comentarios:

Publicar un comentario