sábado, 6 de junio de 2020

TEMA 8: TEORÍA DE MUESTRAS

1. Estimación e inferencia estadística

Al conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la
población le llamamos técnicas de muestreo. 

Siempre que trabajamos con muestras (no estudiamos el problema en toda la población sino en una parte de ella (hay que
asumir un cierto error).


Si la muestra se elige por un procedimiento de azar, se puede evaluar ese error. La técnica de muestreo en ese caso se
denomina muestreo probabilístico o aleatorio y el error asociado a esa muestra elegida al azar se llama error aleatorio.

En los muestreos no probabilísticos (no usan el azar) no es posible evaluar el error. En los muestreos probabilísticos, el
error aleatorio es inevitable, pero es evaluable

Proceso de inferencia estadística: Quiero medir un parámetro en la población, no puedo medirlo en todos los
sujetos y realizo una preselección preferiblemente aleatoria y a través de esa muestra obtengo el estimador que me
permite realizar la inferencia

La muestra es el subconjunto de elementos de una población. Para que los resultados obtenidos en ella puedan generalizarse
(inferirse) a la población de donde se ha tomado, la muestra debe ser:
    Representativa de la población diana de la que procede: la representatividad de la muestra está, en parte,
    condicionada con la técnica de muestreo utilizada, como se explica más adelante.

    De un tamaño adecuado: es el otro factor que influye en la representatividad. Debe ser lo suficientemente grande para garantizar que la muestra representa a la población diana, y lo suficientemente pequeña para facilitar el análisis.

    Comparable: como ya se ha explicado, en los estudios analíticos en los que se compara un grupo (expuesto a un factor o
    en el que se aplica una intervención) con otro (que no tiene dicho factor de exposición o al que no se le ha aplicado dicha
    intervención), ambos deben ser similares al inicio del estudio. Esto hará que se pueda concluir que las diferencias
    encontradas entre ambos grupos son solo consecuencia de la exposición o no al factor o de la aplicación o no de la
    intervención. 

    2. Procedimiento muestral 

    Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad
    de que ese pequeño grupo posea las características de la población que estamos estudiando. Debería ser de tal manera que
    me permitiera tener una muestra lo más parecida posible a la realidad, porque si tomo la tensión en una plaza de abastos,
    la mayoría de los participantes van a ser sólo personas mayores y sobre todo mujeres. 

    El muestreo se define como el proceso de selección de la muestra.

    Las unidades de muestreo son las unidades sobre las que se aplican los métodos de selección de la muestra, mientras que
    las unidades de análisis son aquellas sobre las que se realiza el estudio.

    Por ejemplo, si queremos medir la prevalencia de obesidad en escolares, la unidad de muestreo podrían ser las escuelas,
    si seleccionamos, mediante un muestreo aleatorio simple, por ejemplo, los centros escolares en los que vamos a recoger los
    datos. Pero la unidad de análisis, en este ejemplo, serían los niños, puesto que ellos serán los sujetos que proporcionen los
    datos para el estudio. 

    3. Tipos de muestreo

    Los tipos de muestreo son las técnicas utilizadas por los investigadores para seleccionar la muestra. En una primera
    clasificación distinguimos dos tipos de muestreo: probabilístico y no probabilístico. 

    Muestreo Probabilístico: Todas las unidades que componen la población tienen una probabilidad de ser elegidas y se
    puede calcular de antemano. No utilizan el azar, no permite evaluar errores y hay sesgos de selección. 

    Muestreo no Probabilístico: Las unidades que componen la población tienen diferente probabilidad de ser elegidas ya que
    no solo interviene el azar sino también otras condiciones. No se puede calcular la probabilidad de antemano y no todos los
    elementos tienen alguna posibilidad de ser incluidos. (dudosa representatividad). Introducen el azar. El azar me permite
    dimensionar el error aleatorio que cometo.  

    4. Muestreo no probabilístico o por conveniencia

    No siguen el proceso aleatorio, por lo que no conocemos la probabilidad de que un sujeto participe en el estudio. Eso quiere
    decir que los estudios que utilizan muestreo por conveniencia no representan las características del grupo completo, no
    podemos hacer inferencia. Se caracteriza porque el investigador selecciona la muestra siguiendo unos criterios identificados
    para los fines del estudio que realiza.  
    • Muestreo Consecutivo:
    Es el muestreo no probabilístico más utilizado. Si se realiza de manera adecuada, la representatividad de la
    muestra que se obtiene puede ser semejante a la obtenida con un muestreo probabilístico.

    El diseño de muestreo consecutivo consiste en reclutar a todos los individuos de la población accesible
    que cumplan con los criterios de selección durante el periodo de reclutamiento fijado para el estudio. El periodo de
    reclutamiento se fija en función del tamaño muestral deseado y del número de sujetos reclutables cada día.
    Si, por ejemplo, queremos conocer las horas de sueño diarias de los niños recién nacidos, podríamos
    realizar un muestreo consecutivo tomando a todos los recién nacidos que acudan a un centro de salud determinado durante
    un año.

    Sus principales limitaciones vienen determinadas porque el reclutamiento no se realice de manera
    consecutiva, produciéndose interrupciones, por ejemplo, por situaciones de alta demanda asistencial. También puede
    suponer una limitación para el empleo de este tipo de muestreo que el periodo de reclutamiento sea corto y no refleje
    fluctuaciones estacionales del problema que estamos estudiando.
    • Por conveniencia o accidental: 
    Se seleccionan aquellos sujetos más fácilmente accesibles para el equipo investigador o que se presenten
    voluntariamente.

    Si, por ejemplo, el investigador se sitúa en una calle determinada y pregunta a quienes pasan por ella su
    opinión sobre los servicios sanitarios.

    Es una de las técnicas menos sólidas, aunque se utiliza en numerosas ocasiones. Requiere que los
    fenómenos que se investigan sean suficientemente homogéneos en la población puesto que, de no ser así, se puede producir
    un sesgo al no recoger toda la heterogeneidad del fenómeno. 
    • Muestreo intencional o a criterio:
    Es el propio investigador el que selecciona a aquellos sujetos que considere más apropiados para formar la
    muestra.

    El muestreo a criterio se aplica a menudo cuando se desea tomar una muestra de expertos.

    Por ejemplo: Si quisiéramos conocer qué dificultades encuentran los enfermeros para investigar y, para
    ello, utilizásemos una técnica de consenso, como por ejemplo la técnica Delphi, para seleccionar el grupo de expertos que
    participarán, podríamos optar por realizarlo mediante un muestreo a criterio, eligiendo a los sujetos que considerásemos
    más adecuados para formar la muestra.
    Este tipo de diseño de muestreo no ofrece ningún método externo y objetivo para valorar la idoneidad de
    los sujetos seleccionados; no obstante, su utilización puede ofrecer ciertas ventajas en investigaciones como la presentada
    en el ejemplo.

    Estos dos últimos tipos de muestreo no probabilístico (de conveniencia e intencional) son los que más se utilizan en la
    investigación cualitativa. 
    • Muestreo bola de nieve, de avalancha o muestreo en cadena
    En este tipo de muestreo, el equipo investigador elige a un participante que cumpla los criterios  de
    inclusión a quien, además, se le pide que identifique a otros sujetos que también los cumple, de modo que cada uno de los
    sujetos localiza a otros individuos y estos a otros, y así sucesivamente hasta que se alcanza la muestra suficiente.
    Con esta forma de selección de participantes es posible acceder a personas difíciles de identificar, por lo que
    se utiliza frecuentemente cuando se realizan estudios en poblaciones consideradas marginales tales como delincuentes,
    sectas, etc. Es, por tanto, una forma de seleccionar sujetos muy utilizada para la realización de estudios cualitativos, dado
    que es un tipo de muestreo más práctico y eficiente que el muestreo de conveniencia y, además, gracias a la presentación que
    hace el sujeto e incluido en el estudio, resulta más fácil establecer una relación de confianza con los nuevos participantes.
    Sin embargo, puede ocurrir que la muestra sea restringida debido a la reducida red de contactos, lo que
    supone su principal inconveniente. Además la calidad de los nuevos participantes puede estar influida por el hecho de que
    los sujetos que invitaron confiaran en el investigador y realmente desearan cooperar.
    Por ejemplo, si realizamos un estudio para conocer cómo se desarrolla el día a día del cuidador que atiende a
    un familiar dependiente, y a cada cuidador nos dirige hacia otro cuidador que atiende a otra persona dependiente, estaríamos
    utilizando este tipo de muestreo
    • Muestreo teórico
    En el muestreo teórico la selección de los participantes se hace de forma gradual bien porque el propósito
    del estudio es la generación de teoría o porque la integración de la muestra se va decidiendo sobre la marcha con el fin de
    que los datos recogidos permitan capturar la máxima variación posible de significados.
    Por tanto, en este tipo de muestreo, los participantes deben cubrir todas la características, perfiles o patrones
    que pueden influir en los significados del fenómeno estudiado, y que se hayan identificado a partir de la biografía, la
    información obtenida a partir de los informantes o de la experiencia del investigador en el tema objeto de estudio, por
    ejemplo.

    5. Muestreo probabilístico (aleatorio)
    • Muestreo aleatorio simple 
    Consiste en seleccionar al azar (mediante una tabla de números aleatorios o el uso de un programa informático) un número
    n (el tamaño muestral) de elementos de una población. Es conceptualmente el método más sencillo y, sin embargo, el menos
    utilizado, porque requiere contar a priori con un listado con todas las unidades que componen la población accesible, por lo
    que se utiliza cuando la población es pequeña.

    Es el método que produce muestras más representativas, ya que solo interviene el azar. Sin embargo, no es muy utilizado por
    sus desventajas:

    Es necesario contar con un listado enumerado de todas las unidades de población.

    Los sujetos pueden estar muy dispersos por lo que contactar con todos ellos puede resultar costoso en tiempo y
    dinero.

    Algunos subgrupos de población, especialmente los minoritarios, pueden no estar representados si la nuestra es
    pequeña.

    Por ejemplo, imaginemos que vamos a realizar un muestreo aleatorio simple para seleccionar la muestra de un estudio que
    pretende conocer el nivel de burnout en enfermeras de un hospital determinado.

    Necesitamos un listado de todas las enfermeras que trabajan en dicho hospital y numerados consecutivamente a las
    enfermeras (por ejemplo, N = 400).

    El programa informático nos proporciona los sujetos que necesitemos en función de nuestro tamaño muestral n (por
    ejemplo, n = 100). En concreto, nos proporciona los 100 números aleatorios entre el 1 y el 400 que tenemos que seleccionar,
    y cogemos como muestra a las enfermeras que ocupan esos 100 números del listado (por ejemplo: 1, 3, 8, 12, 15, 23, 25,
    32, etc.).

    • Muestreo aleatorio sistemático: 
    Consiste en seleccionar individuos según una regla o proceso periódico.

    Para realizar este tipo de muestreo, debemos realizar los siguientes pasos:

    Calculamos la constante de muestreo (K = N/n à población candidata/ muestra).

    Elegimos un número al azar entre 1 y K, y esa será la primera unidad (r) de la muestra.

    Sumamos la constante K al número r hasta conseguir el tamaño muestral, siendo el primer individuo quien ocupe la
    posición r, el segundo (r+K), el tercero (r+2K), el cuarto (r+3K)... y así sucesivamente.

    Imaginemos que queremos conocer la satisfacción de las mujeres que acuden a las urgencias ginecológicas de un
    determinado hospital y vamos a seleccionar la muestra utilizando un muestreo aleatorio sistemático. Para ello, primero
    calculamos la constante de muestreo tomando como valor de N el número de mujeres atendidas en las urgencias
    ginecológicas durante el año anterior. Imaginemos que N/n = 400/100 = 4 = K. Sabemos que r tiene que ser un número
    entre 1 y 4, por ejemplo, el 3, por tanto, r = 3.

    Así, el primer individuo de la muestra será el que haga el número 3 de orden de asistencia al servicio de urgencias, el
    segundo el que haga el número de orden 7 (3+4); el tercero el que haga el número 11 (3 + [2x4]); el cuarto el que haga el
    número 15 (3 + [3x4]),... hasta llegar al individuo 100 que será el 399 (3+ [99x4]).

    La ventaja de este tipo de muestreo es que no necesitamos tener antes la lista de toda la población, sino que se pueden
    seleccionar los individuos según se vaya formando el listado. 
    • Muestreo estratificado 
    Se utiliza cuando la característica objeto de estudio no se distribuye de forma homogénea en la población y puede afectar a
    los resultados del estudio, pero existen grupos o estratos donde sí se presenta de manera homogénea. Estos grupos tienen
    alguna característica en común pero son mutuamente excluyentes.

    Ventaja: conocer cómo se comporta una variable en cada subgrupo de la población con precisión.
    Desventaja: necesita más información y un listado de cada individuo de la población.

    Por ejemplo, imaginemos que deseamos conocer el nivel de burnout en una población de enfermeros del Hospital
    Universitario 12 de Octubre de Madrid, pero nos interesa también conocer cómo es el nivel de burnout en enfermeros y
    enfermeras. Imaginemos que el personal de enfermería total son 1000 sujetos (N = 1000). Tenemos que tomar una muestra
    de 200 trabajadores mediante un muestreo estratificado según el sexo.
    Para ello dividimos a la población en dos estratos hombres y mujeres, y recabamos información sobre el número de sujetos
    en cada estrato siendo en nuestro ejemplo de 700 mujeres y 300 hombres. Como tenemos que tomar una muestra aleatoria
    simple de cada estrato, necesitamos el listado de los 700 hombres y el de las 300 mujeres y, mediante la utilización de una
    tabla de números aleatorios, tomamos la muestra. 
    • El muestreo por conglomerados: 
    Es una técnica que aprovecha la existencia de grupos o conglomerados en la población que representan correctamente el
    total de la población en relación a la característica que queremos medir. Dicho de otro modo, estos grupos contienen toda la
    variabilidad de la población. Si esto sucede, podemos seleccionar únicamente algunos de estos conglomerados para conocer
    la información de interés del total de la población.
    Podemos ver esta técnica desde otro punto de vista. Mientras que en todas las técnicas vistas hasta ahora las unidades de
    muestreo coinciden con las unidades a estudiar (individuos), en el muestreo por conglomerados las unidades de muestreo son
    grupos de unidades a estudiar (grupos de individuos), algo que puede resultar muy beneficioso en términos de coste.
    A cambio, es habitual obtener una menor precisión al usar esta técnica, causada por falta de heterogeneidad dentro de los
    conglomerados.
    • El proceso de muestreo
    El primer paso para aplicar esta técnica es definir los conglomerados. Se trata de identificar una característica que permite
    dividir la población en grupos disjuntos (sin solapamiento) y de forma exhaustiva (todos los individuos deben estar en un
    grupo), de tal manera que los grupos no difieran entre sí en relación a aquello que queremos medir. Una vez hemos definido
    estos conglomerados, seleccionaremos al azar algunos de ellos para estudiarlos.

    Un criterio habitual para definir conglomerados es el geográfico. Por ejemplo, si queremos estudiar qué proporción de la
    población española  que fuma, podemos dividir el total de la población en provincias y seleccionar algunas de ellas para ser
    estudiadas. Si no tenemos razones de peso para pensar que el porcentaje de fumadores va a cambiar de una provincia a otra,
    esta solución nos permitirá concentrar el esfuerzo de muestreo en un único entorno geográfico. Si el estudio se va a hacer
    mediante entrevistas personales, esto representa un importante ahorro de costes de desplazamientos.

    Una vez definimos los conglomerados, el siguiente paso es seleccionar los conglomerados a estudiar, ya sea mediante un
    muestreo aleatorio simple o sistemático.

    Por último, una vez seleccionados los conglomerados a estudiar, podemos investigar a todos los sujetos que forman parte de
    los mismos, o bien aplicar un nuevo proceso de muestreo dentro del conglomerado, por ejemplo obteniendo una muestra
    mediante muestreo aleatorio simple o sistemático. Si optamos por esta posibilidad, estaremos hablando de un muestreo en
    dos etapas o bietápico: la primera etapa será la selección del conglomerado; la segunda, la de individuos dentro del
    conglomerado. Si por el contrario estudiamos todos los individuos del conglomerado, hablaremos de muestreo por
    conglomerados unietápico.
    • Muestreo estratificado y muestreo por conglomerados
    La idea del muestreo por conglomerados recuerda a la del muestreo estratificado. En ambos casos dividimos la población en
    grupos. Sin embargo, los principios detrás de ambas técnicas son en cierto modo opuestos.

    El muestreo estratificado es especialmente adecuado cuando los grupos (estratos) son muy homogéneos internamente y
    muy diferentes entre sí. En ese caso, conviene asegurar que tenemos representantes en nuestra muestra que provienen de
    todos los estratos. Por el contrario, el muestreo por conglomerados es muy adecuado cuando los grupos en que dividimos
    la población son muy similares entre sí, por lo que no hay gran diferencia entre estudiar individuos de un grupo o de otro.
    Es por ello que pese a que ambas técnicas dividen la población en estratos o conglomerados, el proceso de selección de
    individuos es radicalmente diferente.
    • Ventajas y desventajas del muestreo por conglomerados:
    La principal ventaja: de esta técnica es de tipo operativa: seleccionar un conglomerado a estudiar suele ser más fácil y
    económico que hacer una muestra aleatoria o sistemática. Hemos visto por ejemplo que usar conglomerados geográficos
    puede representar un importante ahorro en desplazamientos de personas.
    Curiosamente, es habitual hacer estudios a través de Internet en los que se sigue pensando en términos de estudiar sólo unas
    zonas geográficas, cuando en realidad a través de Internet no obtenemos ningún beneficio operativo; al contrario, incurrimos
    en mayor riesgo de tener menor precisión por diferencias entre las regiones estudiadas y el resto de la población.
    Esta práctica es una herencia injustificada de técnicas que eran buenas en entrevistas personales, pero que no lo son al usar
    otras metodologías.

    ✘ Como principal inconveniente, al usar muestreo por conglomerados corremos un riesgo importante: que los
    conglomerados no sean realmente homogéneos entre ellos. 

    6. Tamaño de la muestra

    Para determinar el tamaño muestral de un estudio, debemos considerar los diferentes fines para los que se desarrolla un
    estudio:
    • Estimar parámetros poblacionales: a partir de los datos obtenidos en la muestra que ha participado en el estudio
    (proporciones, medias) pretendemos hacer inferencias a valores poblacionales.
    • Contrastar hipótesis: el estudio pretende comparar si existen diferencias en los valores medios o las proporciones
    de las variables a estudio entre los grupos que conforman la muestra.

    Para el Cálculo del tamaño de una muestra para estimar la  media de una población tenemos una fórmula donde:

    , es el coeficiente que corresponde al nivel de confianza prefijado.

    –  Para un nivel de confianza del 95%, α = 0.05, el valor de Zα = 1.96
    –  Para un nivel de confianza del 99%, α = 0.01, el valor de Zα = 2.57

    S2, es la varianza de la distribución de la variable cuantitativa que se supone existe en la población. Este dato lo
    podemos obtener de estudios previos o de un estudio piloto.

    e, es la precisión con la que se desea estimar el parámetro (también fijado por los investigadores)

    Por tanto, para calcular el tamaño muestral necesario para estimar una media necesitamos saber solo el valor de S2, puesto
    que tanto el valor de Zα como el de e es fijado por los investigadores.

    Si no tuviéramos datos acerca del valor aproximado de la varianza, ni fuera posible realizar un piloto, podemos obtener una
    primera aproximación al valor de la varianza a partir de la estimación de la desviación típica, s, (que, como se ha explicado
    ya en un tema anterior, es la raíz cuadrada de la varianza), se podría utilizar una regla práctica que consiste en determinar la
    diferencia entre los valores máximos y mínimos esperables, y dividir esta diferencia entre 4. El número obtenido se
    aproxima al de la desviación típica, s. 
    • El tamaño de la muestra a tomar va a depender de:  
    El error aleatorio (estándar) 

    De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a
    estudiar.  

    De la variabilidad de la variable a estudiar (varianza en la población).  

    El tamaño de la población de estudio. 
    • Cálculo del tamaño de una muestra para estimar la media de una población: 
     
    Z es un valor que depende del nivel de confianza que se quiera dar a los intervalos calculados a partir de estimadores
    de esa muestra (Para confianza de 95% z=1,96 y para nivel de confianza de 99% z=2,58)  

    S2 : es la varianza poblacional  

    E: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la
    variable a estudiar  

    Si tras esta operación se cumple el resultado: N>n (n-1) el cálculo del tamaño muestral termina aquí.  

    Si no se cumple, obtendremos el tamaño de la muestra con esta fórmula: 

    • Para calcular el tamaño de una muestra para estimar una proporción:  



    P es la proporción de una categoría de la variable (por ejemplo, la presencia de la enfermedad, si o no)  

    1-p: es la proporción de la otra categoría  

    Z: es el valor de la confianza  

    N es el tamaño de la población  

    E: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la
    variable a estudiar.

    Si no tuviéramos datos acerca del valor aproximado del parámetro que se está buscando, ni fuera posible realizar un piloto
    para obtener una primera aproximación a dicho valor, se puede adoptar la postura de máxima indeterminación y considerar
    que el parámetro estará presente en la mitad de los sujetos estudiados (lo mismo que se daría por azar), que es el valor que
    requiere mayor cantidad de individuos. Su inconveniente es que estudiaríamos a un número de sujetos superior al necesario
    para garantizar la representatividad de la muestra. 

    No hay comentarios:

    Publicar un comentario