lunes, 13 de abril de 2020

TEMA 4: INTRODUCCIÓN A LA ESTADÍSTICA DESCRIPTIVA

      1. Estadística descriptiva

  • Sirve para describir y resumir datos.
  • Tipo de estadística que normalmente vemos en los medios de difusión.
  • Describe y analiza una determinada población o muestra sin sacar conclusiones de tipo general.
  • Realiza una organización de datos.
  • Resume los datos. Por ejemplo para saber el nivel académico calcula la media del expediente.
  • Permite comparar grupos o variables. Por ejemplo explora si en el grupo anteriormente mencionado el grupo de mujeres tiene mejores expedientes que los chicos.
  • Es preliminar a la inferencia. Si hay estadística inferencial (que explicaré seguidamente) hay antes la descriptiva.

    2. Estadística inferencial

  • Utiliza muestras de datos para sacar conclusiones sobre poblaciones.
  • Se suele encontrar en artículos publicados de investigación científica.
  • Deduce leyes de comportamiento de una población, a partir del estudio de análisis de una muestra.
  • Apoyándose en el cálculo de probabilidad y a partir de los datos muestrales.
    • Estimaciones
    • Decisiones
    • Predicciones
    • Generalizaciones sobre un conjunto mayor de datos.

    3. Variables

La manera más básica de presentar datos es mediante:

  • Tabla de frecuencia: Es necesario una serie de pautas. Tiene columnas y filas.
    • Datos que muestran frecuencia en columnas y las categorías de las variables en las filas.
  • Requisitos
    • Son autoexplicativas.
    • Sencillas y fácil de comprender.
    • Indican lugar, fecha y fuente de información.
    • Título breve y claro.
    • Incluye las unidades de medida en cada cabecera.
    • Indican frecuencias absolutas (número absoluto) y relativas (la proporción).
Ejemplo de tabla cualitativa policotómica.













Ejemplo de tabla cualitativa ordinal.


  • Frecuencia absoluta acumulada: Se suma la frecuencia relativa de primera columna con la de la segunda y se divide por el total y asi en todas , la tercera con la segunda, la cuarta con la tercera..La última tiene que dar el total. A veces nos interesa tener esta información clara para establecer niveles.

Ejemplo tabla de frecuencia cuantitativa discreta.




Puedo simplificar la tabla, en vez de poner 4, 5, 6..., agruparlos en 3 o  más días, así la convierto en ordinal porque ya doy opciones a elegir.
En la discreta no doy opciones en el cuestionario, el usuario escribe el número que quiere.
En la ordinal doy varias opciones y el usuario elige la opción.


Variables contínuas: Tablas de frecuencia

Datos desagrupados de pesos en kg de niños atendidos en la consulta de niño sano. n=40

En esta tabla están ordenados por orden de llegada, lo primero que debemos hacer para construir una tabla de frecuencia es ordenarlos de mayor a menor peso. Una vez ordenados, convierto esta variable en una variable ordinal, creo unos intervalos:
  • Primero defino los intervalos.
  • Defino el extremo de los intervalos.
  • Definición de amplitud o distancia de los extremos.
  • Cálculo de la marca de clase de cada intervalo. (Dato de cada uno de los intervalos).
¿Cómo hacerlo? (Parece complicado pero ya veréis cómo resulta fácil).
  • Primero, calculamos el recorrido o rango Re= xn(peso mayor)-x1(peso menor)= 6,1-3,3= 2,8 (esto quiere decir que hay una diferencia de 2,8 entre el niño que pesa mas con el que pesa menos).
  • Cuando no se nos dice nada de número de intervalos, se obtiene calculando la raíz cuadrada de del número de intervalos observados (n=40). La raíz cuadrada de 40 es 6,32, por lo tanto tenemos 6 intervalos.
  • Cómo el recorrido es 2,8 si lo dividimos por el número de intervalos tendremos la amplitud de cada uno de ellos y así: 2,8/6= 0,46. (Redondeando 0,5)
Tablas de frecuencia de datos agrupados
  • Frecuencias absolutas (fi): Número de individuos que presentan una modalidad, o que están incluidos en un intervalo. 
  • Frecuencias relativas (hi): Proporción de individuos referidos al total que presentan una modalidad o que están incluidos en un intervalo.
  • Frecuencias acumuladas ∑fi ó ∑fh: Número de individuos menores o iguales que la modalidad o el intervalo que estamos estudiando. 
El niño que menos pesaba, pesaba 3,3, por lo tanto, para establecer el rango empiezo con 3,25 para incluir ese niño y voy de 0,5 en 0,5 gramos, así que el rango de mi primer intervalo es de 3,25 a 3,75. La frecuencia absoluta tiene que sumar n. La frecuencia relativa se calcula con la frecuencia absoluta /n.
En este caso, el número absoluto de niños que pesan menos de 4,25 sería 11. El porcentaje de niños que pesan menos de 4,75 es 62,5%.



    



Vídeo de tabla de frecuencias para datos NO agrupados 


    











    


    4. Indicadores

  • En el análisis descriptivo usamos en gran medida los números relativos, que son la expresión de la relación de dos o más cantidades. 
  • La frecuencia absoluta no puede ser un indicador, pues le falta un denominador que la relacione con el tamaño de la muestra o población, y/o el periodo en el que se presentan los eventos.
  • Existen muchos indicadores elaborados en:
    • Instituto Nacional de Estadística. (INE)
    • Instituto Estadística de Andalucía. (IEA)
    • Centro de Investigaciones Sociológicas. (CIS)
Un indicador es una medida de frecuencia de un determinado suceso en una población, que se expresa cómo un número que puede ser:
  • Proporción.
  • Tasa.
  • Razón.
  • Odds.
Ninguno de estos indicadores son sinónimos.
Los indicadores siempre están formados por un numerador y un denominador, es decir, es el resultado del cociente entre dos magnitudes.
     

  5. Proporciones

Medida resumen para variables cualitativas. Consiste en la comparación mediante una división entre un subconjunto y el conjunto al que pertenece (proporción de enfermos entre el número de enfermos + no enfermos).
Ejemplo: Proporción de personas que presentan una enfermedad.
  • El numerador siempre está incluido en el denominador.
  • Adopta valores reales entre 0 y 1, expresando la frecuencia relativa del suceso que medimos.
  • Se suele multiplicar por 100 para una mayor comprensión.
  • Si el suceso que medimos es muy poco frecuente multiplicamos por 1000, por 10000, etc.

      6. Tasas (Rate)

  • Expresa el riesgo de ocurrencia del evento (enfermedad) estudiado.
  • En realidad, es una proporción pero con relación espacial y temporal. El denominador incluye una unidad de tiempo.
  • Consiste en la comparación, a través de una división, entre el número de veces que ocurre un cierto tipo de fenómeno y la población en la que puede ocurrir dicho evento en un tiempo determinado.
  • Normalmente el resultado de la división es una cifra fraccionaria menor a 1, por lo que el resultado suele ser multiplicado por algún múltiplo de 10 (100, 1000, 10000..)

      7. Medidas más empleadas en estadística sanitaria

¿QUÉ QUEREMOS MEDIR?

  • La situación en un punto en el tiempo: Prevalencia.
Describe qué proporción de la población tiene la enfermedad en un punto específico del tiempo. Ej: En un resfriado, la prevalencia de esta semana será una (habrá por ejemplo 7 personas resfriadas) y la semana que viene puede que sea la misma o seguramente sea una distinta.

  • Lo que está pasando durante un periodo de tiempo: Incidencia.
Describe la frecuencia de nuevos casos que ocurren durante un periodo de tiempo. Ej: Incidencias de resfriados en una semana, primero tengo 63 sanos y 7 resfriados y en esa semana aparecen 6 resfriados más, por lo que la incidencia sería 6.




Hay dos formas de medir la incidencia, incidencia acumulada (número de nuevos casos detectados durante el seguimiento que desarrollan la enfermedad) y la densidad de incidencia.

INCIDENCIA

Número de nuevos casos de enfermedad que ocurren en un periodo específico de tiempo, en una población a riesgo de desarrollar la enfermedad.

La incidencia mide cambio: De ausencia a presencia de enfermedad, de vivo a muerto, de no tener una característica a tenerla. Es una medida de riesgo.

  • Incidencia acumulada: Se calcula utilizando un periodo de tiempo en el cual consideramos que todos los individuos de la población están a riesgo de desarrollar la enfermedad . Es la proporción de sujetos que desarrollan la enfermedad, en un periodo de tiempo, del total de la población a riesgo al inicio del periodo.


  • Mide la probabilidad de tener el evento.
  • No tiene unidades. Es una proporción. Se expresa como %.
  • Valores entre 0 y 1.
  • No lleva implícito el periodo de tiempo ⇒ debe expresarse siempre.
Condiciones:

  • No puede haber pérdidas en el seguimiento.
  • Se siguen a todos los sujetos durante en periodo.
  • No permite inferir fuera del periodo de estudio.
Ejemplo: En una población de 15000 personas se quiere conocer cuál es la incidencia e cáncer de mama en las mujeres entre 50 y 64 año. La población está formada por 8500 mujeres, de las cuales el 15% tienen entre 50 y 64 años. De estas, 15 ya han sido diagnosticadas de cáncer de mama. Después de un año de seguimiento activo (mamografía) se detectan 6 casos de cáncer de mama.
¿Cuál es la incidencia acumulada en esta población?

Muy fácil ❗

  • Primero calculamos el 15% de la población (8500 mujeres), que son las mujeres entre 50 y 65 que es el rango de edad que queremos investigar. 
15% de 8500= 1275 mujeres
  • Después le restamos las que ya tienen la enfermedad que son 15 mujeres y nos quedarían 1260 mujeres a riesgo.
1750 - 15= 1260 mujeres.
  • Por último dividimos los casos nuevos de cáncer de mama en 1 año (6 casos) entre las 1260 mujeres de riesgo.
           IA= 6/1260= 0,00476 en un año.
           IA= 0,476 % = 4,8 ‰ en un año.

  • Tasa de incidencia: (densidad de incidencia) Velocidad de aparición de nuevos casos con respecto al tamaño de la población.
  • Con frecuencia o todos los individuos a riesgo (denominador) son seguidos durante el mismo periodo de tiempo.
  • Si se disponen de los diferentes tiempos de observación (``tiempos de riesgo´´) de los individuos se puede calcular la densidad de incidencia o tasa de incidencia.
  • Es necesario escoger e identificar una unidad de tiempo (personas-año, personas-mes, personas -semanas, etc.). 
  • Se puede obtener siguiendo a 500 personas durante un año o a 100 personas durante un mes....
  • No son proporciones, es una tasa instantánea (podemos tener valores mayores de 1).
  • Expresa la “tasa” a la cual ocurren los eventos en sujetos de la población en riesgo en cualquier momento.
  • Expresa velocidad: la tasa de cambio instantáneo o la rapidez con la que se desarrolla el evento en la población.
    • Tasa: datos agregados.
    • Densidad de incidencia: tasa obtenida de datos individuales.
Densidad de incidencia basada en datos individuales

Personas-tiempo: 

  • suma de tiempos que os individuos está a riesgo de desarrollar el evento.
  • Las unidades a utilizar dependen del investigador. Los eventos pocos frecuentes suelen describirse en personas-año o un múltiplo del mismo (100 o 1000 personas año). En cambio, los eventos más frecuentes como la gripe se pueden utilizar personas-semana o personas-día.
Ejemplo: 







     8. Razones o ``Ratios´´

Medida de resumen para variables cualitativas que consiste en la comparación, a través de una división entre dos conjuntos distintos, uno no incluye al otro, es decir, el denominaodor del cociente no incluye al numerador como sucedía en las proporciones.

Ejemplo: En una empresa trabajan 1.200 hombres y 345 mujeres .
La razón de sexos será de 1.200/345, es decir, 3,47 hombres por cada mujer, o 347 hombres por cada 100 mujeres.


9. Oods o Ventaja

El cociente (resultado de la división) entre la proporción o probabilidad (complementaria) de no ocurrencia, se denomina con el término inglés “odds”, empleado en el lenguaje de apuestas.

Forma de cálculo: 

Nº de eventos favorables/ Nº de eventos desfaborables

Ejemplo: Sé que la prevalencia de tabaquismo es de 30%, la probabilidad de tabaquismo es de 0,3
O= 0,3/1-0,3= 0,43
  • No hay un término exacto en español, ni consenso en su traducción. El más aceptado es “ventaja” u “oportunidad”. 
  • La odds representa la frecuencia de un aspecto relativa a los sujetos que no presentan dicho aspecto, por lo que es un tipo especial de razón. 
  • Sus valores van desde 0 (eventos que nunca ocurren) hasta el infinito (eventos que ocurren siempre).

     10. Medidas de asociación 

Las tres más importantes que hay son:
  • Razón de prevalencia:  Estudios descriptivos de corte transversal. Realiza una ratio entre dos prevalencias (proporciones). 
  • Riesgo relativo o Razón de riesgo: Estudios de seguimiento o estudios experimentales. Realiza una ratio entre dos incidencias acumuladas (proporciones) o dos densidades de incidencia (tasas).
  • Oods ratio: Estudio de casos y controles. Realiza un ratio entre dos medidas Oods o ventajas.

Estudios descriptivos: Razón de prevalencia

Tengo una proporción de expuestos al tabaquismo (verde) y un grupo de personas no expuestas (azul). Voy a calcular la prevalencia de los no expuestos (cuales tienen enfermedades respiratorias). Ahora calculo la prevalencia entre los fumadores (cuantos hay enfermos y cuantos sanos). La razón de prevalencia consiste en dividir entre las dos prevalencias (prevalencia de expuestos entre la de no expuestos).

Es la razón entre la proporción de enfermos en los expuestos y la proporción de enfermos entre los no expuestos.Cuantifica una estimación entre el factor de exposición y la enfermedad.

¿Cómo lo interpreto?

Si la razón de prevalencia es 1, la enfermedad se distribuye por igual entre los fumadores y los no expuestos, lo que me llevaría a que la magnitud de asociación es baja o nula (no hay riesgo). Si me da 7 por ejemplo, significa que hay 7 veces más enfermos entre los fumadores que entre los no fumadores. Si nos da 0.2 significa que la prevalencia entre fumadores es mucho más baja que entre los no fumadores, lo que significaría que no fumar sería el factor de riesgo.

Estudios de seguimientos y experimentales: Razón de incidencia, Razón de riesgos o Riesgo Relativo.

Tenemos los expuestos y los no expuestos, pero voy a observar en el tiempo quien desarrolla y quien no desarrolla la enfermedad.

Nº de casos nuevos/ Nº total de individuos o expuestos.

La razón de riesgo o riesgo relativo es el cociente entre incidencia expuestos/incidencia no expuestos.

Si me da un valor por encima de 1, la enfermedad o el suceso es mayor en los expuestos. Si da por debajo de 1, hay más razón de riesgo entre los no expuestos que entre los expuestos.

Estudio de casos y controles: Odds Ratio o Razón de ventaja

Partimos de la enfermedad y busco si hay antecedentes que puedan provocar la enfermedad.

NC: Controles o no casos.
C: Casos



Por último, varios vídeos de apoyo 😊














No hay comentarios:

Publicar un comentario