Revista Pediatría Electrónica

Con anterioridad (1) hemos señalado la importancia que tiene el buen conocimiento y manejo de los programas estadísticos disponibles para el investigador clínico, particularmente en los aspectos de las posibles exigencias, fallas o defectos indispensables de conocer.

En años posteriores al desarrollo de dispositivos PDA, han aparecido programas estadísticos que pueden ser cargados sin dificultad, no pudiendo decir lo mismo de su empleo. Los hay complejos y sencillos, pero ambos tienen en común el dar la sensación al usuario que porta una calculadora manual como tantas, donde usted no espera tener que verificar ciertas condiciones de operación antes de tomar como seguros los resultados que arroja cada programa.

Objetivo

Poner en operación crítica un programa estadístico de uso relativamente frecuente en dispositivos PDA, analizando los resultados que proporciona ante situaciones que podrían ser consideradas comunes y otras no tanto.

Material y método

Puesta en función del programa “Palm Stat v.1.1” ante algunas situaciones que con frecuencia el investigador clínico enfrenta. Detectar el comportamiento del programa y comparar los resultados obtenidos con el conocimiento generalmente aceptado sobre el respectivo asunto estudiado.

Resultados

1.- Prueba de Ji cuadrado:

a) Sólo realiza la prueba para tablas de 2 x 2 y no de 2 x n.
b) No indica la inconveniencia de practicar la prueba si hay un valor esperado inferior a 5 o hay una o mas casillas con un cero.
c) Aunque la tabla de 2 x 2 contenga dos valores encontrados iguales a cero, efectúa el cálculo e indica valores de Ji cuadrado con y sin corrección de Yates, agregando los resultados de la misma según la prueba de Fisher-Irwin.

2.- Riesgo relativo (RR) y Razón de ventaja (OR):

a) En la tabla de 2 x 2 señala en la parte pertinente “Enfermedad” y donde debería indicar “Exposición” aparece “Riesgo” lo que claramente significa otra cosa.

b) Si en la tabla respectiva hay un cero en posición “a” o “c” indica que el RR es cero e igualmente el OR. Aquí hay que destacar que desde hace años está descrito el procedimiento para estimación de OR y su intervalo de confianza con ceros. (2) Por otra parte, depende de la posición del cero si el resultado por el procedimiento usual sería cero o infinito. El programa “Ebmcal”, también para PDA, resuelve el problema de casillas con ceros sumando a todas arbitrariamente la también arbitraria cifra de 0,50.

3.- Pruebas diagnósticas:

a) El programa genera los índices fijos y variables de una prueba diagnóstica pero tiene el muy serio inconveniente de no entregar los intervalos de confianza de tales índices. Esto es de extrema gravedad porque el lector no advertido puede creer que una prueba diagnóstica tiene sensibilidad de 100% tanto en un estudio sobre un número de verdaderos afectados de 20 como de 200, en circunstancias que en el primer caso el intervalo de confianza del 95% de 20/20 es 100% hasta 80% y en el segundo 200/200 es 100% hasta 98%, situaciones ambas absolutamente diferentes, entonces.

En la misma pantalla de prueba diagnóstica, se agrega, bajo el título “Concordancia”, la prueba de Ji cuadrado de Mc Nemar. Aquí es difícil captar la intención de esta parte ya que el estadístico de concordancia es el índice kappa cuyo cálculo estaría centrado en las casillas “a” y “d” así como en el efectivo de la muestra “a + b + c + d”. Proporciona información acerca del grado de acuerdo - en éste caso - entre el gold estándar y la prueba diagnóstica. Totalmente distinta es la situación de la prueba de Mc Nemar. Ésta, realmente está dirigida a resaltar las ocasiones de discrepancia, por lo que sólo toma en consideración las cifras de las casillas “b” y “c”, sin preocuparse por el total de la muestra. Esto, porque se limita a responder a lo siguiente: Dado el total de discrepancias (b+c) ¿cuál es la probabilidad que el azar explique la forma como se distribuyó en las casillas “b” y “c”?

4.- Análisis de Varianza. ANOVA:

En la comparación de promedios de más de dos grupos efectúa análisis de varianza, suponiendo que se cumplen los requisitos que tal prueba exige. Los requisitos de la prueba son:

a) Los valores de la variable dependiente tienen una distribución normal dentro de cada grupo. Ello quiere decir, en cada nivel del factor o variable independiente.
b) La varianza de la población es la misma en cada grupo.
c) Las observaciones son independientes y constituyen una muestra aleatoria. (3)

Debemos enfatizar que las discusiones que normalmente siguen, referentes hasta que medida se pueden violar estos requisitos, es útil conocerlas pero en lo posible es del todo deseable cumplir con las exigencias que, en todo caso, constituyeron base para el diseño de la prueba.
El programa recibe los datos y no hace mención alguna de los requisitos ni realiza ningún cálculo relacionado.

En un ejemplo tendríamos:

Grupo	n	Promedio	DE
1	9	40,11	6,8088
2	9	32,88	7,9441
3	9	41,00	5,6124

Los decimales, que están connotados con comas, en el programa deben ser escritos con puntos.

El programa establece que ANOVA tiene un valor de “p” asociado de 0,036, de modo que habría diferencia significativa entre promedios (por Epi6 se obtiene 0,034). Por prueba “t” de Bonferroni se comparan los promedios para verificar entre cuales existe diferencia de importancia estadística. Se obtiene que no hay ninguna comparación asociada con un valor de “p “ inferior a 0,05 ya que:

Grupo 1 vs. grupo 2 p = 0,104
Grupo 2 vs. grupo 3 p = 0,057
Grupo 1 vs. grupo 3 p = 1,00 y este valor no corresponde. Indicaría que de cada 100 veces que se repitiera la experiencia, en las 100 oportunidades el azar explicaría un hallazgo como el mostrado.

Por otra parte, no resulta concordante que el análisis de varianza indique un resultado “significativo” en términos globales pero no la comparación de los promedios individuales.

Cabe destacar que el programa - sin advertencia alguna - acepta el empleo de “comas” cuando espera “puntos” para expresar decimales. En tales circunstancias genera un resultado de ANOVA - con los datos ya analizados pero empleando comas - asociado a “p”= 0,968 y luego, en comparación de parejas de promedios por Bonferroni, para todas ellas origina un valor de “p”= 1,000.
Otros programas rechazan el signo que no correspondería (Ej. Epi 6).

Comentario y Conclusiones

Definitivamente los programas o paquetes bioestadísticos son una herramienta de gran utilidad para el investigador clínico. Representan un gran ahorro de tiempo para el usuario pero es indispensable tener presente que no ahorran pensamiento sobre el problema que será abordado con ellos. El médico que pretenda sacar la ventaja que ellos ofrecen debe estar al tanto que requiere saber al menos dos cosas: la primera, son los conceptos básicos de bioestadística que subyacen en cada rutina computacional y en segundo término, debe estar interiorizado con las características particulares del programa a emplear

Referencias

Duffau G. Estimación del tamaño muestral en estudios biomédicos empleando diferentes programas de computación.
Valenzuela C. Dos soluciones para estimación de odds ratios con ceros. Rev Med Chile 1993; 121: 1441-1444.
Dawson-Saunders B., Trapp R. Bioestadística médica Editorial Manual Moderno, México D.F. 1993:143-166