martes, 22 de mayo de 2012

PRUEBA DE ANOVA

El análisis de varianza (anova) es uno de los métodos estadísticos más utilizados y más elaborados en la investigación moderna. El análisis de la varianza, no obstante su denominación se utiliza para probar hipótesis preferentes a las medias de población más que a las varianzas de población. Las técnicas anovas se han desarrollado para el análisis de datos en diseños estadísticos muy complicados.
Veamos cuando se tienen puntuaciones de CI en 5 muestras de adulto.

Grupos 1 2 3 4 5
102 103 100 108 121
s2 15 12 12 14 10

Se aprecia que varían las medias de los grupos. Esta variación de las medias de grupo a partir de la media total o global de todos los grupos, se conoce como varianza intergrupal, la variabilidad promedio de las puntuaciones en cada grupo se denominan varianza intergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclan en forma adecuada. Puede desentenderse por el momento cuáles puntuaciones pertenecen a que grupos. Estas puntuaciones varían. La variación de estas puntuaciones individuales se denominan variación total. El meollo del análisis de varianza radica en el siguiente hecho: si los grupos son muestras aleatorias provenientes de la misma población, las varianzas, intergrupal e intragrupal, son estimaciones insesgadas de la misma varianza poblacional. Se prueba la significación de la diferencia de los 2 tipos mediante la prueba F.

Supuestos que fundamentan la aplicación de análisis de varianza.
Cuando se utiliza la técnica anova se deben cumplir los siguientes supuestos:
  1. Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir de poblaciones normalmente distribuidas.
  2. La varianza de los subgrupos debe ser homogénea.
  3. Las muestras que constituyen los grupos deben ser independientes. Amenos de que las muestras sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razón de las varianzas inter e intra no adoptará la distribución F.


Ejemplo:
Se busca determinar la influencia de la orientación psicológica en los métodos de crianza de los niños, mediante una comparación entre liberales y conservadores.
Queremos hacer varias comparaciones que presenten varios puntos en la escala psicológica, podríamos comparar la permisibilidad en la crianza de los niños de conservadores, liberales, radicales y moderados.

S X2= 10 + 8 + 13 + 15 = 56
S XT = 6 + 8 + 7 + 7 = 28
T = 7 / 4 = 1.75

Fórmula: Suma total de todos los cuadrados.
N = número de datos de todos los grupos.
n = número de datos de un grupo.

Cálculo de:
SCinter = S ( - T)2 n
S x1 = 6 S x12 = 10 = 1.5 n = 4
S x2 = 8 S x22 = 18 = 2 n = 4 S xT = 28
S x3 = 7 S x32 = 13 = 1.75 n = 4 S T = 1.75
S x4 = 8 S x42 = 15 = 1.75 n = 4 S XT2 = 56

Grupo 1: (1.5 - 1.75)2 (4) = (-0.25)2 (4) = 0.6 (4) = 0.24
Grupo 2: (2 - 1.75)2 (4) = (0.25)2 (4) = 0.6 (4) = 0.24
Grupo 3: (1.75 - 1.75)2 (4) = (0)2 (4) = 0
Grupo 4: (1.75 - 1.75)2 (4) = (0)2 (4) = 0
SCinter = 0.24 + 0.24 + 0 + 0 = 0.48 Variación que existe entre los grupos.

Cálculo de:


SCintra = 1 + 2 + 0.75 + 2.75 = 6.5

Comprobación
SCT = SCinter + SCintra
SCintra = SCT - SCinter
SCinter = 0.48 = 0.5
SCintra = 6.5
SCT = 6.5 + 0.5 = 7
SCintra = 7 - 05 = 6.5

Calculamos la media cuadrática (cuadrado medio)
Existe una media de variación conocida como la media cuadrática o varianza, que obtenemos dividiendo SCintra o SCinter mediante los grados de libertad apropiados.
Cálculo de la media cuadrática:
glinter = K - 1 = 4 - 1 = 3
glintra = NT + K = 16 - 4 = 12



PRUBA DE t PAREADA

 Pruebas pareadas para variables cuantitativas

Si estamos comparando un resultado cuantitativo en dos grupos de datos, a partir de muestras extraídas de forma aleatoria de una población normal, siendo nA el tamaño de la primera muestra y nB el de la segunda, la cantidad:
(donde son las medias muestrales, las correspondientes medias poblacionales, s la desviación típica muestral conjunta), se distribuye como una t de Student con nA+nB-2 grados de libertad, proporcionándonos una referencia probabilística con la que juzgar si el valor observado de diferencia de medias nos permite mantener la hipótesis planteada, que será habitualmente la hipótesis de igualdad de las medias (por ejemplo igualdad de efecto de los tratamientos), o lo que es lo mismo nos permite verificar si es razonable admitir que a la luz de los datos obtenidos en nuestro experimento.
Veamos un pequeño ejemplo. Se efectuó un estudio para comparar dos tratamientos en cuanto a la mejoría en la salud percibida, determinada mediante un cuestionario de calidad de vida en pacientes hipertensos. Se asignaron 10 pacientes de forma aleatoria a cada uno de los grupos de tratamiento, obteniéndose los siguientes resultados:
Tabla 1
Trat. A 5.2 0.2 2.9 6.3 2.7 -1.4 1.5 2.8 0.8 5.3
Trat. B 6.0 0.8 3.2 6.2 3.8 -1.6 1.8 3.3 1.3 5.6

Si calculamos el valor de t según la fórmula anterior obtenemos:
Tabla 2
Dif.medias 0.41
Err.est.dif. 1.11
t Student 0.37
gl 18
P 0.7165
Intervalo 95% para la dif. de medias -1.93 a 2.75
Tabla 3

Trat. A Trat. B
Media 2,63 3,04
Desv.Típ. 2,45 2,52

Figura 1
De acuerdo con esos resultados, al ser la probabilidad obtenida alta, vemos que no hay razones para rechazar la hipótesis de que no existe diferencia entre los grupos (P= 0.7165), aceptamos que las medias son iguales, lo que podemos también comprobar de forma gráfica, si representamos cada serie de valores en dos posiciones del eje X, obteniendo un gráfico como el representado en la figura 1.
Ahora bien, sabemos que dos variables que influyen en los resultados de los cuestionarios de calidad de vida percibida son la edad y el sexo de los pacientes. Al asignar de forma aleatoria los pacientes a cada grupo de tratamiento esperamos que las variables que puedan influir en el resultado, diferentes del propio tratamiento asignado, se distribuyan en ambos grupos de forma parecida; pero cuando de antemano conocemos que algunas variables sí influyen en el parámetro objeto de estudio, podemos controlarlas en el diseño para evitar que puedan afectar al resultado, sobre todo cuando vamos a trabajar con una muestra pequeña.
Así en nuestro ejemplo podemos dividir los pacientes dentro de cada sexo en varios grupos de edad y buscar parejas de pacientes con el mismo sexo y con edades similares. Dentro de cada pareja, seleccionada con ese criterio (igual sexo y edad similar), asignamos de forma aleatoria cada uno de los tratamientos.
Esto es lo que precisamente habíamos hecho en el estudio de la tabla 1: habíamos dividido la edad en 5 categorías y seleccionado 5 parejas de hombres y 5 de mujeres en cada grupo de edad. Dentro de cada par hemos asignado de forma aleatoria el tratamiento A o el B a cada uno de sus elementos.
En este caso hemos "diseñado" un estudio, en el que mediante el emparejamiento estamos controlando (o bloqueando) la influencia de las variables edad y sexo.
Ahora en el análisis estadístico de los datos, para tener en cuenta el diseño, hay que comparar cada pareja de valores entre sí.
Pero antes de hacer un análisis estadístico vamos a representar gráficamente el nuevo planteamiento.
Si calculamos las diferencias entre el valor del elemento B y el elemento A y las representamos gráficamente obtenemos la figura 2, donde hemos dibujado una línea horizontal en el valor 0, que corresponde a la igualdad entre los tratamientos.
Figura 2
Vemos que el panorama cambia radicalmente con respecto a la figura 1, ya que ahora la mayor parte de los puntos están por encima de esa línea de igualdad de efecto, reflejando una mayor puntuación por término medio en el tratamiento B que en el A dentro de las parejas.
En la siguiente tabla vemos los resultados del análisis estadístico, muy diferentes de los obtenidos en la tabla 1 en la que no se tenía en cuenta el tipo de diseño:
Tabla 4
Dif. B - A Resultado
Media 0,410
Desv.Típ. 0,387
Tamaño 10
Err.est.dif. 0,122
t Student 3,349
gl 9
P 0,0085
Int. conf. 95% para la media 0,133 a 0,687

Ahora hemos calculado la media de las diferencias d, y su desviación típica sd en las n parejas. El error estándar de la media de las diferencias es:
Por lo que el valor de t será ahora
que en la hipótesis de igualdad -media de las diferencias igual a cero-, se distribuye como una t de Student con n-1 grados de libertad.
Aunque perdemos grados de libertad, siendo por ese lado la prueba menos potente, sin embargo al disminuir la variabilidad se aumenta la eficiencia de la prueba. No siempre será tan dramática la diferencia entre ambos planteamientos, ya que en este caso se trata de datos preparados y en la realidad las cosas no suelen salir tan redondas.
Cuando efectivamente influye en el resultado la variable que nos ha llevado a decidir utilizar un diseño pareado, las medidas dentro de cada pareja estarán correlacionadas, por lo que siempre podemos comprobar a posteriori si esto es así, calculando el coeficiente de correlación, que debiera ser positivo y de cierta entidad.

El concepto de prueba pareada se puede extender a comparaciones de más de dos grupos y hablaremos entonces de bloques de m elementos (tantos elementos por bloque como grupos o tratamientos), siendo por tanto una pareja un caso particular de bloque de 2 elementos. Hablaremos de este tipo de diseños más adelante, cuando dediquemos algún artículo al análisis de la varianza, que es la prueba que se utiliza para comparar más de dos grupos. En estas técnicas de formación de bloques el investigador deja de ser un mero observador, para pasar a "diseñar" el estudio o experimento, y es una metodología de gran utilidad en muchos tipos de trabajos de investigación en diversas áreas, desde la agricultura donde se inició, a la medicina, biología, e ingeniería. El fundamento en el que se basan es en suponer que el bloque es más homogéneo que el conjunto, por lo que restringiendo las comparaciones entre tratamientos al interior de los bloques se espera obtener una mayor precisión.
Hay que destacar que no siempre el diseño pareado es el más efectivo, ya que como se apuntó anteriormente hay una disminución en los grados de libertad que debe ser compensada con la reducción de varianza para que la prueba resulte más efectiva. Hay muchas situaciones en las que las observaciones "próximas" están relacionadas negativamente, de tal manera que las comparaciones entre parejas son entonces menos parecidas que otras comparaciones.
En los estudios clínicos el emparejamiento se utiliza habitualmente más que por razones de eficiencia para "aumentar" la validez de las inferencias obtenidas, mediante el control de posibles variables confusoras. Por ello se desaconseja, en el criterio para emparejar, la utilización de variables sobre las que no estemos seguros de su influencia en el resultado de interés.

 Pruebas pareadas para variables cualitativas

El concepto de diseño pareado se puede aplicar también al análisis de datos cuyo resultado es una categoría. Veamos la situación más sencilla, para el caso de que la variable cualitativa sea dicotómica o binaria, con sólo dos posibles repuestas. Este planteamiento es habitual en algunos estudios de casos-controles, en los que cada caso se empareja con un control de acuerdo con un criterio determinado, y en el que se trata de valorar la frecuencia de la presencia de un factor de riesgo. Podemos representar los resultados en una tabla de la siguiente forma:


Controles


Factor presente Factor ausente
Casos Factor presente a b a+b
Factor ausente c d c+d


a+c b+d n
donde en cada celda se refleja el número de parejas; así a es el número de parejas en las que el factor de riesgo está presente tanto en el caso como en el control, y d es el número de parejas en las que ni en el caso ni el control se da el factor de riesgo. Es evidente que en esas dos celdas hay concordancia entre lo observado en el caso y lo observado en el control, dentro de la pareja, y que por tanto no afectarán al resultado en cuanto a diferencias entre casos y controles, siendo sólo los pares discrepantes b, c los que aportan información en ese sentido.
La proporción de controles que presentan el factor de riesgo es
y la proporción de casos con el factor de riesgo
La diferencia de proporciones en cuanto a presencia del factor de riesgo entre casos y controles es:
donde como ya anticipábamos las cantidades a y d no intervienen. El error estándar de esa diferencia viene dado por:
El cuadrado del cociente entre la diferencia y su error estándar, se distribuye bajo la hipótesis de igualdad como una chi² con 1 grado de libertad, y el contraste se conoce como prueba de McNemar:
Si se aplica la corrección de continuidad (recomendable sobre todo si el tamaño de muestra es pequeño o hay celdas con frecuencias pequeñas), la fórmula anterior se modifica ligeramente:
Para estimar el odds ratio en este tipo de diseño se utiliza la fórmula:
donde de nuevo solo intervienen los pares con desacuerdo.
El error estándar de este odds ratio se calcula como
En una primera impresión puede sorprendernos la fórmula para el cálculo del odds ratio, pero su obtención es sencilla si pensamos que en realidad cada pareja es un estrato con 2 elementos, y que no debemos combinar las tablas obtenidas en cada estrato juntándolas sin más. Si aplicamos para el cálculo del odds ratio combinado el método habitual conocido como de Mantel-Haenszel obtendremos la fórmula anterior.

PRUEBA DE t DE STUDENT

t de Student para dos muestras independientes


Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado para comparar dos grupos independientes de observaciones con respecto a una variable numérica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1, correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada una de las dietas.
Como ya se ha adelantado, la aplicación de un contraste paramétrico requiere la normalidad de las observaciones para cada uno de los grupos. La comprobación de esta hipótesis puede realizarse tanto por métodos gráficos (por medio de histogramas, diagramas de cajas o gráficos de normalidad) como mediante tests estadísticos5 (test de Kolmogorov-Smirnov, test de Shapiro-Wilks). Un número suficiente de observaciones (digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la utilización del mismo test. Así mismo, este tipo de metodología exigirá que la varianza en ambos grupos de observaciones sea la misma. En primer lugar se desarrollará el test t de Student para el caso en el que se verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean similares.
Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede realizarse en términos de un único parámetro como el valor medio (Figura 1a), de modo que en el ejemplo planteado la hipótesis de partida será, por lo tanto:
H0: La media de peso inicial es igual en ambos grupos
Se denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigirá que coincida el número de observaciones en cada uno de los grupos que se comparan, de modo que en el ejemplo n=40 y m=35.
El t test para dos muestras independientes se basa en el estadístico:
                (1)
donde e denotan el peso medio en cada uno de los grupos:
y , las cuasivarianzas muestrales correspondientes:
Con lo cual, en este caso particular, el valor utilizado para el contraste será:
Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Student con n+m-2 grados de libertad. De ser así, el valor obtenido debería estar dentro del rango de mayor probabilidad según esta distribución (Figura 2). Usualmente se toma como referencia el rango de datos en el que se concentra el 95% de la probabilidad. El valor-p que usualmente reportan la mayoría de paquetes estadísticos no es más que la probabilidad de obtener, según esa distribución, un dato más extremo que el que proporciona el test. Como ya se dijo, refleja también la probabilidad de obtener los datos observados si fuese cierta la hipótesis inicial. Si el valor-p es muy pequeño (usualmente se considera p<0.05) es poco probable que se cumpla la hipótesis de partida y se debería de rechazar. La región de aceptación corresponde por lo tanto a los valores centrales de la distribución para los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de modo que no existe evidencia estadística de que el peso medio en ambos grupos sea diferente. En la Tabla 2, se determina los grados de libertad (en la primera columna) y el valor de α (en la primera fila). El número que determina su intersección es el valor crítico correspondiente. De este modo, si el estadístico que se obtiene toma un valor mayor se dirá que la diferencia es significativa.
Otro modo de obtener esta misma información es mediante el cálculo de intervalos de confianza para la diferencia de la respuesta media en ambos grupos. A mayores, el intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa diferencia a partir de la muestra, permitiendo valorar tanto la significación estadística como la magnitud clínica de esa diferencia6. En el caso que nos ocupa, el intervalo de confianza vendrá dado como:
donde denota el valor que según la distribución t de Student con n+m-2 grados de libertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una seguridad del 95% para la diferencia de peso viene dado por:
que expresa en definitiva un rango de valores entre los que se puede encontrar el valor real de la diferencia entre los pesos de ambos grupos. Proporciona además la misma información que obteníamos del contraste estadístico. El hecho de que el valor cero pertenezca al intervalo indica que no se dispone de evidencia para concluir que el peso sea distinto en ambos grupos.
A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace más próxima a la de una variable Normal estándar. De este modo, en algunos textos se opta por utilizar esta distribución para realizar la comparación de medias. Aunque esta aproximación es correcta para muestras suficientemente grandes, ambos métodos proporcionan en este caso resultados prácticamente idénticos, por lo que resulta más simple utilizar, independientemente del tamaño de la muestra, la misma metodología a partir de la distribución t. El mismo planteamiento podría utilizarse en el caso de varianzas distintas o de muestras apareadas.


Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos dietas alimenticias.
Dieta Peso inicial Peso final Dieta Peso inicial Peso final
A
94,07
86,59
B
88,02
84,12
A
96,79
93,08
B
88,22
86,13
A
92,15
87,85
B
103,45
101,21
A
92,30
86,83
B
82,94
79,08
A
96,50
92,70
B
89,71
86,19
A
83,11
76,80
B
94,83
91,93
A
91,16
83,40
B
81,93
78,97
A
90,81
86,74
B
83,41
78,89
A
81,37
77,67
B
73,59
69,76
A
89,81
85,70
B
108,47
104,20
A
84,92
79,96
B
72,67
70,01
A
84,43
79,80
B
96,84
93,66
A
86,33
81,15
B
88,48
87,00
A
87,60
81,92
B
89,57
87,24
A
81,08
76,32
B
85,22
82,09
A
92,07
90,20
B
103,76
102,24
A
81,14
73,34
B
87,84
84,66
A
96,87
93,58
B
91,50
88,95
A
99,59
92,36
B
93,04
88,73
A
83,90
77,23
B
92,14
88,07
A
89,41
85,45
B
85,26
81,36
A
85,31
84,59
B
89,42
86,64
A
89,25
84,89
B
92,42
88,99
A
93,20
93,10
B
93,13
89,73
A
89,17
86,87
B
80,86
77,81
A
93,51
86,36
B
88,75
85,93
A
88,85
83,24
B
95,02
91,90
A
88,40
81,20
B
92,29
91,28
A
82,45
77,18
B
89,43
87,22
A
96,47
88,61
B
93,32
89,77
A
99,48
94,67
B
92,88
89,38
A
99,95
93,87
B
89,88
88,00
A
100,05
94,15
B
82,25
80,81
A
87,33
82,17
B
88,99
86,87
A
87,61
86,01
B
82,07
79,74
A
89,28
83,78
A
89,72
83,56
A
95,57
89,58
A
97,71
91,35
A
98,73
97,82



Figura 1. Comparación de dos poblaciones normales
a) Poblaciones normales con igual varianza y medias distintas


Tabla 2.  Distribución t de Student

Dos muestras independientes con Varianza distinta



El caso en el que se dispone de dos grupos de observaciones independientes con diferentes varianzas, la distribución de los datos en cada grupo no puede compararse únicamente en términos de su valor medio (Figura 1b). El contraste estadístico planteado en el apartado anterior requiere de alguna modificación que tenga en cuenta la variabilidad de los datos en cada población. Obviamente, el primer problema a resolver es el de encontrar un método estadístico que nos permita decidir si la varianza en ambos grupos es o no la misma. El F test o test de la razón de varianzas viene a resolver este problema. Bajo la suposición de que las dos poblaciones siguen una distribución normal y tienen igual varianza se espera que la razón de varianzas:
siga una distribución F de Snedecor con parámetros (n-1) y (m-1).
Supongamos que en el ejemplo anterior se desee comparar la pérdida de peso en los sujetos sometidos a cada una de las dos dietas. La aplicación del estadístico (1) no será factible, ya que las varianzas en ambos grupos son sustancialmente distintas. En este caso la razón de varianzas es de 3.97 / 0.80 = 4.96, valor que se debe comparar con una distribución F39,34. El valor-p asociado será p<0.01, siendo muy poco probable que las observaciones provengan de poblaciones con igual variabilidad.
En este tipo de situaciones, donde no se debe aplicar el contraste basado en (1), podemos utilizar una modificación del t test para el caso de varianzas desiguales, conocido como el test de Welch7 basada en el estadístico:
que, bajo la hipótesis nula seguirá una distribución t de Student con un número f de grados de libertad que dependerá de las varianzas muestrales según la expresión:
La técnica para realizar el contraste es análoga a la vista anteriormente cuando las varianzas son desconocidas e iguales. Por ejemplo, en el caso planteado, la pérdida media de peso para los individuos en cada una de las dietas fue de e con las variabilidades anteriormente expresadas. Esto conduce a un valor del estadístico de t=5.58 a relacionar con una distribución t de Student con aproximadamente 56 grados de libertad. El valor-p resultante es, por lo tanto, p<0.001 con lo cual podemos rechazar la hipótesis de partida y concluir que la reducción de peso experimentada es distinta según la dieta que se siga.
Al igual que en el caso anterior, podrá optarse por calcular el correspondiente 95% intervalo de confianza para la diferencia de medias dado por: