TESIS DE MAESTRIA EN ESTADÍSTICA APLICADA

 

Gabriela  Susana  Boggio*

 

Directora: Elsa  Clotilde  Servy*

 

EVALUACIÓN DE CRITERIOS DE BONDAD DE AJUSTE PARA MODELOS LOGIT MARGINALES**

 


PREMIO  PROVINCIAL  2008 A  TESIS  DE  MAESTRÍA***



Resumen. En este trabajo se estudia el comportamiento de medidas de bondad de ajuste de modelos logit marginales para datos binarios correlacionados. Algunas de ellas son de carácter descriptivo, basadas generalmente en la noción de pérdida incurrida al usar un modelo aproximado para describir la realidad, y otras constituyen estadísticas globales de bondad de ajuste. En general son extensiones naturales de las disponibles para el caso de modelos logit clásicos, es decir bajo el supuesto de independencia de las observaciones. Para la evaluación de estas medidas se realiza un estudio por simulación mediante la utilización de un algoritmo simple de generación  de  datos  con  estructura  de  asociación intra-unidad  constante.  Entre las estadísticas  de  tipo  descriptivo  se  destaca  el  buen comportamiento  de  la extensión del criterio de Akaike, la cual constituye una medida útil para seleccionar el mejor subconjunto de covariables a incluir en el modelo. En lo que se refiere a los tests globales de bondad de ajuste, la extensión de la prueba chi cuadrado de Pearson y la basada en la suma no ponderada de residuos son las que presentan en general  mejor comportamiento en cuanto al control del error tipo I, si bien la potencia  resulta  baja.

 

 

Palabras  clave:  Datos  binarios  correlacionados;  Modelos  marginales;  Bondad  de ajuste

                         


 

Abstract. This  thesis  presents  a  study  about  the  performance  of  goodness  of  fit statistics for marginal logit models with correlated binary data. Some of them are descriptive measures,  usually  based  on  the concept  of  information  lost  when  an approximating model is used to describe the reality, while others are global goodness of  fit  statistics.  In general  they  are  natural  extensions  of  those  available  for conventional logit models, i.e. under the assumption of independent binary data. In order to evaluate these measures, a simulation study is carried out using a simple data  generation  algorithm  with  exchangeable correlation structure.  The Akaike criterion  extension  stands  out  among  the  descriptive statistics  and  it  is  also  a measure useful to select the best covariable subset to include in the model. Among the  global  goodness  of  fit statistics,  the  extensions  of  the  Pearson statistic  and the unweighted sums of squares statistic have the best behavior in terms of type I error rates but they have low power.

 

Key words: Correlated binary data; Marginal models; Goodness of fit

 


 

1.  Introducción

 

Una preocupación recurrente por parte de los investigadores es hallar el modelo estadístico que  mejor represente  la  información  proporcionada  por  los  datos,  ya que todas las inferencias que se realicen a posteriori se basan en la veracidad de ese modelo. La búsqueda de un buen modelo se complica aún más cuando no se cumple  el  supuesto  de independencia  entre  las  observaciones.  En  estos  casos han sido diseñadas nuevas estrategias, entre ellas el ajuste de los denominados modelos marginales, el cual puede realizarse a través del método de las ecuaciones de  estimación  generalizadas  (GEE).  Esta metodología  no requiere  supuestos distribucionales para las observaciones, pero al no estar disponible su verosimilitud completa también deben modificarse los criterios de bondad de ajuste con que los modelos son evaluados.

 

El objetivo de esta tesis es estudiar el comportamiento de criterios de bondad de ajuste de modelos logit marginales para datos binarios correlacionados, abarcando medidas  de carácter  descriptivo  y  pruebas estadísticas,  mediante  un  estudio  de simulación.

 

 

2.  Medidas  de  bondad  de  ajuste  para  el  modelo  logit  marginal

 

En  los  últimos  años,  algunos  autores  han  formulado  estadísticas  de  bondad  de ajuste para  modelos logit  marginales. Algunas  de  ellas  constituyen  extensiones naturales  de  los tests  corrientemente utilizados  en  la  regresión  logística  clásica. Otras no se basan en la verosimilitud del modelo sino que parten de la noción más general de “pérdida” producida por elegir un modelo determinado para aproximarse a la realidad. Entre estos últimos criterios se pueden mencionar la extensión del coeficiente  de  determinación  y la extensión  de  la entropía  para  su  aplicación  en modelos logit marginales (Zheng, 2000), las cuales hacen uso de la suma de las comparaciones  individuales  entre  cada  observación  y  su  estimación  a  partir  del modelo no sólo a través de las unidades independientes sino también a través de las sub-unidades correlacionadas correspondientes a cada una de ellas. Pan (2001) presenta una extensión del criterio de información de Akaike para estos modelos, definiendo  una  nueva  medida  de  discrepancia  entre  el  modelo propuesto  y  el “verdadero”, en la que reemplaza la verosimilitud por la cuasi-verosimilitud bajo el modelo de independencia de trabajo disponible en el contexto de GEE.

 

En relación a las pruebas globales de bondad de ajuste, Evans (1998) manifiesta que el test de Hosmer-Lemeshow (1980), desarrollado para datos independientes, puede  usarse  para probar  el  ajuste  de  modelos marginales  salvo  cuando  la correlación intra-unidad   es grande o el conjunto de datos es reducido. Horton et al. (1999) presentan una extensión de la prueba de Hosmer-Lemeshow para los modelos marginales. Ellos proponen formar grupos basados en combinaciones de valores  de  las  covariables  incluidas  en  el  modelo  y probar  si  los  coeficientes  de regresión  de  las  variables  indicadoras  asociadas  a  estos grupos  difieren significativamente de cero. Por último, Evans (1998), Pan (2002) y Evans y Hosmer (2004)  desarrollaron  dos estadísticas  basadas  en  la  comparación  de  valores observados versus valores predichos. Se trata de las extensiones naturales de las estadísticas chi cuadrado de Pearson y suma no ponderada de residuos al cuadrado asociadas  a  los  tests  corrientemente  utilizados  en  el  modelo  logit  clásico.

 

 

3.  Estudio  del  comportamiento  de  las  estadísticas

 

Para estudiar el comportamiento de las estadísticas recién presentadas se realiza un  estudio de  simulación bajo  diferentes  escenarios,  teniendo  en  cuenta  la dimensión de la muestra (cantidad de unidades y sub-unidades dentro de ellas), la correlación entre la sub-unidades dentro de la misma unidad y el tipo y nivel de las covariables a incluir en el modelo. Los datos binarios correlacionados se generan con  estructura  de correlación  constante  entre  todos los  pares  de  observaciones dentro de cada unidad mediante el uso del algoritmo presentado por Evans y Hosmer (2004).

 

El comportamiento de los criterios basados en la noción de pérdida, se estudia a través  de su  cálculo  para diferentes  modelos:  el  que  se  corresponde  con  el  de generación de los datos y otros más y menos parametrizados. Interesa evaluar si efectivamente se elige el modelo adecuado en función de cada una de las medidas.

 

En lo referente a los tests globales de bondad de ajuste, la evaluación se realiza en términos del control del error de tipo I y II. Para lograrlo se necesita generar datos que verifiquen la hipótesis nula en un caso y no la verifiquen en otro, calcular las  estadísticas  para  esos datos y  en  base  a  repeticiones  de  estos  pasos, establecer el porcentaje de rechazo real de cada uno de los tests.

 

 

4.  Resultados

 

Los  resultados  hallados  acerca  del  comportamiento  de  los  criterios  de  carácter descriptivo  sugieren  que la  extensión  del  criterio  de Akaike  es  el  más  útil  para seleccionar  el  mejor  subconjunto  de  covariables a  incluir  en  el  modelo.  Las extensiones de la entropía y del coeficiente de determinación, si bien son simples en lo que hace a su cálculo, no facilitan demasiado la tarea de elegir el subconjunto de  covariables dado  que  los valores  obtenidos  para  modelos  que  sobre-ajusten, sub-ajusten o representen con fidelidad la realidad, pueden ser muy parecidos.

 

En cuanto a los tests globales de bondad de ajuste, los desarrollados por Pan y Evans y Hosmer tienen en general buen comportamiento en lo que hace al control del error tipo I. Sin embargo la potencia es generalmente muy baja, siendo sólo aceptable para el caso en que se evalúa la omisión del término cuadrático asociado a una de las covariables del modelo. El test de Hosmer-Lemeshow debe usarse con cautela, teniendo en cuenta que para tomar en base a él decisiones confiables se  debe  disponer  de  muchas  unidades,  la  correlación intra-unidad  debe  ser moderada o baja y preferentemente no se debe contar con covariables que varíen a nivel de las unidades. Del mismo modo, el test de Horton et al. no es aplicable en todas las situaciones. Funciona razonablemente bien cuando las covariables son categóricas y se dispone de al menos 100 unidades.

 


5. Consideraciones  Finales

 

Los resultados hallados acerca del comportamiento de las estadísticas en diferentes situaciones permiten dar recomendaciones acerca del apropiado uso de una u otra estadística  de  bondad  de  ajuste  según  sean  las características  particulares  de cada conjunto de datos. Pero debe tenerse presente que aunque la elección de la estadística sea adecuada, ninguna de ellas es potente en relación a la mayoría de las  hipótesis  alternativas analizadas.  Por  ello  estas  estadísticas  proporcionan resultados de importancia cuando indican falta de ajuste del modelo ya que impulsan al analista a buscar formas de mejorarlo. En cambio no rechazar la hipótesis de bondad de ajuste no constituye una evidencia definitiva sobre que el modelo tenga un buen ajuste y en este caso es necesaria la utilización de otras técnicas para la confirmación de la adecuación del modelo tales como las medidas de diagnóstico. Todas estas consideraciones refuerzan la idea compartida por muchos autores de que la búsqueda de un buen modelo tiene tanto de arte como de ciencia.

 


 

Referencias  bibliográficas

 

Evans,  S.  R.  (1998).  Goodness  of  fit  in  two  models  for  clustered  binary  data. Unpublished  doctoral dissertation.  University  of  Massachusetts, Amherst,USA.

 

Evans, S. R.; Hosmer, DW. (2004). Goodness of fit tests for logistic GEE models:

Simulation  Results.  Communications  in  Statistics:  Simulation  and Computation, 33(1), 247-258.

 

Hosmer, D. W.; Lemeshow, S. (1980). A goodness of fit test for the multiple logistic regression. Communications  in  Statistics, A10,  1043-1069.

 

Horton, N.; Bebchuk, J.; Jones, C.; Lipsitz, S.; Catalano, P.; Zahner, G.; Fitzmaurice, G. (1999).  Goodness  of fit  for  GEE:  an  example  with  menthal  service utilization.  Statistics in Medicine,  18,  213-222.

 

Pan, W. (2001). Akaike’s information criterion in generalized estimating equations.

Biometrics,  57,  120-125.

 

Pan,  W.   (2002).  Goodness  of  fit  tests  for  GEE  with  correlated  binary  data. Scandinavian  Journal  of  Statistics,  20,  101-110.

 

Zheng, B. ( 2000). Summarizing the goodness of fit of generalized linear models for longitudinal data.  Statistics in Medicine, 19,  1265-1275.

 


 

Notas

* Docentes-Investigadoras de la Facultad de Ciencias Económicas y Estadísticas. Elsa Servy fue Directora de la Escuela de Estadística. Contacto: gboggio@fcecon.unr.edu.ar

** Defendida en Rosario el 7 de diciembre de 2007.

*** Otorgado por la Secretaría de Ciencia, Tecnología e Innovación del Gobierno de la Provincia de Santa Fe.