Page 53 - REVISTA11
P. 53
Tres posibles escenarios en la búsqueda del sesgo de selección
A. Sin sesgo
Indicador
Indicador
Indicador
Economía, Sociedad y Estadística Gráfico 1 B. Sesgo positivo C. Sesgo negativo
A. DETECCIÓN DEL SESGO ausencia de respuesta). Ello implica que la información Gráfico 1 GRÁFICO N° 1 Simulaciones Simulaciones
TRES POSIBLES ESCENARIOS EN LA BÚSQUEDA DEL SESGO DE SELECCIÓN
Simulaciones
obtenida de los hogares respondientes se encontrará Tres posibles escenarios en la búsqueda del sesgo de selección
Cambiar el modo de recolección de información de una sesgada, por lo que no podrá ser utilizada sin realizar A. Sin sesgo B. Sesgo positivo Promedio de las simulaciones Estimación publicada
C. Sesgo negativo
encuesta de hogares, de un modo presencial a un modo algún tipo de corrección.
telefónico o a través de la web, puede traer consigo Fuente: Comisión Económica para América Latina y el Caribe (CEPAL).
consecuencias indeseadas y, en particular, generar Por tanto, el primer paso, una vez que se haya
sesgos (de selección, de cobertura y por ausencia recolectado la información en un determinado período,
de respuesta) de quienes responden a la encuesta. En debería ser la estimación de la magnitud del sesgo. B. Ajuste por probabilidad de respuesta
un escenario en que se está utilizando una muestra de De acuerdo con lo planteado en CEPAL (2020), una
hogares de un período anterior (a la que se denominará posibilidad para ello es utilizar escenarios simulados, En muchos países de la región se han realizado levantamientos de información telefónicos
Indicador
Indicador
“muestra original”) y en que se están haciendo todos los sobre la base de la disposición final de los hogares Indicador sobre la base de una muestra de períodos anteriores, como alternativa ante las restricciones
para la recolección presencial de la información. En CEPAL (2020) se planteó que la mejor
esfuerzos por contactar a los hogares seleccionados, el que efectivamente respondieron la encuesta dentro estrategia en la conformación del panel era el seguimiento a una muestra completa de meses
proceso está inevitablemente expuesto a las siguientes de las unidades primarias de muestreo (UPM) que anteriores (por ejemplo, febrero de 2020), puesto que la selección de una submuestra sobre
contingencias: los contienen. Mediante simulación es posible tratar la unión de las muestras de meses anteriores dará origen a cálculos bastantes complejos
de predecir cómo hubiese sido el comportamiento de las probabilidades de inclusión de los elementos. Por consiguiente, considerando que
● No todos los hogares de la muestra original de los estimadores en el mes de selección de la se parte de una muestra probabilística que se acoge a las anteriores recomendaciones,
es posible realizar ajustes a los factores de expansión de manera diferencial para corregir
proveyeron información de su contacto telefónico. muestra si solo se hubiese contado con la información el sesgo de selección.
parcial actual. La diferencia entre las estimaciones ya Simulaciones Propuesto por Rosenbaum y Rubin (1983), este enfoque es útil para dilucidar la estructura
Simulaciones
Simulaciones
● Algunos hogares proveyeron sus datos de contacto, publicadas (insesgadas) y las estimaciones simuladas de la ausencia de respuesta y, por consiguiente, corregir el sesgo de cobertura y el sesgo
pero al momento de la entrevista no habitan en (eventualmente sesgadas) dará una idea de la magnitud Promedio de las simulaciones Estimación publicada
por ausencia de respuesta (Lensvelt-Mulders, Lugtig y Hubregtse, 2009). Para el manejo
la vivienda seleccionada. del sesgo. Fuente: Comisión Económica para América Latina y el Caribe (CEPAL).
Fuente: Comisión Económica para América Latina y el Caribe (CEPAL). ausencia de respuesta se consideran las variables dicotómicas I k y D k ,
efectivo de la
que indican si el hogar pertenece a la muestra original y si ha respondido a la encuesta
telefónica, respectivamente. Suponiendo que la distribución de las respuestas efectivas
● Algunos hogares proveyeron sus datos de contacto, En el gráfico 1 se presentan tres posibles escenarios B. AJUSTE POR PROBABILIDAD DE RESPUESTA ser estimada, la probabilidad de respuesta (propensity
puede ser estimada, la probabilidad de respuesta (propensity score) de un hogar en la
pero al momento de la entrevista han cambiado para la búsqueda de sesgo. En la imagen de la izquierda B. Ajuste por probabilidad de respuesta
score) de un hogar en la muestra está dada por:
muestra está dada por:
el número telefónico de contacto. se ilustra un caso en que no existe sesgo, mientras En muchos países de la región se han realizado
En muchos países de la región se han realizado levantamientos de información telefónicos
que en las imágenes del centro y de la derecha se levantamientos de información telefónicos sobre la ϕ k =Pr(D k =1|I k =1)
sobre la base de una muestra de períodos anteriores, como alternativa ante las restricciones
para la recolección presencial de la información. En CEPAL (2020) se planteó que la mejor
● No todos los hogares que proveyeron su muestran escenarios correspondientes a un sesgo base de una muestra de períodos anteriores, como
Nótese que esta probabilidad es distinta para cada hogar y puede ser estimada usando los
estrategia en la conformación del panel era el seguimiento a una muestra completa de meses
información de contacto están dispuestos a significativo. La línea horizontal azul corresponde a la alternativa ante las restricciones para la recolección Nótese que esta probabilidad es distinta para cada
datos del panel. Contar con la muestra original, para la cual se obtuvo toda la información
anteriores (por ejemplo, febrero de 2020), puesto que la selección de una submuestra sobre
del cuestionario en un período anterior, constituye un excelente punto de partida para
responder el cuestionario de la encuesta. estimación publicada en el mes en que se seleccionó presencial de la información. En CEPAL (2020) se planteó hogar y puede ser estimada usando los datos del panel.
la unión de las muestras de meses anteriores dará origen a cálculos bastantes complejos
tratar de eliminar el sesgo, puesto que se tendrá acceso a un conjunto de covariables x
de las probabilidades de inclusión de los elementos. Por consiguiente, considerando que
la muestra original, mientras que la línea horizontal que la mejor estrategia en la conformación del panel Contar con la muestra original, para la cual se obtuvo
se parte de una muestra probabilística que se acoge a las anteriores recomendaciones,
A manera de ejemplo, si se supone que la cobertura de roja representa el promedio de las simulaciones con era el seguimiento a una muestra completa de meses toda la información del cuestionario en un período
es posible realizar ajustes a los factores de expansión de manera diferencial para corregir
la muestra que sí proveyó datos de contacto asciende al la muestra efectiva. Cada uno de los resultados de las anteriores (por ejemplo, febrero de 2020), puesto que anterior, constituye un excelente punto de partida
el sesgo de selección.
85% y que la probabilidad de que un hogar contactado simulaciones está representado por las fluctuaciones la selección de una submuestra sobre la unión de las para tratar de eliminar el sesgo, puesto que se tendrá
Propuesto por Rosenbaum y Rubin (1983), este enfoque es útil para dilucidar la estructura
de la ausencia de respuesta y, por consiguiente, corregir el sesgo de cobertura y el sesgo
responda toda la encuesta es del 80%, entonces se de las líneas punteadas. Nótese que en los últimos dos muestras de meses anteriores dará origen a cálculos acceso a un conjunto de covariables x para determinar 3
por ausencia de respuesta (Lensvelt-Mulders, Lugtig y Hubregtse, 2009). Para el manejo
el mejor modelo a fin de estimar el patrón de ausencia
contaría solamente con respuestas de un 68% de la escenarios (véanse los gráficos 1.B y 1.C) la mayoría de bastantes complejos de las probabilidades de inclusión an las variables dicotómicas I k y D k ,
efectivo de la ausencia de respuesta se consider
muestra original. A estas cuentas habría que sumar las simulaciones no cubren la estimación publicada y de los elementos. Por consiguiente, considerando que se de respuesta en la muestra de respondientes efectivos.
que indican si el hogar pertenece a la muestra original y si ha respondido a la encuesta
telefónica, respectivamente. Suponiendo que la distribución de las respuestas efectivas
el posible efecto de la atrición en el panel —pérdida por ende se puede asegurar que sí existe sesgo. parte de una muestra probabilística que se acoge a las A manera de ejemplo, las covariables útiles para estimar
puede ser estimada, la probabilidad de respuesta (propensity score) de un hogar en la
de participantes a medida que transcurre el panel—, anteriores recomendaciones, es posible realizar ajustes la probabilidad de respuesta pueden incluir el sexo, la
muestra está dada por:
puesto que habrá hogares que dejarán de responder a En general, el intervalo de confianza publicado puede a los factores de expansión de manera diferencial para =1) edad, el nivel educativo, el área y la región geográfica
ϕ k =Pr(D k =1|I k
la encuesta a medida que son contactados de manera usarse para determinar si existe sesgo y en qué corregir el sesgo de selección. de residencia, el estado de ocupación y el ingreso per
Nótese que esta probabilidad es distinta para cada hogar y puede ser estimada usando los
reiterativa. magnitud. Se recomienda revisar todos los escenarios datos del panel. Contar con la muestra original, para la cual se obtuvo toda la información
cápita del hogar en el levantamiento original, entre
del cuestionario en un período anterior, constituye un excelente punto de partida para
que en promedio estén a más de media desviación Propuesto por Rosenbaum y Rubin (1983), este enfoque otras.
tratar de eliminar el sesgo, puesto que se tendrá acceso a un conjunto de covariables x
En este escenario, es altamente probable que los hogares de la estimación puntual de la muestra original. En el es útil para dilucidar la estructura de la ausencia de
respondientes efectivos no tengan características escenario más optimista, el de ausencia de sesgo, una respuesta y, por consiguiente, corregir el sesgo de Si se asume que la probabilidad de respuesta depende
similares a los hogares no respondientes y a los hogares oficina de estadística estaría en buena posición para cobertura y el sesgo por ausencia de respuesta (Lensvelt- de alguna combinación lineal de las covariables
no cubiertos, y que las razones de ausencia de respuesta replicar los procesos usuales de inferencia. Sin embargo, Mulders, Lugtig y Hubregtse, 2009). Para el manejo disponibles en la muestra original, es posible ajustar un
de los hogares en el levantamiento estén asociadas si se sospecha que existe sesgo, y dependiendo de la efectivo de la ausencia de respuesta se consideran las modelo en que la variable dependiente es D y el vector 3
k
al fenómeno que se intenta medir (por ejemplo, que información auxiliar disponible, es posible aplicar alguna variables dicotómicas I y D , que indican si el hogar de covariables se representa como x. Kim y Riddles
k
k
en los hogares no respondientes haya más personas de las alternativas que se describen en las siguientes pertenece a la muestra original y si ha respondido a (2012) muestran que es posible utilizar un modelo
desocupadas, o que en los hogares pobres haya más secciones. la encuesta telefónica, respectivamente. Suponiendo basado en el ajuste de la probabilidad de respuesta de
que la distribución de las respuestas efectivas puede la muestra telefónica mediante la siguiente expresión:
52 53