Creación de filtros en R; procedimientos para resolver problemas de análisis estadístico

Los filtros son procedimientos que se realizan en el conexto de los conjuntos de datos, con el propósito de delimitar los datos con los que se va a trabajar. Lo usual es que esta definición se haga a partir de atributos o características de la población que nos interesa analizar. En este sentido, los ejemplos de procedimiento con que trabajaremos serán a partir de un problema concreto de análisis estadístico.

Este problema tiene que ver con definir y dar una explicación contextualizada acerca de la cantidad de PAM1 que viven solas en la ciudad de Durango, México. En principio, debemos definir la lista de cosas que necesitamos para ello así como el bosquejo de la ruta analítica a fin de tener una imagen mental del resultado final.

Bosquejo analítico y requerimientos

Uno de los primeros pasos es identificar a partir de qué conjunto de datos se traajará. Pueden ser datos procedentes de encuestas diversas, o de datos generados por organizaciones de gobierno o institciones deducativas o de investigación. En este caso utilizaremos los datos del Censo de población y vivienda 2010 realizado en México durante ese año. En concreto, el INEGI2 tiene a disposición en su portal los daots censales para cada una de las entidades federativas de la república mexicana, hemos pues descargado los datos correspondientes al Estado de Durango y dichos datos los procesaremos en el entorno de programación estadística R (R Core Team, 2017).

Más importante que el dominio del software de procesamiento y análisis estadístico, lo es la comprensión global del problema estadístico que se pretende resolver. En este caso no bastará con calcular la cifra de cuántas PAM viven solas en la Ciudad de Durango, sino contextualizar dicha cifra, por ejemplo, qué proporción representa respecto al total de la población y qué proporción representa del total de la población de las PAM. Hasta aquí, vislumbramos en el análisis algunos cálculos más, que enlistados para mejor comprensión quedarían así:

  • Cálculo de la población total del estado y de la ciudad de Durango
  • Cálculo del total de la población total de PAM en el estado y en la ciudad de Durango
  • Cálculo del total de PAM que viven solas en el estado y en la ciudad de durango, y adicionalmente…
  • Cálculo de los hogares totales unipersonales en el estado y en la ciudad de Durango

Como vemos en la lista, al menos son necesarios ocho procedimientos de cálculo para determinar la cifra que nos interesa y proporcionar a la dicha explicación un contexto cuantitativo mínimo para darle sentido. Luego entonces, la ruta analítica que redundará en la elaboración de un informe estadístico sobre el problema planteado, será proponer las cifras calculadas en función de la cifra central que queremos averiguar, y es también en ese sentido que el análisis será de tipo deductivo.

Notas procedimentales

Existen diversas plataformas informáticas para el análisis estadístico. Nuestra elección fue R, aunque los procedimientos en escencia se traducen a casi cualquier software de análisis estadístico, de dicha posibilidad, la razón de que sea más importante comprender el problema analítico que se enfrenta, ya que, si entendemos dicha cuestión, lo técnico referente al software se reduce a procedimientos concretos que se adecuan a las preferencias y estilos de aprendizaje de los investigadores o analistas.

Entre las ventajas que tiene el entonro de programación estadística R, se encuentra la posibilidad de llegar a un mismo resultado de distintas maneras. De momento, sólo presentaremos dos maneras, aunque sólo en el primer ejemplo, en los restantes ejercicios sólo optaremos por una de las soliciones. Ahora procedamos con los cáculos requeridos.

Cálculo de la población total del Estado de Durango y de su ciudad capital

Como lo indicamos al final del párrafo anterior, utilizaremos en este primer ejemplo, dos formas de llegar al mismo resltado; el primer procedimiento se refiere a que mediante un filtrado de datos se obtenga un nuevo conjunto de datos a partir del que debe calcular todo lo demás, mientras que, en el segundo procedimiento se hce un cálculo directo, ofreciendo el mismo resultado que con el primer procedimiento. Las ventajas o desventajas de uno y otro procedimientos, son inherentes a los esquemas y flujos de trabajo que el analista tenga de manera interna. Mientrs para unos el registro de un cálculo directo es primordial, para otros el mantenimiento del conjunto de datos original puede ser crucial y una medida de seguridad inevitable, de modo que cada quien jusgue a partir de la experiencia propia cuál es más *ad hoc a sus estrategias de trabajo. Claro que también pueden explorarse otros procedimientos para llegar al mismo resultado.

En primer ligar, se tiene el cálculo del total de población del Estado. Esta cifra en definitiva no requiere de ambos procedimientos, esto es, más bien, resultado del cálculo directo con la variable adecuada. En el caso del INEGI,los datos procedentes de las encuestas y de los censos de población, se contruye una variable denominada factor de expanción que sirve para calcular los valores absolutos de la población de que se trate el an´lisis, es decir, los datos se construyen con base en muestras probabiliíticas, cuyos parámetros pemiten que el personal del instituto calcule el factor de expansión. Para el cálculo directo baste entonces con ‘sumar’ los factores de expansión de cada una de las filas de los casos encuestados para el censo. Así, en el entorno de R:

>load(“unip.RData”) ‘Carga los datos al entorno de R.
>sum(durango$FACTOR) ‘Suma las filas de la variable FACTOR que contiene los valores de expansión de la encuesta censal.

Para realizar estos cálculos con la variable FACTOR, fue necesario realizar una exploración inicial del conjunto de datos, con el fin de conocer con qué variables cuenta dicho conjunto de datos. para esto se ejecutó el siguiente comando con el subsecuente resultado:

>names(durango)
1 “ID.VIV” “ID.PERSONA” “ENT” “NOM.ENT” “NOM.E0”
[6] “MUN” “NOM.MUN” “NOM.M3” “LOC50K” “NOM.LOC”
[11] “NOM.L0” “COBERTURA” “ESTRATO” “UPM” “FACTOR”
[16] “NUMPER” “SEXO” “EDAD” “PARENT” “PARENT.OTRO.C”
[21] “IDENT.MADRE” “IDENT.PADRE” “SERSALUD” “AFRODES” “ACTA.NAC”
[26] “DHSERSAL1” “DHSERSAL2” “PERTE.INDIGENA” “ENT.PAIS.NAC” “NACIONALIDAD”
[31] “HLENGUA” “QDIALECT.C” “QDIALECT.INALI” “HESPANOL” “ELENGUA”
[36] “ASISTEN” “MUN.ASI” “NOM.MUN.ASI” “NOM.M2” “ENT.PAIS.ASI”
[41] “TIE.TRASLADO.ESCU” “MED.TRASLADO.ESC1” “MED.TRASLADO.ESC2” “MED.TRASLADO.ESC3” “ESCOLARI”
[46] “NIVACAD” “ALFABET” “ESCOACUM” “MUN.RES10” “NOM.MUN.RES10”
[51] “NOM.M1” “ENT.PAIS.RES10” “SITUA.CONYUGAL” “IDENT.PAREJA” “CONACT”
[56] “OCUPACION.C” “SITUACION.TRAB” “AGUINALDO” “VACACIONES” “SERVICIO.MEDICO”
[61] “UTILIDADES” “INCAP.SUELDO” “SAR.AFORE” “CREDITO.VIVIENDA” “INGTRMEN”
[66] “ACTIVIDADES.C” “MUN.TRAB” “NOM.MUN.TRAB” “NOM.M0” “ENT.PAIS.TRAB”
[71] “TIE.TRASLADO.TRAB” “MED.TRASLADO.TRAB1” “MED.TRASLADO.TRAB2” “MED.TRASLADO.TRAB3” “ACTI.SIN.PAGO1”
[76] “ACTI.SIN.PAGO2” “ACTI.SIN.PAGO3” “ACTI.SIN.PAGO4” “ACTI.SIN.PAGO5” “ACTI.SIN.PAGO6”
[81] “ACTI.SIN.PAGO7” “ACTI.SIN.PAGO8” “HIJOS.NAC.VIVOS” “HIJOS.FALLECIDOS” “HIJOS.SOBREVIV”
[86] “FECHA.NAC.M” “FECHA.NAC.A” “SOBREVIVENCIA” “EDAD.MORIR.D” “EDAD.MORIR.M”
[91] “EDAD.MORIR.A” “TAMLOC”

Observando esta lista de variables, nos damos cuenta de que por lo regular, representan abreviaturas de los nombres completos de dichas variables. Para familiarizarse mejor con las bases de datos es necesario que se acceda a los documentos adicionales que usualmente son publicados junto con los datos. Esta p´ractica de publicación es usualmente realizada por instituciones como el INEGI y demás instituciones públicas y de gobierno que poner a disposición de cualquier usuario los datos y las estadísticas respecto a algún aspecto de la población. Ello no se corcunscribe a México, por lo general en muchos países se publica la información por diversas vías, y desde luego, en plataformas de internet.

El acceso a los citados documentos adicionales –que pueden ser diccionarios de variables, notas metodológicas o manuales de usuario— nos permitió identificar que la varaible FACTOR contiene los datos referios al citado factor de expansión, tan necesario en el cálculo de datos absolutos de la población.

Por otro lado el cálculo de la población de la ciudad de Durango requiere otros prcedimientos, para lo que ahora si, ejemplificaremos los dos mecenismos citados; (1) construir un nuevo conjunto de datos y (2) el cálculo directo ya tuilizado en el primer cálculo realizado con la función sum().

Procedimiento 1: Crear un nuevo conjunto de datos

Para este procedimiento se construirá mediante una función, un filtro que identifique sólo todos los casos correspondientes a la ciudad de Durango. Para esto es indispensable localizar la varialbe que denota el nombre o clave del municipio de Durango. Estas variables son ‘MUN’, misma que recoe los números clave de los municipios del estado y y ‘NOM.MUN’ que recoge los nombres; puede utilizarse cualquiera de las dos para construir el filtro para la construcción del nuevo conjunto de datos. Luego entonces:

>durango.nuevo<-durango[durango$MUN=5,] ‘El número 5 es el número que corresponde a la ciudad de durango. La instrucción significa que el conjunto de datos durango.nuevo se construirá a partir del conjunto de datos principal y entre los corchetesse indica la instrucción-filtro, misma que indica que sólo se agregarán aquellos casos que en la variable MUN tengan el valor 5.

Ahora si, podemos calcular la cantidad de la población de la ciudad de Durango sumando los datos de la variable FACTOR.

>sum(durango.nuevo$FACTOR)
1 654876

Procedimiento 2: Cáalculo directo

El segundo procedimiento es muy parecido al que se utilizó en el primer ejemplo. La diferencia es que en la instrucción del calculo se agrega el comando de filtro, pero sin generar un nuevo conjunto de datos, pero si con el resultado buscado. Veamos:

>sum(durango$FACTOR[durango$MUN==5])
1 654876

Nótese cómo los dos resultados –identificados como “1“– es exactamente el mismo. Los procedimientos para los otros seis cálculos enlistados es similar, y al final se podrán concentrar en una tabla de resultados que se mostrarán al final de este documento. Hasta aquí podemos resumir que los filtros son simples instrucciones que realizarán cosas sobre los datos en cuestion, pero bajo la condición de que correspondan con determinado valor de alguna o algunas de las variables de conjunto de datos. Por ejemplo, para calcular las poblaciones de PAM en el Estado de Durango y en la Ciudad de Durango el filtro se realizará con base en la varialbe EDAD, y de hecho, la instrucción filtro se compondrá en el caso de los calculos para la ciudad de durango, por dos partes, (1) filtro para las personas de 65 años o más y (2)el filtro ya utilizado para seleccionar los casos correspondientes a la ciudad de Durango.

>sum(durango$FACTOR[durango$EDAD>64])
1 124457 ‘Total de poblaciónPAM en el Estado de Durango

>sum(durango$FACTOR[durango$EDAD>64 & durango$MUN=5])
1 [ 40560 ‘Cálculo de l poblaciónde PAM en la ciudad de Durango.

Cálculo de la cantidad de personas adultas mayores que viven solas en el Estado de Durango y su ciudad capital

Para este cálculo se requiere dar la instrucción a `R para que filtre los hogares unipersonales, después las PAM con edad igual o superior a 65 años y para el caso de la ciudad de durango, filtrar por número de municipio con valor a 5. En este caso, estamos hablando de tres filtros, y auqnue es perfectamente posible incluirlos en una sola instrucción, optaremos por crear un subconjunto de datos sólo para la ciudad de durango, y a partir de ahí, generar los filtros y realizar los cálculos.

Primero realizaremos el cálculo de la cantidad Estatal.

>sum(durango$FACTOR[durango$NUMPER==1 & durango$EDAD>64])
1 81295 ‘Cálculo de las PAM que viven solas en el Estado de Durango.

Ahora podemos proseguir con el cálculo para la ciudad de Durango. Las instrucciones quedaría como sigue:

Este es un procedimiento especial que consta de los siguientes pasos:
1. Definir un conjunto de datos sólo para la ciudad de Durango.
2. Con el nuevo conjunto de datos debe calcularse la población mayor de 64 años que vive sola, para elllo se utiliza el filtro de EDAD y el filtro de NUMPER. Este último filtro se refiere al primer renglón del hogar, en hogares unipersonales unipersonales. Para comprobar que se hizo correctamente este procedimiento, construiresmos otro conjunto de datos y depuraremos, pero sólo como medio de comporbación. Una vez hecho este, podemos confira en que basta con que calculemos directamente con una sola construcción adicional de datos.

———-

>durango.c<-durango[durango$MUN==5] ‘Crear subconjunto de datos de la ciudad de Durango.
>sum(durango.c$FACTOR[durango.c$EDAD>64 & durango.c$NUMPER==1], na.rm=TRUE)
1 26136 ‘Cálculo del total de PAM que viven solas en la ciudad de durango.

———-

Procedimiento de comprobación del resultado obtenido
Este procedimiento tiene los siguientes pasos:
1. Crear subconjunto de datos con los casos en que la población es mayor a 64 años
2. Crear subconjunto del subconjunto de personas mayores de 64 años en aquellos casos que correspondan al primer renglón de cada hogar, esta variable se denomina NUMPER.
3. Después de tener el segundo y tercero subconjuntos de datos, se calcula sobre el tercero la suma del factor de expansión, si el resultado es igual al obtenido mediante el cálculo directo, entonces el primer procedimiento estará validado.

durangoc1<-durango.c[durango.c$EDAD>64,]

>durango.c2<-durango.c1[durango.c1$NUMPER==1,]
>sum(durango.c2$FACTOR)
1 26136 ‘Cálculo del total de personas adultas mayores que viven solas en la ciudad de d¿Durango.

El procedimiento de comprobación demuestra que el procedimiento de cálculo directo es correcto. Los filtros insertos en las instrucciones o comandos de R en realidad abrevian los procesos al evitar la construcción de muchos subconjuntos de datos, y un entorno de trabajo con muchos elementos –sobre todo si no somos muy metódicos que digamos– puede resultar perjudicial, en esos casos, se requiere del cálculo directo, reduciendo en lo posible la generación de demasiados elementos. Sin embargo, si no somos tan expertos en la realización de los cálculos directos, es preferible que hagamos los procedimientos más extensos creando subconjuntos filtrados de los datos originales y de ese modo nos entrenaremos adquiriendo cada vez mayor confianza en nuestro flujo de trabajo.

Cálculo de los hogares unipersonales en el Estado de Durango y su ciudad capital

Este cáclculo es más sencilllo ya que sólo se aplican máximo dos filtros, uno para la cifra estatal y uno adicional para el cálculo de la cifra en la ciudad de Durango. Este procedimiento es dirento, los comandos quedarían así:

>sum(durango$FACTOR[durango$NUMPER==1])
1 455533 ‘Cálculo de hogares unipersonales en el Estado de Durango (incluye a los hogares de lasPAM)

Para el cálculo de la cifra de hogares unipersonales se puede utilizar el subconjunto creao en la sección anterior o bien, utilizar el comando para el cálculo estatal, y sólo agregar el filtro de la ciudad, que como hemos visto es el número 5 de la variable MUN. Optaremos por agregar el filtro a la instrucción anterior.

>sum(durango$FACTOR[durango$NUMPER==1 & durango$MUN==5])
1 171169 ‘Cálculo de hogares unipersonales para la ciudad de Durango.

Con Esto sólo restaría concentrar los resultados y definir los formatos en que se hará la presentación de los resultados. Para los fines de este documento, sólo agregaremos una tabla concentradora de los resultados.

Resultados del proceso

Finalmente presentamos una tabla donde se concentran los datos claculados. A partir de dicho resumen de datos cada analista puede elaborar desde un informe ejecutivo hasta un arítuclo de discusión, un ensayo académico o cualquier otro tipo de documento expositivo, por supuesto con el debido soporte teórico y empírico. En este apunte sólo basta presentar la tabla concentrador, misma que aparece a continuación.

Cálculo

Cantidad Absoluta

Total de la población del Estado de Durango

1’753,702

Total de la población de la ciudad de Durango

654,534

Total de población de PAM en el Estado

124,457

Total de población PAM en la ciudad

40,560

Total de hogares unipersonales en el Estado

455,5533

Total de hogares unipersonales en la ciudad

171,169

Total de PAM que viven solas en el Estado

81,295

Total de PAM que viven solas en la ciudad

26,136

Referencias y Fuentes

R Core Team. (2017). R: A language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing. Retrieved from https://www.R-project.org/


  1. Personas Adultas Mayores. 

  2. Instituto Naciona de Estadística e Informática. 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *