aLink: Herramienta de Fusión de Ficheros
El Instituto de Estadística y Cartografía de Andalucía ha desarrollado aLink: Herramienta de Fusión de Ficheros, una aplicación libre y gratuita basada en FEBRL (desarrollo de software libre de la Universidad Nacional de Australia), que ha sido diseñada y desarrollada para combinar una serie de técnicas, que van a permitir realizar un proceso de fusión de ficheros con grandes volúmenes de datos siendo uno de sus usos principales la georreferenciación de ficheros a partir de la dirección postal.
El objetivo del proceso de fusión es cruzar dos ficheros para comparar los registros e identificar aquellos que son comunes o detectar los duplicados en el caso de que ambos ficheros sean el mismo y, de esta forma, el usuario pueda completar o actualizar la información de uno de sus ficheros con la del otro.
La aplicación aLink: Herramienta de Fusión de Ficheros consta de dos herramientas:
Con la Herramienta de Normalización se van a poder normalizar variables de un fichero de datos como por ejemplo, aquellas que contienen direcciones postales, nombres de personas o DNI, NIF o NIE. Además, se consigue por un lado limpiar, corregir y estandarizar los valores de dichas variables y por otro segmentar la información en una serie de campos para poder utilizarlos posteriormente en el proceso de enlace y obtener mejores resultados. Esta herramienta de normalización es la evolución de ADYN Herramienta de Normalización, aunque incluye nuevas funcionalidades y mejoras, sobre todo en lo relativo a direcciones postales. Por ejemplo, la aplicación ofrece al usuario la posibilidad de desagregar una dirección postal de acuerdo a los campos de salida que ofrece el Callejero Digital de Andalucía Unificado (CDAU), así como a libre elección del usuario. De esta forma, si se dispone de un fichero con campos que contienen información sobre nombres de personas, direcciones postales y DNI o NIF, con la Herramienta de Normalización podremos normalizar el contenido de los mismos de la siguiente forma:
(Pinchar en la imagen para ampliar)
Por otra parte con la Herramienta de Enlace se van poder cruzar, mediante enlace probabilístico, dos ficheros de datos para identificar los registros que son comunes o detectar duplicados. Para realizar este cruce tienen que existir campos con la misma estructura en ambos ficheros e información común que sea comparable, por eso es tan relevante el proceso previo de normalización para obtener buenos resultados en el enlace. Entre las funcionalidades de la herramienta de enlace cabe destacar:
- La posibilidad de actualizar o completar la información de uno de los ficheros a enlazar con la información contenida en el otro. Así si se tienen dos ficheros con información relativa a personas, en donde uno de ellos contiene información sobre universitarios que han finalizado su carrera y el otro contiene información relativa a trabajadores en activo, se podrían cruzar ambos para detectar cuáles de los universitarios están trabajando.
- Cuando disponemos de un fichero con direcciones postales, si enlazamos el mismo con la información del CDAU que proporciona las coordenadas X e Y de una dirección postal, podemos realizar la geocodificación del fichero de partida y con ello se abre todo un abanico de posibilidades de tratamiento de esta información geocodificada.
Por ejemplo, en la imagen de abajo se observa cómo quedaría un fichero geocodificado con aLink si éste se enlaza con CDAU a través de los campos tipo de vía, nombre de vía y número. Obsérvese que en el fichero geocodificado no solo se han incluido las coordenadas X e Y sino además, otras variables contenidas en CDAU que completan la información del fichero original, como por ejemplo, la denominación oficial de la vía, el código INE de la vía, la referencia catastral, etc:
(Pinchar en la imagen para ampliar)