Dirección de Desarrollo Digital

Img-contenido

Librería de análisis de datos y texto

​​​​​​​​​​​​El Departamento Nacional de Planeación (DNP), a través de la Unidad de Científicos de Datos, ha puesto a disposición del público dos librerías para la explotación de datos.

A continuación, le explicaremos cuáles son esas librerías, qué información contienen y cómo la pueden consultar.

Librería ConTexto


La librería de procesamiento y análisis de texto, ConTexto, tiene como objetivo principal proporcionar herramientas que simplifiquen las tareas y proyectos que involucren procesamiento y análisis de texto. 

La librería fue desarrollada en el lenguaje de programación de Python y contiene un conjunto de funciones que permiten realizar transformaciones y análisis de textos de forma simple, utilizando diferentes técnicas para lectura y escritura de archivos de texto, incluyendo reconocimiento óptico de caracteres (OCR), limpieza de textos y remoción de palabras no deseadas para el análisis (stop words) y corrección de textos, generación de nubes de palabras, cálculo de similitudes entre textos, entre otras.

La librería surge como solución a tres principales aspectos. En primer lugar, la necesidad de integrar todos los esfuerzos y desarrollos que ha hecho la Unidad de Científicos de Datos (UCD) del DNP, en proyectos relacionados con la analítica de texto; en segundo lugar, evitar reprocesos en la construcción de scripts para estas tareas, y finalmente, aumentar la cantidad de librerías enfocadas en el análisis de texto en español que existen actualmente.

Ir a la librería ConTexto​

Librería de calidad de datos (LEILA)

La librería de calidad de datos tiene como objetivo principal ser una herramienta que facilite la verificación de contenido de bases de datos y dé métricas de calidad para que usuarios puedan decidir si sus bases de datos necesitan modificarse para ser utilizadas en los proyectos. 

La librería fue escrita en el lenguaje de programación de Python y puede analizar bases de datos estructurados que se conviertan en objetos tipo pandas.DataFrame. 

Contiene tres módulos principales, el módulo Calidad Datos para analizar cualquier base de datos, el módulo Datos gov para conectarse con los metadatos del Portal de Datos Abiertos de Colombia y utilizar sus bases de datos, y por último el módulo Reporte el cual permite generar un reporte de calidad utilizando los módulos anteriores.

Ir a la librería LEILA​