Data Analytics
Arquitectura de datos para inteligencia territorial
Caso de estudio técnico sobre un pipeline modular para transformar fuentes
territoriales dispersas en datasets trazables, análisis de redes, lectura
interdisciplinaria e insumos para toma de decisiones.
Resumen
El caso CRBB se aborda como un proyecto de arquitectura de datos, análisis
de redes e inteligencia territorial. El trabajo consistió en ordenar fuentes
heterogéneas, normalizar registros de participación, enriquecer atributos
descriptivos y producir una capa analítica capaz de mostrar distribución
regional, disciplinas, perfiles interdisciplinarios y relaciones entre actores.
Problema
La información territorial disponible estaba distribuida en fuentes con
formatos, niveles de detalle y criterios de registro distintos. Esa dispersión
dificultaba identificar participantes, regiones, disciplinas, perfiles
interdisciplinarios y relaciones entre actores. Sin una arquitectura mínima,
los datos quedaban poco auditables y con baja utilidad para priorizar acciones,
coordinar iniciativas o justificar decisiones.
Fuentes de datos
El origen de los datos combinó insumos operativos y documentales generados
durante el trabajo con participantes y actores del ecosistema territorial.
Las fuentes se trataron como entradas separadas para conservar trazabilidad
entre dato original, proceso aplicado y salida analítica.
- registros de participantes
- encuestas y formularios
- transcripciones y notas de trabajo
- listados de organizaciones y contactos
- metadatos territoriales y disciplinares
- referencias públicas disponibles para enriquecimiento
Pipeline
El pipeline se diseñó por módulos para separar captura, limpieza,
normalización, enriquecimiento, agregación, análisis y visualización.
Esta separación permitió revisar cada etapa sin mezclar edición de datos,
interpretación analítica y producción de salidas.
- inventario de fuentes y definición de identificadores
- limpieza de campos, duplicados y valores inconsistentes
- normalización de nombres, regiones, disciplinas y categorías
- enriquecimiento con atributos territoriales y relacionales
- agregación por participante, región, disciplina y perfil
- análisis de redes, temas y patrones de participación
- visualización y reporting para uso operativo
Procesamiento
El procesamiento priorizó consistencia y auditabilidad. Cada transformación
mantuvo criterios explícitos para reducir ambigüedad y facilitar revisión:
qué dato entró, qué regla se aplicó y qué salida produjo.
- normalización de entidades para consolidar participantes y organizaciones
- estandarización de regiones, disciplinas, roles y categorías de análisis
- enriquecimiento con atributos territoriales, temáticos e interdisciplinarios
- agregación de métricas por región, disciplina, participante y perfil
- validación cruzada entre registros estructurados y fuentes documentales
Resultados
Las salidas permitieron observar patrones que no eran visibles en los
insumos originales. El dataset consolidado funcionó como base para lectura
territorial, análisis de redes y seguimiento de criterios de participación.
- participantes estructurados con atributos comparables
- distribución regional para detectar concentración y cobertura territorial
- disciplinas normalizadas para análisis sectorial e interdisciplinario
- perfiles interdisciplinarios asociados a trayectorias, roles y prácticas
- redes de actores útiles para identificar nodos, vínculos y posibles brechas
Indicadores obtenidos
- 53 participantes estructurados
- 13 regiones representadas
- 25 territorios analizados
- 17 disciplinas identificadas
- motivación dominante: formación
- perfil interdisciplinario dominante: híbrido
Arquitectura del pipeline
El flujo lógico se organizó como una cadena reproducible entre fuentes,
procesamiento, dataset, análisis y visualización. La arquitectura evita
tratar los reportes como documentos aislados: cada salida deriva de una
capa de datos verificable.
- Fuentes: registros, encuestas, notas, transcripciones, listados y metadatos territoriales.
- Procesamiento: limpieza, normalización, deduplicación, enriquecimiento y agregación.
- Dataset: tablas estructuradas con identificadores, atributos y criterios de trazabilidad.
- Análisis: lectura regional, análisis disciplinar, perfiles interdisciplinarios y redes de actores.
- Visualización: reportes, tablas, mapas de relación e insumos para decisiones.
Decisiones técnicas
- separar limpieza, estructuración, análisis, visualización y documentación
- mantener los datos originales fuera de los procesos de sobrescritura
- usar nombres de archivos y salidas trazables por módulo
- trabajar con tablas normalizadas antes de producir reportes
- versionar criterios, cambios y validaciones con Git
- publicar salidas agregadas y evitar exponer datos personales en el frontend
- usar IA como apoyo semántico sobre datos ordenados y reglas explícitas
Aprendizajes
- La calidad del análisis depende primero de la arquitectura de datos.
- La trazabilidad permite discutir decisiones sin depender de memoria institucional.
- La normalización reduce ruido y mejora comparabilidad entre regiones y disciplinas.
- La agregación debe conservar la posibilidad de volver al registro de origen.
- La visualización es más útil cuando responde a preguntas de gestión y gobernanza.
Lecciones aprendidas
En sistemas complejos, el valor no está solo en describir actores o actividades,
sino en construir evidencia operable. Un pipeline territorial debe permitir
observar relaciones, detectar vacíos, comparar criterios y sostener decisiones
de gobernanza con datos revisables.
- Los ecosistemas territoriales requieren modelos de datos flexibles, pero no ambiguos.
- La gobernanza basada en evidencia necesita criterios explícitos y datos auditables.
- El análisis de redes ayuda a pasar de listados de actores a lectura sistémica.
- La inteligencia territorial mejora cuando combina contexto cualitativo con estructura cuantitativa.
Stack utilizado
Python
pandas
JSON
Git
GitHub
HTML
CSS
JavaScript vanilla
ECharts
Próximos pasos
- automatizar validaciones
- integrar dashboards
- mejorar análisis de redes
- conectar fuentes externas
- generar reportes comparables por módulo