Data Analytics

Arquitectura de datos para inteligencia territorial

Caso de estudio técnico sobre un pipeline modular para transformar fuentes territoriales dispersas en datasets trazables, análisis de redes, lectura interdisciplinaria e insumos para toma de decisiones.

Resumen

El caso CRBB se aborda como un proyecto de arquitectura de datos, análisis de redes e inteligencia territorial. El trabajo consistió en ordenar fuentes heterogéneas, normalizar registros de participación, enriquecer atributos descriptivos y producir una capa analítica capaz de mostrar distribución regional, disciplinas, perfiles interdisciplinarios y relaciones entre actores.

Problema

La información territorial disponible estaba distribuida en fuentes con formatos, niveles de detalle y criterios de registro distintos. Esa dispersión dificultaba identificar participantes, regiones, disciplinas, perfiles interdisciplinarios y relaciones entre actores. Sin una arquitectura mínima, los datos quedaban poco auditables y con baja utilidad para priorizar acciones, coordinar iniciativas o justificar decisiones.

Fuentes de datos

El origen de los datos combinó insumos operativos y documentales generados durante el trabajo con participantes y actores del ecosistema territorial. Las fuentes se trataron como entradas separadas para conservar trazabilidad entre dato original, proceso aplicado y salida analítica.

  • registros de participantes
  • encuestas y formularios
  • transcripciones y notas de trabajo
  • listados de organizaciones y contactos
  • metadatos territoriales y disciplinares
  • referencias públicas disponibles para enriquecimiento

Pipeline

El pipeline se diseñó por módulos para separar captura, limpieza, normalización, enriquecimiento, agregación, análisis y visualización. Esta separación permitió revisar cada etapa sin mezclar edición de datos, interpretación analítica y producción de salidas.

  1. inventario de fuentes y definición de identificadores
  2. limpieza de campos, duplicados y valores inconsistentes
  3. normalización de nombres, regiones, disciplinas y categorías
  4. enriquecimiento con atributos territoriales y relacionales
  5. agregación por participante, región, disciplina y perfil
  6. análisis de redes, temas y patrones de participación
  7. visualización y reporting para uso operativo

Procesamiento

El procesamiento priorizó consistencia y auditabilidad. Cada transformación mantuvo criterios explícitos para reducir ambigüedad y facilitar revisión: qué dato entró, qué regla se aplicó y qué salida produjo.

  • normalización de entidades para consolidar participantes y organizaciones
  • estandarización de regiones, disciplinas, roles y categorías de análisis
  • enriquecimiento con atributos territoriales, temáticos e interdisciplinarios
  • agregación de métricas por región, disciplina, participante y perfil
  • validación cruzada entre registros estructurados y fuentes documentales

Resultados

Las salidas permitieron observar patrones que no eran visibles en los insumos originales. El dataset consolidado funcionó como base para lectura territorial, análisis de redes y seguimiento de criterios de participación.

  • participantes estructurados con atributos comparables
  • distribución regional para detectar concentración y cobertura territorial
  • disciplinas normalizadas para análisis sectorial e interdisciplinario
  • perfiles interdisciplinarios asociados a trayectorias, roles y prácticas
  • redes de actores útiles para identificar nodos, vínculos y posibles brechas

Indicadores obtenidos

  • 53 participantes estructurados
  • 13 regiones representadas
  • 25 territorios analizados
  • 17 disciplinas identificadas
  • motivación dominante: formación
  • perfil interdisciplinario dominante: híbrido

Arquitectura del pipeline

El flujo lógico se organizó como una cadena reproducible entre fuentes, procesamiento, dataset, análisis y visualización. La arquitectura evita tratar los reportes como documentos aislados: cada salida deriva de una capa de datos verificable.

  1. Fuentes: registros, encuestas, notas, transcripciones, listados y metadatos territoriales.
  2. Procesamiento: limpieza, normalización, deduplicación, enriquecimiento y agregación.
  3. Dataset: tablas estructuradas con identificadores, atributos y criterios de trazabilidad.
  4. Análisis: lectura regional, análisis disciplinar, perfiles interdisciplinarios y redes de actores.
  5. Visualización: reportes, tablas, mapas de relación e insumos para decisiones.

Decisiones técnicas

  • separar limpieza, estructuración, análisis, visualización y documentación
  • mantener los datos originales fuera de los procesos de sobrescritura
  • usar nombres de archivos y salidas trazables por módulo
  • trabajar con tablas normalizadas antes de producir reportes
  • versionar criterios, cambios y validaciones con Git
  • publicar salidas agregadas y evitar exponer datos personales en el frontend
  • usar IA como apoyo semántico sobre datos ordenados y reglas explícitas

Aprendizajes

  • La calidad del análisis depende primero de la arquitectura de datos.
  • La trazabilidad permite discutir decisiones sin depender de memoria institucional.
  • La normalización reduce ruido y mejora comparabilidad entre regiones y disciplinas.
  • La agregación debe conservar la posibilidad de volver al registro de origen.
  • La visualización es más útil cuando responde a preguntas de gestión y gobernanza.

Lecciones aprendidas

En sistemas complejos, el valor no está solo en describir actores o actividades, sino en construir evidencia operable. Un pipeline territorial debe permitir observar relaciones, detectar vacíos, comparar criterios y sostener decisiones de gobernanza con datos revisables.

  • Los ecosistemas territoriales requieren modelos de datos flexibles, pero no ambiguos.
  • La gobernanza basada en evidencia necesita criterios explícitos y datos auditables.
  • El análisis de redes ayuda a pasar de listados de actores a lectura sistémica.
  • La inteligencia territorial mejora cuando combina contexto cualitativo con estructura cuantitativa.

Stack utilizado

Python pandas JSON Git GitHub HTML CSS JavaScript vanilla ECharts

Próximos pasos

  • automatizar validaciones
  • integrar dashboards
  • mejorar análisis de redes
  • conectar fuentes externas
  • generar reportes comparables por módulo