Datos abiertos para un distrito escolar: por qué y cómo

El problema de la transparencia

Los distritos escolares producen muchísimos datos públicos. Presupuestos, reuniones de la junta, números de inscripción, resultados de exámenes, planes de mejora escolar. Casi nada de eso es fácil de encontrar, y menos de entender.

Yo soy miembro de la mesa directiva del Distrito Escolar de Redwood City. He visto a papás y mamás tratar de navegar los portales de BoardDocs, leer documentos de presupuesto en PDF, y rendirse tratando de saber cuándo es la próxima reunión de la junta. Y eso que son familias que sí quieren participar. Si ellos no lo pueden encontrar, ¿quién?

No debería ser tan difícil. La información ya es pública. Solo falta organizarla y hacerla fácil de buscar.

Por eso hice rcsd.info, un portal de datos independiente y de código abierto que junta registros públicos de unas doce fuentes y los pone en un solo lugar, en inglés y español.

Qué hay en el sitio

Hasta hoy, rcsd.info cubre:

58 reuniones de la junta con agendas, actas, 1,724 documentos adjuntos y links al video con marcas de tiempo
49 transcripciones completas de las reuniones, hechas del audio de YouTube con AssemblyAI
12 perfiles de escuelas con inscripción, demografía, horarios, datos SARC y links a recursos para familias
Calendarios del distrito para 2025-26 y 2026-27
Datos de presupuesto y rendimiento del LCAP, informes intermedios y el Dashboard Escolar de California
Datos de educación especial por escuela y grado

Todo es bilingüe y funciona en el teléfono.

Cómo funciona el pipeline

La arquitectura es simple a propósito. Sin frameworks, sin base de datos, sin CMS. Son scripts de Node.js que:

Extraen agendas de reuniones de BoardDocs y Simbli (el distrito ha usado dos portales diferentes)
Descargan los videos y audio de YouTube de las reuniones de la junta
Transcriben el audio con Universal 3 Pro de AssemblyAI, que maneja bien la mezcla de inglés y español
Conectan los puntos de la agenda con los momentos del video usando Claude Haiku
Generan páginas HTML de archivos JSON
Publican en Cloudflare Pages, con los datos en R2

Cada script es idempotente: no repite trabajo que ya hizo. Puedes borrar todo el output y correrlo de nuevo desde cero. Sin pasos manuales, sin credenciales especiales aparte de las API keys para la transcripción.

También hay un servidor MCP (Model Context Protocol) para que asistentes de IA como Claude puedan consultar los datos directamente. Le puedes preguntar sobre horarios, agendas, menús de almuerzo, lo que sea.

De dónde vienen los datos

Si vas a publicar datos sobre un distrito escolar, tienes que poder rastrear cada número hasta su fuente. Eso aquí no es negociable:

Cada pipeline tiene un documento de metodología que explica de dónde vienen los datos y qué transformaciones se les hacen
Lo que genera la IA (resúmenes de reuniones, mapeo de timestamps) está marcado como tal
Los documentos fuente tienen links a los originales en los sitios del distrito
Todo el código es público en GitHub

Las familias, periodistas y otros miembros de la junta necesitan poder confiar en estos datos. Si algo se ve mal, cualquiera puede rastrearlo hasta la fuente y reportar el problema.

Qué me gustaría hacer después

El sitio funciona hoy, pero hay una lista larga de cosas que todavía no he hecho:

Tendencias de resultados CAASPP por escuela, grado y grupo demográfico
Mejor cobertura de comités (DLAC, comité de LCAP, seguridad) que no siempre publican actas
Transcripción en vivo y seguimiento de la agenda durante las reuniones de la junta
Perfiles de escuelas más completos: retención de maestros, tamaño de clases, resultados de encuestas de familias
Comparaciones con distritos vecinos

Úsalo para tu distrito

La razón por la que esto es código abierto es para que alguien más lo pueda usar. Si tu distrito usa BoardDocs o Simbli (la mayoría en California sí), los scripts deberían funcionar con pocos cambios:

Haz fork del repo en GitHub
Actualiza data/schools.json con las escuelas de tu distrito
Apunta el scraper a la instancia de BoardDocs o Simbli de tu distrito
Agrega el canal de YouTube de tu distrito
Corre el pipeline

La parte más difícil son los datos extras: calendarios, demografía, documentos de presupuesto. Eso varía mucho entre distritos y casi siempre requiere algo de trabajo manual.

Participa

Este es un proyecto voluntario de una sola persona. Soy ingeniero de software y también estoy en la mesa directiva de RCSD. Si quieres ayudar o tienes alguna pregunta:

Código y issues: dweekly/rcsd-meetings en GitHub
Email: [email protected]
Si hay datos públicos de RCSD que te gustaría que fueran más fáciles de encontrar, dime