El problema de la transparencia
Los distritos escolares producen muchísimos datos públicos. Presupuestos, reuniones de la junta, números de inscripción, resultados de exámenes, planes de mejora escolar. Casi nada de eso es fácil de encontrar, y menos de entender.
Yo soy miembro de la mesa directiva del Distrito Escolar de Redwood City. He visto a papás y mamás tratar de navegar los portales de BoardDocs, leer documentos de presupuesto en PDF, y rendirse tratando de saber cuándo es la próxima reunión de la junta. Y eso que son familias que sí quieren participar. Si ellos no lo pueden encontrar, ¿quién?
No debería ser tan difícil. La información ya es pública. Solo falta organizarla y hacerla fácil de buscar.
Por eso hice rcsd.info, un portal de datos independiente y de código abierto que junta registros públicos de unas doce fuentes y los pone en un solo lugar, en inglés y español.
Qué hay en el sitio
Hasta hoy, rcsd.info cubre:
- 58 reuniones de la junta con agendas, actas, 1,724 documentos adjuntos y links al video con marcas de tiempo
- 49 transcripciones completas de las reuniones, hechas del audio de YouTube con AssemblyAI
- 12 perfiles de escuelas con inscripción, demografía, horarios, datos SARC y links a recursos para familias
- Calendarios del distrito para 2025-26 y 2026-27
- Datos de presupuesto y rendimiento del LCAP, informes intermedios y el Dashboard Escolar de California
- Datos de educación especial por escuela y grado
Todo es bilingüe y funciona en el teléfono.
Cómo funciona el pipeline
La arquitectura es simple a propósito. Sin frameworks, sin base de datos, sin CMS. Son scripts de Node.js que:
- Extraen agendas de reuniones de BoardDocs y Simbli (el distrito ha usado dos portales diferentes)
- Descargan los videos y audio de YouTube de las reuniones de la junta
- Transcriben el audio con Universal 3 Pro de AssemblyAI, que maneja bien la mezcla de inglés y español
- Conectan los puntos de la agenda con los momentos del video usando Claude Haiku
- Generan páginas HTML de archivos JSON
- Publican en Cloudflare Pages, con los datos en R2
Cada script es idempotente: no repite trabajo que ya hizo. Puedes borrar todo el output y correrlo de nuevo desde cero. Sin pasos manuales, sin credenciales especiales aparte de las API keys para la transcripción.
También hay un servidor MCP (Model Context Protocol) para que asistentes de IA como Claude puedan consultar los datos directamente. Le puedes preguntar sobre horarios, agendas, menús de almuerzo, lo que sea.
De dónde vienen los datos
Si vas a publicar datos sobre un distrito escolar, tienes que poder rastrear cada número hasta su fuente. Eso aquí no es negociable:
- Cada pipeline tiene un documento de metodología que explica de dónde vienen los datos y qué transformaciones se les hacen
- Lo que genera la IA (resúmenes de reuniones, mapeo de timestamps) está marcado como tal
- Los documentos fuente tienen links a los originales en los sitios del distrito
- Todo el código es público en GitHub
Las familias, periodistas y otros miembros de la junta necesitan poder confiar en estos datos. Si algo se ve mal, cualquiera puede rastrearlo hasta la fuente y reportar el problema.
Qué me gustaría hacer después
El sitio funciona hoy, pero hay una lista larga de cosas que todavía no he hecho:
- Tendencias de resultados CAASPP por escuela, grado y grupo demográfico
- Mejor cobertura de comités (DLAC, comité de LCAP, seguridad) que no siempre publican actas
- Transcripción en vivo y seguimiento de la agenda durante las reuniones de la junta
- Perfiles de escuelas más completos: retención de maestros, tamaño de clases, resultados de encuestas de familias
- Comparaciones con distritos vecinos
Úsalo para tu distrito
La razón por la que esto es código abierto es para que alguien más lo pueda usar. Si tu distrito usa BoardDocs o Simbli (la mayoría en California sí), los scripts deberían funcionar con pocos cambios:
- Haz fork del repo en GitHub
- Actualiza
data/schools.jsoncon las escuelas de tu distrito - Apunta el scraper a la instancia de BoardDocs o Simbli de tu distrito
- Agrega el canal de YouTube de tu distrito
- Corre el pipeline
La parte más difícil son los datos extras: calendarios, demografía, documentos de presupuesto. Eso varía mucho entre distritos y casi siempre requiere algo de trabajo manual.
Participa
Este es un proyecto voluntario de una sola persona. Soy ingeniero de software y también estoy en la mesa directiva de RCSD. Si quieres ayudar o tienes alguna pregunta:
- Código y issues: dweekly/rcsd-meetings en GitHub
- Email: [email protected]
- Si hay datos públicos de RCSD que te gustaría que fueran más fáciles de encontrar, dime