Un experimento para entender qué pueden hacer realmente los modelos de IA — y dónde todavía hace falta que intervenga un humano.
Vibe Arcade es un experimento de una sola persona, iniciado a principios de 2026, para averiguar qué pueden hacer realmente los modelos de IA actuales de forma autónoma en trabajos de software reales y de larga duración — y, igual de importante, dónde están los puntos débiles y dónde un humano todavía tiene que intervenir.
El planteamiento: un pipeline nocturno planifica un nuevo juego HTML5, lo programa, ejecuta lint + seguridad + una rúbrica de jugabilidad, y lo registra si supera cada filtro. Si algo falla, lo reviso por la mañana. Hasta ahora han salido de aquí más de 30 juegos jugables. Todos son gratis en el navegador — sin registro, sin instalación, sin anuncios, sin captura de correo electrónico.
Los juegos en sí son un producto secundario. El resultado real es un conjunto de notas continuas: con qué me sorprendió la IA, dónde falló de forma silenciosa, qué mejoró entre versiones del modelo, qué tipo de tareas le confío ahora frente a aquellas en las que todavía mantengo una revisión humana estricta. Las publico como artículos del tipo «cómo lo construimos» en el blog. Cada uno es un punto de datos dentro del experimento más amplio.
Los benchmarks son fáciles de manipular; este sitio es un intento de generar una señal real de seguimiento en su lugar.
Tres preguntas abiertas impulsan el experimento:
Juego a juego, ¿qué fracción del trabajo supera cada filtro sin intervención humana? Tras ocho semanas, más noches publican limpiamente de las que no — pero los modos de fallo siguen siendo informativos cuando ocurren.
Algunas categorías de fallo se repiten (calidad de contenido que pasa el lint estructural, mecánicas novedosas que necesitan muchas pasadas de QA humano, problemas de iframe entre entornos). Hacer un seguimiento a lo largo de las versiones del modelo me dice qué está mejorando realmente en la práctica, no en los benchmarks.
El auto-merge supera seguridad, lint y la rúbrica de jugabilidad. Mantengo la revisión manual para todo lo que toque la arquitectura central, todo lo sensible a la calidad del contenido y todo lo que pudiera fallar de forma silenciosa en producción. La frontera entre esas categorías se sigue moviendo a medida que mejoran la rúbrica y los filtros de lint.
El pipeline es el aparato experimental. Cada juego pasa por la misma secuencia de filtros; los resultados se acumulan entre ejecuciones porque cada juego se construye sobre la misma infraestructura compartida (CSS, widget de leaderboard, lint de integración).
Un modelo de planificación escribe una especificación detallada a partir del concepto — género, tema, fórmula de puntuación, lista de integración, nombres, notas sobre marcas registradas. O bien soy yo quien escribe el concepto, o tomo la propuesta más votada del tablón de ideas del sitio.
Los modelos de implementación construyen el juego por iteraciones. Cada iteración ejecuta una rúbrica de QA de 60 puntos (jugabilidad, apartado visual, diversión, integración, móvil, código) y deja comentarios para la siguiente pasada. La mayoría de juegos superan el umbral de 56 puntos en 3 o 4 iteraciones.
Reglas estructurales: conexión del leaderboard, dimensiones del canvas, etiquetas del schema, prohibición de ciertos imports, etc. Grep es aproximadamente 10× más barato que una pasada del modelo y detecta una cantidad sorprendente de problemas — así que el pipeline ejecuta lint primero y solo gasta tokens del modelo en aquello que grep no puede comprobar.
Primero las categorías universales (las del estilo OWASP), después una capa específica del proyecto orientada a la infraestructura concreta que usa este sitio. La capa específica del proyecto detecta más problemas reales que la universal — los modelos genéricos pueden pasar por alto patrones propios del framework.
Pasada de puntuación final. Si la puntuación supera el umbral y todos los filtros están en verde, la compilación se fusiona automáticamente. Si algo falla, la ejecución pasa a revisión manual por la mañana.
Un pipeline de mejora aparte se ejecuta un par de veces por semana para profundizar en los juegos ya existentes — así es como los juegos crecen más allá de su compilación nocturna inicial.
Tras ocho semanas. Observaciones concretas, no abstracciones:
main.css solucionó la respuesta al toque en tabletas en los más de 20 juegos con un solo commit, en lugar de 20 ediciones, una por juego. Pasar de una interfaz de chat (donde cada juego se construía de forma independiente) a un pipeline unificado es lo que hizo posible que el CSS compartido, un widget universal de leaderboard y las convenciones estructurales fueran consistentes en cada nueva compilación.Si te interesan los escritos más largos, cada juego tiene un artículo del tipo «cómo lo construimos» en el blog con lo que me sorprendió, lo que falló y lo que cambió entre iteraciones.
Unas cuantas aclaraciones honestas, ya que la etiqueta de «experimento» puede resultar ambigua: