Acerca de Vibe Arcade

Un experimento para entender qué pueden hacer realmente los modelos de IA — y dónde todavía hace falta que intervenga un humano.

Qué Es Esto

Vibe Arcade es un experimento de una sola persona, iniciado a principios de 2026, para averiguar qué pueden hacer realmente los modelos de IA actuales de forma autónoma en trabajos de software reales y de larga duración — y, igual de importante, dónde están los puntos débiles y dónde un humano todavía tiene que intervenir.

El planteamiento: un pipeline nocturno planifica un nuevo juego HTML5, lo programa, ejecuta lint + seguridad + una rúbrica de jugabilidad, y lo registra si supera cada filtro. Si algo falla, lo reviso por la mañana. Hasta ahora han salido de aquí más de 30 juegos jugables. Todos son gratis en el navegador — sin registro, sin instalación, sin anuncios, sin captura de correo electrónico.

Los juegos en sí son un producto secundario. El resultado real es un conjunto de notas continuas: con qué me sorprendió la IA, dónde falló de forma silenciosa, qué mejoró entre versiones del modelo, qué tipo de tareas le confío ahora frente a aquellas en las que todavía mantengo una revisión humana estricta. Las publico como artículos del tipo «cómo lo construimos» en el blog. Cada uno es un punto de datos dentro del experimento más amplio.

Los benchmarks son fáciles de manipular; este sitio es un intento de generar una señal real de seguimiento en su lugar.

Lo Que Estoy Intentando Averiguar

Tres preguntas abiertas impulsan el experimento:

1. ¿Cuánto de un proyecto de software no trivial puede manejar la IA de forma autónoma?

Juego a juego, ¿qué fracción del trabajo supera cada filtro sin intervención humana? Tras ocho semanas, más noches publican limpiamente de las que no — pero los modos de fallo siguen siendo informativos cuando ocurren.

2. ¿Dónde aparecen los puntos débiles — y cómo cambian a medida que los modelos mejoran?

Algunas categorías de fallo se repiten (calidad de contenido que pasa el lint estructural, mecánicas novedosas que necesitan muchas pasadas de QA humano, problemas de iframe entre entornos). Hacer un seguimiento a lo largo de las versiones del modelo me dice qué está mejorando realmente en la práctica, no en los benchmarks.

3. ¿Dónde sigue siendo necesario que intervenga un humano?

El auto-merge supera seguridad, lint y la rúbrica de jugabilidad. Mantengo la revisión manual para todo lo que toque la arquitectura central, todo lo sensible a la calidad del contenido y todo lo que pudiera fallar de forma silenciosa en producción. La frontera entre esas categorías se sigue moviendo a medida que mejoran la rúbrica y los filtros de lint.

Cómo Funciona el Pipeline

El pipeline es el aparato experimental. Cada juego pasa por la misma secuencia de filtros; los resultados se acumulan entre ejecuciones porque cada juego se construye sobre la misma infraestructura compartida (CSS, widget de leaderboard, lint de integración).

1. Especificación

Un modelo de planificación escribe una especificación detallada a partir del concepto — género, tema, fórmula de puntuación, lista de integración, nombres, notas sobre marcas registradas. O bien soy yo quien escribe el concepto, o tomo la propuesta más votada del tablón de ideas del sitio.

2. Andamiaje + iteración

Los modelos de implementación construyen el juego por iteraciones. Cada iteración ejecuta una rúbrica de QA de 60 puntos (jugabilidad, apartado visual, diversión, integración, móvil, código) y deja comentarios para la siguiente pasada. La mayoría de juegos superan el umbral de 56 puntos en 3 o 4 iteraciones.

3. Filtro de lint (basado en grep)

Reglas estructurales: conexión del leaderboard, dimensiones del canvas, etiquetas del schema, prohibición de ciertos imports, etc. Grep es aproximadamente 10× más barato que una pasada del modelo y detecta una cantidad sorprendente de problemas — así que el pipeline ejecuta lint primero y solo gasta tokens del modelo en aquello que grep no puede comprobar.

4. Filtro de seguridad (en dos niveles)

Primero las categorías universales (las del estilo OWASP), después una capa específica del proyecto orientada a la infraestructura concreta que usa este sitio. La capa específica del proyecto detecta más problemas reales que la universal — los modelos genéricos pueden pasar por alto patrones propios del framework.

5. Rúbrica de jugabilidad y decisión de publicación

Pasada de puntuación final. Si la puntuación supera el umbral y todos los filtros están en verde, la compilación se fusiona automáticamente. Si algo falla, la ejecución pasa a revisión manual por la mañana.

Un pipeline de mejora aparte se ejecuta un par de veces por semana para profundizar en los juegos ya existentes — así es como los juegos crecen más allá de su compilación nocturna inicial.

Lo Que He Encontrado Hasta Ahora

Tras ocho semanas. Observaciones concretas, no abstracciones:

Si te interesan los escritos más largos, cada juego tiene un artículo del tipo «cómo lo construimos» en el blog con lo que me sorprendió, lo que falló y lo que cambió entre iteraciones.

Gratis, Solo, Código Cerrado

Unas cuantas aclaraciones honestas, ya que la etiqueta de «experimento» puede resultar ambigua: