The Closing Window
La Fábrica de Software: Desarrollo Impulsado por IA sin Revisión Humana de Código image

La Fábrica de Software: Desarrollo Impulsado por IA sin Revisión Humana de Código

AI Insights

Fuente: Software Factory por Simon Willison (7 de feb. de 2026)

Simon Willison cubre cómo el equipo de IA de StrongDM ha implementado lo que Dan Shapiro llama el nivel "Dark Factory" de adopción de IA — donde ningún humano escribe ni siquiera revisa el código que producen los coding agents. Su informe completo: Software Factories and the Agentic Moment.

Principios Fundamentales

El equipo de IA de StrongDM (fundado en julio de 2025, solo 3 personas) opera bajo restricciones radicales:

  • El código no debe ser escrito por humanos
  • El código no debe ser revisado por humanos
  • Si no has gastado al menos $1,000 en tokens/día por ingeniero, tu fábrica de software tiene margen de mejora

El catalizador: con Claude 3.5 Sonnet revisión 2 (octubre de 2024), los flujos de trabajo de codificación agéntica de largo plazo comenzaron a acumular corrección en lugar de acumular errores. El punto de inflexión de noviembre de 2025 (Claude Opus 4.5, GPT 5.2) mejoró aún más la confiabilidad.

Innovación Clave #1: Pruebas de Escenarios como Holdout Sets

El problema: Si los agents escriben tanto la implementación COMO las pruebas, pueden hacer trampa (assert true). ¿Cómo demuestras que el software producido por agents realmente funciona?

La solución: Tomar prestado del ML — tratar los escenarios de prueba como holdout sets en el entrenamiento de modelos:

  • "User stories" de extremo a extremo almacenadas fuera del codebase, invisibles para los coding agents
  • Pasar de pass/fail booleano a satisfacción probabilística: "de todas las trayectorias observadas a través de todos los escenarios, ¿qué fracción probablemente satisface al usuario?"
  • Replica efectivamente pruebas QA externas agresivas — históricamente costosas pero altamente efectivas

Por qué esto importa para los desarrolladores: Esto reenmarca la filosofía de testing de "¿hace este código lo que le dije?" hacia "¿satisface este sistema a los usuarios en escenarios realistas?" Es un cambio de mentalidad de corrección por unit tests a validación conductual.

Innovación Clave #2: Digital Twin Universe (DTU)

El problema: No puedes ejecutar miles de pruebas de integración por hora contra APIs SaaS reales (rate limits, costos, detección de abuso).

La solución: Hacer que los coding agents construyan clones conductuales de servicios de terceros:

  • Construyeron twins de Okta, Jira, Slack, Google Docs, Google Drive, Google Sheets
  • Replican sus APIs, casos extremos y comportamientos observables
  • Alimentan la documentación pública completa de APIs al harness del agent para producir binarios Go autocontenidos
  • Colocan UIs simplificadas encima para simulación completa

El desbloqueo: Crear clones de alta fidelidad de aplicaciones SaaS siempre fue posible pero nunca económicamente viable. Los LLM agents colapsan el costo de construir estas réplicas. Ahora puedes:

  • Validar en volúmenes que exceden los límites de producción
  • Probar modos de falla que serían peligrosos contra servicios en vivo
  • Ejecutar miles de escenarios/hora sin rate limits ni costos de API

Por qué esto importa para los desarrolladores: Incluso si no estás construyendo una "fábrica de software" completa, el concepto DTU es directamente aplicable. Cualquier equipo que haga pruebas de integración contra APIs externas puede beneficiarse de mocks de servicios generados por agents que van mucho más allá de los stubs escritos a mano.

Innovación Clave #3: Técnicas Reutilizables de Agents

StrongDM publicó varios patrones con nombre en su página de técnicas:

Técnica Descripción Aplicación para Desarrolladores
Gene Transfusion Los agents extraen patrones de sistemas existentes y los reutilizan en otros lugares Migrar patrones arquitectónicos entre servicios automáticamente
Semports Porteo directo de código de un lenguaje a otro Migraciones entre lenguajes (ej., servicio Python a Go)
Pyramid Summaries Múltiples niveles de resumen — los agents enumeran resúmenes cortos primero, profundizan en detalles según sea necesario Gestionar codebases grandes con agents; carga progresiva de contexto

Innovación Clave #4: Software de Agents Guiado por Specs (Attractor)

StrongDM lanzó Attractor — su coding agent no interactivo — como un repositorio que contiene cero código. Solo tres archivos markdown describiendo la spec en detalle meticuloso, con instrucciones para alimentarlos al coding agent de tu elección.

Esto representa un cambio donde la especificación ES la distribución de software. La suposición: cualquier coding agent competente puede implementar a partir de una spec suficientemente buena.

Conclusiones Prácticas

  1. Separar la creación de pruebas de la creación de código: Incluso sin ir a la "dark factory" completa, mantener las definiciones de escenarios fuera del contexto visible del agent previene el engaño.

  2. Invertir en simulación de entornos: Los mocks/twins de servicios generados por agents son ahora económicamente viables y mejoran drásticamente el rendimiento de las pruebas.

  3. Validación probabilística sobre pruebas binarias: Considera medir "tasas de satisfacción" a través de trayectorias de escenarios en lugar de solo suites de pruebas pass/fail.

  4. Gestión progresiva de contexto: Las Pyramid Summaries ayudan a los agents a navegar codebases grandes sin desbordar la ventana de contexto.

  5. Desarrollo spec-first: Las especificaciones bien escritas se convierten en el artefacto principal; la implementación se vuelve fungible.

Verificación de la Realidad de Costos

El objetivo de $1,000/día por ingeniero ($20,000/mes) plantea serias preguntas sobre la viabilidad económica. Willison señala que esto hace que el enfoque sea "mucho menos interesante" a ese precio — se convierte en un ejercicio de modelo de negocio más que en una técnica universal. Además, los competidores podrían potencialmente clonar funcionalidades con unas pocas horas de trabajo de agents, desafiando los fosos tradicionales de software.

Para desarrolladores individuales y equipos más pequeños, los patrones conceptuales (holdout testing, DTU, Pyramid Summaries) son valiosos incluso con niveles de gasto mucho más bajos, como el plan Claude Max de $200/mes.

Lanzamientos Open Source

  • Attractor: Repositorio solo de specs para un coding agent no interactivo
  • cxdb: AI Context Store — DAG inmutable para historiales de conversación y outputs de herramientas (16K líneas Rust, 9.5K Go, 6.7K TypeScript)

Powered by Buttondown.