Harness Engineering para Agentes de Código IA desde Argentina


Sus desarrolladores activaron agentes de código IA y el throughput subió. Después aparecieron los problemas de segundo orden: drift arquitectónico entre repositorios, patrones inconsistentes que pasan los tests pero se portan mal en producción, controles de seguridad que se aplican en un módulo y se esquivan silenciosamente en otro. Los agentes generan código más rápido que cualquier cadencia razonable de revisión, y las fallas se agrupan de formas que nadie diseñó.

El harness engineering es la práctica emergente que contiene ese desorden. No restringiendo al agente, sino envolviéndolo en restricciones, loops de verificación y sistemas de feedback que hacen su salida predecible y auditable. Construimos esos harnesses desde nuestro centro de entrega en Córdoba para organizaciones de ingeniería en Norteamérica y Europa.

Siblings Software es una empresa de outsourcing de software con base en Córdoba, Argentina, con traslape diario con el huso horario EE. UU. Este. Construimos squads de ingeniería tercerizados desde 2014 y nuestra práctica de IA trata al harness engineering como una capacidad de primera clase, al lado de ingeniería de plataformas.

Diagrama de arquitectura que muestra la salida del agente IA pasando por capas de harness de restricciones, feedback y observabilidad camino a código de producción

Nuestros servicios Contáctenos

Por qué los agentes IA necesitan harnesses, no más prompts

El término ganó tracción a comienzos de 2026, después de que Mitchell Hashimoto (cofundador de HashiCorp) le puso nombre a algo que muchos líderes de ingeniería ya habían concluido a los golpes: cuando un agente se porta mal, el arreglo correcto suele ser cambiar el sistema que lo rodea, no agregar otra oración al prompt. OpenAI reforzó la idea poco después, describiendo cómo shipeó un producto interno sin código escrito a mano invirtiendo en el andamiaje alrededor de sus agentes Codex, más que en los prompts que los guiaban.

El Thoughtworks Technology Radar (Volumen 34, abril de 2026) marcó al harness engineering como una de las macrotendencias definitorias del sector. Su lectura: el espacio pasa de experimentar a buscar repetibilidad y estabilidad. La confiabilidad del agente dejó de ser "una preocupación más" para convertirse en un riesgo de nivel directivo en varias de las empresas con las que hablamos.

El argumento central es simple. Decirle a un agente "seguí nuestros estándares" en el system prompt es como pedirle a alguien recién ingresado que "escriba buen código": funciona a veces. El cumplimiento de un LLM con las instrucciones es probabilístico, no determinista. El mismo agente puede respetar cada convención arquitectónica el lunes e introducir una consulta SQL directa que saltea el ORM el martes. Los prompts sugieren; no hacen cumplir.

Un harness agrega la capa de enforcement. Los archivos AGENTS.md codifican los límites arquitectónicos en un formato que el agente puede razonar. Los gates de CI rechazan el código que los viola antes de que llegue a main. Los loops Plan-Execute-Verify obligan al agente a pasar por checkpoints explícitos. Los dashboards de observabilidad exponen si el harness está funcionando o si aparecen nuevos patrones de falla. Cada capa refuerza a las otras: las restricciones bajan el volumen de fallas, la verificación atrapa lo que se escapa y la observabilidad expone los patrones que ambas capas se pierden.

Comparación ilustrada entre los límites del prompt engineering —cumplimiento probabilístico y presión de la ventana de contexto— y las fortalezas del harness engineering: enforcement determinista y restricciones en capas

Qué construimos

Nuestra práctica de harness engineering cubre cinco áreas de servicio. La mayoría de los engagements arranca con diseño de restricciones y verificación, y se expande hacia orquestación y observabilidad a medida que madura el uso de agentes en el equipo.

Cinco áreas de servicio de harness engineering de Siblings Software: diseño de restricciones con AGENTS.md y archivos de reglas, pipelines de verificación con loops PEV y gates de CI, infraestructura de orquestación de agentes, observabilidad con integración DORA y enablement de equipos con workshops y playbooks

Diseño de restricciones para agentes

Escribimos los AGENTS.md, archivos de reglas y especificaciones de restricción que le dicen al agente qué puede y qué no puede hacer dentro de su base de código. Va mucho más allá del contexto del proyecto. Codificamos límites arquitectónicos (qué módulos no se tocan), requisitos de testing (qué cobertura es obligatoria), reglas de seguridad (cómo se manejan las credenciales) y política de dependencias (qué paquetes están aprobados). La capa de restricciones vive bajo control de versiones y evoluciona con el código.

Pipelines de verificación

Implementamos loops Plan-Execute-Verify (PEV) que empujan al agente por checkpoints explícitos. El agente planifica, ejecuta dentro de un sandbox y la salida se verifica contra su suite de tests, análisis estático, chequeos de conformidad arquitectónica y mutation testing. La verificación fallida vuelve al agente con instrucciones concretas de remediación. Lo integramos al CI/CD que ya usan: GitHub Actions, GitLab CI, Jenkins, Azure DevOps o CircleCI.

Infraestructura de orquestación multi-agente

Para equipos que corren más de un agente (Claude Code en refactors complejos, Copilot en tareas rutinarias, Codex en operaciones batch), construimos la capa de coordinación. Descomposición de tareas para que los agentes trabajen en slices independientes y no choquen en merges. Aislamiento en sandbox por ejecución. Rollback para que corridas fallidas no contaminen main. Es el patrón "orquestación de agentes como nuevo CI/CD" hacia el que está convergiendo la industria.

Observabilidad y métricas

Lo que no se mide no se mejora. Desplegamos dashboards que miden la tasa de resolución de tareas del agente, la tasa pass@1 (si acierta al primer intento), la tasa de rework y el drift arquitectónico. Se integran con métricas DORA para ver cómo afecta el código generado por agentes al rendimiento global de entrega. Los dashboards exponen cuándo un harness está demasiado laxo (muchas fallas) o demasiado estricto (bloqueando trabajo válido).

Enablement y formación del equipo

La parte más difícil del harness engineering es humana, no técnica. Los desarrolladores pasan de escribir código a escribir specs, revisar salidas de agentes y mantener archivos de restricción. Damos workshops sobre desarrollo dirigido por specs, construimos playbooks de flujos de trabajo a medida y ayudamos a gestionar la deuda cognitiva que se acumula cuando los equipos delegan generación de código en agentes sin preservar la comprensión de lo construido.

Nuestro trabajo de harness se conecta naturalmente con nuestra práctica de seguridad de código con IA para la capa de restricciones de seguridad, con nuestro equipo de testing asistido por IA para los pipelines de verificación y con la práctica de AI DevOps para la superficie de CI/CD.

El loop Plan-Execute-Verify

PEV es el patrón que implementamos en casi todos los engagements. Convierte la generación de código por agentes de un flujo "genero y cruzo los dedos" en un proceso de ingeniería estructurado con puertas de calidad que realmente se aplican.

Diagrama del loop Plan-Execute-Verify con tres fases: fase de planificación donde el agente lee specs y chequea restricciones, fase de ejecución donde el agente genera código en un sandbox, y fase de verificación con tests, análisis estático y conformidad arquitectónica

Plan

El agente lee la especificación, carga contexto del proyecto desde AGENTS.md y archivos de reglas, descompone la tarea, chequea las restricciones y propone un abordaje de implementación. Para cambios de alto riesgo insertamos un gate de aprobación humana entre planificación y ejecución. El agente no avanza hasta que el abordaje queda explícitamente validado.

Execute

El agente genera código y tests dentro de un sandbox. La ejecución queda acotada por las restricciones definidas en la planificación. Los cambios bajan como commits incrementales, no como un diff gigante. Si el agente intenta tocar un módulo protegido o importar una dependencia no permitida, la capa de restricciones bloquea la acción antes de llegar al repositorio.

Verify

La suite de tests corre en todos los niveles: unitarios, integración, end-to-end. El análisis estático marca problemas de calidad y de seguridad. Verificadores de conformidad arquitectónica confirman que el cambio respetó los límites de módulo. El mutation testing comprueba que los nuevos tests atrapan bugs reales y no solo ejercitan rutas de código. El feedback de pasa/falla, con contexto, vuelve al agente para reintentar.

Lo que hace diferente al PEV frente a "correr los tests después de que el agente escribió el código" es la fase de planificación. Sin ella, los agentes generan código verosímil que compila y se despliega pero introduce problemas arquitectónicos sutiles. Un plan informado por restricciones reduce esos problemas entre un 60 y un 70 por ciento en los engagements que medimos. El resto lo atrapa la verificación.

AGENTS.md: dónde viven las restricciones

El estándar abierto AGENTS.md, publicado en 2025, le da al agente contexto estructurado del proyecto. El contexto por sí solo no es un harness. La mayoría de los equipos con los que trabajamos ya tiene alguna versión de AGENTS.md o CLAUDE.md cuando llegamos. El archivo suele listar el stack, esbozar algunas convenciones y sumar un puñado de "no hagas esto".

Ese es un punto de partida, no un sistema de restricciones. Un AGENTS.md bien diseñado incluye límites arquitectónicos que se traducen a chequeos de CI aplicables, requisitos de testing ligados a gates específicos de verificación, reglas de seguridad que referencian configuraciones reales de escaneo y política de dependencias alineada con la configuración de su package manager. Deja de ser una lista de sugerencias y se convierte en un contrato entre humanos y agentes.

Estructura de un archivo AGENTS.md con un bloque de contexto del proyecto que lista el stack técnico, una sección de límites arquitectónicos que define guardrails y una sección de requisitos de testing con reglas de verificación

Escribimos AGENTS.md que se comportan como especificaciones ejecutables. Cada restricción en el archivo mapea a un chequeo de CI que la aplica. Cada requisito de testing mapea a un gate de verificación. Cuando el archivo dice "todas las consultas a base pasan por el ORM", hay una regla de análisis estático que atrapa SQL directo. Cuando dice "tests de integración obligatorios para rutas de API", el pipeline bloquea merges que no los tengan.

Cómo corre un engagement en la práctica

La mayoría de los engagements sigue cuatro fases a lo largo de 10 a 14 semanas. Un despliegue enfocado en un solo equipo o un conjunto acotado de repositorios suele llegar a deployment completo en 4 a 6 semanas.

Timeline de un engagement de harness engineering en cuatro fases: auditoría del agente en semanas 1 a 2, diseño del harness en semanas 3 a 5, construcción e integración en semanas 5 a 10 y handoff con entrenamiento en semanas 10 a 14

Fase 1: Auditoría del uso de agentes (semanas 1-2)

Mapeamos el uso real de agentes entre equipos y repositorios. ¿Qué herramientas están usando realmente sus desarrolladores (no cuáles fueron "aprobadas")? ¿Qué porcentaje de commits recientes involucró asistencia de IA? ¿Dónde se concentran las fallas? Medimos métricas base: tasa de resolución de tareas, tasa de rework, drift arquitectónico. La salida es un inventario priorizado de requisitos del harness más un plan de implementación que puede socializar con liderazgo.

Fase 2: Diseño del harness (semanas 3-5)

Con la auditoría en la mano, diseñamos la arquitectura de restricciones. ¿Qué límites requieren enforcement duro? ¿Dónde van los gates de verificación en el pipeline? ¿Qué nivel de supervisión humana corresponde a cada clase de riesgo? ¿Cómo se coordinan los flujos multi-agente? Tomamos esas decisiones con su equipo en la sala. Un harness impuesto desde afuera no sobrevive a la primera semana de uso real.

Fase 3: Construcción e integración (semanas 5-10)

La fase de implementación. AGENTS.md y archivos de reglas por repositorio. Infraestructura del loop PEV. Configuración de gates de CI. Sandboxing de agentes. Dashboards de observabilidad. Calibración de umbrales. Cada componente se ejercita contra flujos reales de agentes, no hipotéticos. Los umbrales se ajustan para evitar sobre-restricción: un harness que bloquea demasiado trabajo válido es peor que no tener harness.

Fase 4: Handoff y entrenamiento (semanas 10-14)

Documentación, runbooks, workshops de escritura de specs y entrenamiento hands-on para mantener el harness mientras evolucionan su base de código y su stack de agentes. Formamos al equipo para actualizar restricciones, ajustar gates de verificación e interpretar los datos de observabilidad. El resultado por defecto es transferencia total de ownership. El soporte continuo es opcional, no asumido.

El harness se engancha con sus pipelines DevOps existentes y convive bien con nuestra práctica de desarrollo de agentes IA si además está construyendo capacidades de agente dentro de su propio producto.

Caso de éxito: ordenar el código generado por agentes en una SaaS transfronteriza

El contexto

Una plataforma SaaS Serie B con cerca de 70 ingenieros distribuidos entre Miami, Buenos Aires y Ciudad de México nos contactó a comienzos de 2026 tras chocar contra un techo en la adopción de herramientas de código IA. El equipo había desplegado Claude Code y Cursor Agent seis meses antes. El throughput por desarrollador subió alrededor de un 40 por ciento según su tracking interno. El liderazgo estaba contento con los números.

Entonces pasaron tres cosas en el mismo mes. Un incidente de producción se rastreó hasta una migración generada por IA que salteó el ORM y rompió la integridad de datos para unos 12.000 registros de clientes. Una auditoría de seguridad detectó inconsistencias en el manejo de credenciales en 8 de sus 14 repositorios, todas en módulos generados por agentes. Y su arquitecto principal se dio cuenta de que el monorepo había desarrollado dos patrones de API competidores porque distintos agentes habían introducido convenciones distintas en servicios distintos, y nadie lo notó hasta que aparecieron fallas de integración.

Intentaron resolverlo con mejores prompts e instrucciones de sistema más elaboradas. Funcionó aproximadamente dos semanas. Después aparecieron instancias nuevas del mismo patrón en otros lugares. Su VP de Ingeniería lo dijo sin vueltas: "no podemos devolver la velocidad, pero tampoco podemos seguir shipeando con esta tasa de defectos".

Qué construimos

Montamos un squad de cinco personas desde Córdoba durante 12 semanas: dos platform engineers, dos especialistas en DevOps y un arquitecto de harness liderando el engagement. Nuestro equipo superpuso cuatro horas diarias con los leads de Miami, algo que importó más de lo esperado cuando hubo que ajustar umbrales de restricción en tiempo real.

Las decisiones centrales:

  • AGENTS.md por repositorio con límites arquitectónicos aplicables. La restricción de "solo ORM" quedó respaldada por una regla de Semgrep que bloquea SQL directo en CI. El patrón duplicado de API se resolvió con una guía de estilo compartida que los agentes deben consultar antes de planificar.
  • Loops PEV en GitHub Actions que obligan a los PRs generados por agente a pasar validación del plan, testing automatizado en tres niveles y chequeos de conformidad arquitectónica antes de permitir el merge.
  • Una capa de coordinación multi-agente que asignó Claude Code a refactors complejos y Cursor a trabajo de features rutinario, con descomposición de tareas para evitar choques entre sesiones concurrentes.
  • Dashboards de observabilidad que trackean tasa de éxito del agente, rework y detección de drift en los 14 repositorios, conectados a su Datadog existente.
Resultados del caso de éxito: la tasa de resolución del agente pasó de 31 a 73 por ciento, el rework cayó 82 por ciento, el throughput de entrega de features subió 2,4x y el cliente evitó alrededor de 1,6 millones de dólares anuales en costo de retrabajo

Seis meses después del despliegue el equipo sostuvo la mejora del 40 por ciento de throughput y llevó la tasa de defectos por debajo de la línea base pre-agente. Su VP de Ingeniería lo resumió como "dejamos de pelear con los agentes y empezamos a trabajar con ellos". Para ver más casos, visite nuestra página de casos de éxito.

Deuda cognitiva: donde la mayoría de los clientes se equivoca

La mayoría de las empresas aborda el harness engineering como un problema puramente técnico. Construir los gates de CI, escribir los archivos de reglas, parar dashboards. Listo. El modo de falla más duro no es técnico. Es la deuda cognitiva: la brecha creciente entre lo que su código hace y lo que su equipo entiende sobre él.

Cuando los agentes generan el 60 o el 70 por ciento del código, los desarrolladores pierden contacto con detalles de implementación que antes sabían de memoria. Un ingeniero senior que antes conocía cada esquina del módulo de autenticación ahora revisa cambios generados por agentes sin el mismo modelo mental. El código funciona. Los tests pasan. La comprensión se erosiona en silencio. Seis meses después, cuando algo se rompe de una forma que los tests no cubrían, nadie en el equipo tiene el contexto para depurarlo rápido.

Espectro de deuda cognitiva que muestra niveles de riesgo desde bajo —donde un humano escribe la spec y revisa la salida—, pasando por moderado —el agente genera y el humano hace spot-check—, hasta alto con autonomía total sin humano en el loop, con el harness engineering manteniendo al equipo en la zona media productiva

Por eso nuestros engagements siempre incluyen el componente de enablement del equipo. Ayudamos a los managers a decidir qué partes del código demandan comprensión humana profunda (rutas críticas de seguridad, lógica de integridad de datos, flujos de pagos de cara al cliente) y qué partes pueden volverse con seguridad "territorio mantenido por agentes" con supervisión más liviana. El objetivo no es maximizar la autonomía del agente. Es encontrar el balance correcto entre velocidad y comprensión para cada equipo.

Cuándo conviene tercerizar el harness engineering a Argentina

No siempre. Un resumen honesto:

Tercerizar tiene sentido cuando

  • No tiene platform engineers con experiencia en confiabilidad de agentes en planta (la mayoría no los tiene; la disciplina casi no existía hace 18 meses).
  • El código generado por agentes ya está causando problemas en producción y necesita harnesses operativos en semanas, no en trimestres.
  • Su equipo usa varias herramientas de IA y necesita harnesses coherentes entre todas ellas.
  • Quiere que el harness se construya una vez, afinado a su código, y se entregue al equipo interno para mantenerlo.
  • Tiene más de 30 ingenieros usando agentes y la sobrecarga de coordinación ya no se resuelve por revisión ad-hoc.
  • Prefiere entrega nearshore con traslape horario con EE. UU. Este, en lugar del ida y vuelta de 12 horas con APAC.

Construirlo in-house tiene más sentido cuando

  • Ya tiene un equipo de platform engineering sólido que solo necesita una arquitectura de referencia y alguien con quien discutir.
  • Su equipo es lo suficientemente chico (menos de 15 ingenieros) como para que la revisión informal siga atrapando la mayoría de los problemas.
  • Usa una sola herramienta de IA y sus necesidades de restricción son acotadas y bien definidas.
  • Tiene entre 6 y 9 meses de pista para iterar sobre el harness sin presión urgente de producción.
Tabla comparativa que muestra ventajas del outsourcing en tiempo hasta el primer harness, perfil de costo y experiencia entre repositorios, versus fortalezas del in-house en mantenimiento a largo plazo y conocimiento institucional profundo

El costo real

Contratar en grandes mercados de EE. UU. un platform engineer con experiencia en harnesses de agentes, un especialista DevOps capaz de construir infraestructura PEV y un arquitecto fluido en coordinación multi-agente supera fácilmente los USD 650.000 anuales en compensación cargada. Además, está contratando en una especialidad con pool de talento muy delgado, porque la disciplina casi no existía hace 18 meses. Nuestro modelo nearshore desde Córdoba entrega el mismo skillset a un 40 a 55 por ciento de ese costo, con ingenieros que traslapan con horarios EE. UU. Este y documentan en inglés por defecto.

Para engagements por proyecto, los harness engineering builds suelen ubicarse entre USD 80.000 y USD 240.000 según el alcance, la cantidad de repositorios, las herramientas de agente en uso y la complejidad del CI/CD. Los engagements enfocados en un solo equipo arrancan cerca de USD 45.000. Los equipos dedicados parten desde USD 24.000 por mes.

Conversemos su proyecto

Cómo medimos la efectividad del harness

Harness engineering sin medición es adivinación. Desplegamos un conjunto compacto de métricas que muestran si el harness funciona y dónde hay que ajustarlo.

Gráfico de barras que compara métricas de confiabilidad del agente antes y después del harness engineering: tasa de resolución sube de 38 a 84 por ciento, pass at 1 de 25 a 67 por ciento, rework baja de 58 a 15 por ciento y drift arquitectónico de 42 a 8 por ciento

Tasa de resolución de tareas. Porcentaje de tareas que el agente resuelve correctamente, verificado contra tests automatizados. Investigación tipo DORA sugiere que los mejores agentes en entornos bien harnessados alcanzan el 65 a 77 por ciento. Sin harness, la mayoría de los equipos queda entre 25 y 40.

Tasa pass@1. Si el agente acierta al primer intento, sin reintentos. Importa porque los reintentos consumen presupuesto de cómputo y atención humana. Un harness bien calibrado empuja pass@1 arriba del 60 por ciento en tareas rutinarias.

Tasa de rework. Qué porcentaje de los PRs generados por agentes requieren intervención humana después del primer pase de verificación. Antes del harness, tasas del 50 a 60 por ciento son comunes. Post-despliegue apuntamos a menos del 15.

Drift arquitectónico. Con qué frecuencia el código generado por agente viola patrones arquitectónicos establecidos. Esta es la métrica que expone la degradación lenta que la revisión PR por PR se pierde. Integramos la detección de drift con su stack de observabilidad existente.

Tres formas de trabajar con nosotros, según dónde esté con la adopción de agentes.

Cómo trabajar con nosotros

Outsourcing
por proyecto

Diseñamos y construimos toda la infraestructura de harness engineering y la entregamos lista. Ideal para empresas que quieren un harness productivo sin gestionar la construcción internamente. Duración típica: 10-14 semanas. Incluye autoría de AGENTS.md, despliegue de loops PEV, configuración de gates de CI, observabilidad y entrenamiento del equipo.

Saber más

Equipo
dedicado

Un equipo continuo embebido en su organización: arquitectos de harness, platform engineers y especialistas DevOps. Mantienen y evolucionan el harness a medida que crece el uso de agentes, incorporan nuevos repositorios, ajustan restricciones y monitorean efectividad. Funcionan como extensión de su equipo de plataforma, con traslape EE. UU. Este.

Contratar equipo

Refuerzo
de equipo

Embebemos harness engineers individuales en su equipo de plataforma o DevOps. Ideal cuando la estrategia ya está definida y hace falta ejecución hands-on para implementar loops PEV, configurar gates de agentes, escribir AGENTS.md o construir dashboards de observabilidad.

Contratar perfiles

Preguntas frecuentes

Es la disciplina de diseñar los entornos, restricciones y loops de feedback que hacen confiables a los agentes de código IA a escala. En lugar de depender de prompts, envuelve al agente en guardrails deterministas: archivos AGENTS.md que codifican límites arquitectónicos, gates de CI que bloquean código no conforme y loops Plan-Execute-Verify que atrapan fallas antes de producción.

Construimos harnesses sobre Claude Code, Cursor (modo Agent), GitHub Copilot Workspace, OpenAI Codex, JetBrains Junie, Augment Code y Amazon Q Developer. Cada uno tiene mecanismos de restricción y modos de falla distintos. Diseñamos harnesses que se mantienen coherentes entre la combinación que usa su equipo, incluyendo orquestación multi-agente.

Los engagements por proyecto suelen ir de USD 80.000 a USD 240.000 según cantidad de repositorios, herramientas de agente en uso y tamaño del equipo. Los engagements enfocados en un solo equipo arrancan cerca de USD 45.000. Los equipos dedicados desde USD 24.000 por mes. Nunca entregamos una cotización a ciegas: escopeamos cada engagement tras una llamada de descubrimiento.

Los harnesses de restricción básicos y los AGENTS.md suelen estar operativos en dos semanas, con caída medible en el rework del agente entre la cuarta y la sexta. Los despliegues empresariales completos con loops PEV, orquestación multi-agente y observabilidad toman 10 a 14 semanas. Los rollouts por equipo pueden llegar a despliegue completo en 4 a 6 semanas.

Sí. Córdoba traslapa con horario EE. UU. Este la mayor parte del año. Los stand-ups caen en horarios razonables para ambos lados, las revisiones de diseño son sincrónicas y el feedback sobre cambios al harness llega el mismo día. Para harness engineering eso importa más que para otras prácticas, porque el ajuste fino de restricciones necesita iteración estrecha con su propio equipo, no un handoff a la noche.

La transferencia total de ownership es lo default. Entregamos runbooks, documentación interna, workshops de escritura de specs y entrenamiento hands-on para que su equipo mantenga, extienda y ajuste el harness sin nosotros. El soporte continuo está disponible pero no va incluido en el costo del proyecto. Varios clientes mantienen un arquitecto de harness a tiempo parcial con nosotros entre 6 y 12 meses post-handoff, sobre todo para revisiones trimestrales a medida que su stack evoluciona.

Servicios relacionados

Contáctenos