Open source y desarrollo asistido por inteligencia artificial: navegando los problemas legales

15 de octubre de 2025Chris Wright, Richard Fontana8 minutos de lectura

En la publicación anterior de esta serie, hablamos sobre cómo la inteligencia artificial está comenzando a cambiar la forma en que se desarrolla el software. En este seguimiento, nos centramos en algunos de los principales problemas legales (o cuasi legales) que los propios desarrolladores de open source han planteado en relación con el desarrollo asistido por inteligencia artificial.

Este no es un resumen completo de todos los problemas legales relacionados con la inteligencia artificial. No abordamos, por ejemplo, las inquietudes de los clientes sobre el cumplimiento de las normas de inteligencia artificial o los problemas de responsabilidad relacionados con los contratos de productos impulsados por inteligencia artificial. En cambio, nos centramos en los problemas que se debaten activamente dentro de las comunidades open source.

Nuestras opiniones sobre estos temas reflejan nuestro compromiso con el uso responsable de las tecnologías de inteligencia artificial y nuestra filosofía de "open source de manera predeterminada". Creemos que los enfoques colaborativos y transparentes son la mejor manera de abordar estas inquietudes de manera constructiva.

Atribución y marcado

La atribución es una norma legal y cultural fundamental en el open source. Por lo general, las licencias requieren que conserves los avisos de derechos de autor y de atribución, y que evites afirmaciones engañosas sobre la autoría.

El desarrollo asistido por inteligencia artificial complica esto. Debido a que los sistemas de inteligencia artificial no se consideran "autores" según la ley de derechos de autor, técnicamente no hay nadie a quien acreditar. Sin embargo, sería engañoso que un desarrollador presentara resultados sustanciales generados por la inteligencia artificial como si fueran su propio trabajo.

Por eso, cada vez más proyectos open source adoptan reglas de divulgación para las contribuciones asistidas por inteligencia artificial, inspirándose en las normas de divulgación de otros campos, como el etiquetado de medios sintéticos. Marcar las contribuciones ayuda a preservar tanto la claridad legal como la confianza de la comunidad, y facilita que los revisores evalúen el código en contexto.

Apoyamos el marcado, pero no creemos que deba ser demasiado prescriptivo. Los usos relativamente triviales de la inteligencia artificial (como autocompletar el nombre de una variable o sugerir una cadena de documentación) no deberían requerir divulgación. Para usos más sustanciales, el marcado puede ser tan simple como un comentario en el código fuente, una nota en una solicitud de fusión o un pie de confirmación como Assisted-by: (otros candidatos utilizados por algunos proyectos incluyen Generated-by: y Co-authored by:).

Derechos de autor y trámites de licencia

Por muy importante que sea la atribución, el open source depende aún más de las concesiones de licencias claras. Esto plantea una pregunta práctica: ¿cómo deberían funcionar los avisos de licencia cuando una contribución incluye material generado por inteligencia artificial sin derechos de autor?

En la mayoría de los casos, en los que los avisos de licencia ya existen en un repositorio o archivo fuente individual, nada debería cambiar. Debido a la naturaleza altamente funcional del código, los archivos fuente generalmente son una combinación de material sujeto a derechos de autor y no sujeto a derechos de autor, y las concesiones de licencias open source se aplican solo a las partes protegidas por derechos de autor. En el caso de las contribuciones sustanciales generadas por la inteligencia artificial, la divulgación mediante el marcado complementa los avisos de licencia existentes y es la manera correcta de evitar que alguien se confunda.

El caso más difícil es cuando la inteligencia artificial genera un archivo fuente completo, o incluso un repositorio completo. En este caso, agregar un aviso de derechos de autor y licencia puede ser inadecuado, a menos que las contribuciones humanas transformen el archivo en una obra sujeta a derechos de autor. Sin embargo, dada la norma de que los repositorios open source deben tener un archivo LICENSE global, es razonable agregar una licencia open source ultrapermisiva familiar (por ejemplo, la Unlicense) como la licencia global de un repositorio generado por inteligencia artificial, aunque técnicamente dichas licencias presuponen la existencia de derechos de autor. A medida que se agregan contribuciones humanas, los mantenedores pueden revisar esta elección de licencia inicial; debido a la falta de colaboradores humanos anteriores, esto será más fácil que el escenario típico en el que se vuelve a licenciar un proyecto open source. Esperamos que las prácticas evolucionen con los cambios en la ley y una mayor experiencia de la comunidad con las herramientas de inteligencia artificial.

¿Son las herramientas de inteligencia artificial "máquinas de plagio"?

Algunos desarrolladores open source se muestran escépticos, y en ocasiones incluso hostiles, hacia el desarrollo asistido por inteligencia artificial, y acusan a los modelos de inteligencia artificial de ser "máquinas de plagio" o mecanismos de "blanqueo de derechos de autor".

Hay dos versiones de esta preocupación. El primero es práctico: una herramienta de inteligencia artificial podría insertar de forma encubierta extractos de código propietario (o incompatible con la licencia) en un proyecto open source, lo que podría crear un riesgo legal para los mantenedores y los usuarios. El segundo es más amplio y más filosófico: los modelos de lenguaje de gran tamaño, entrenados en grandes cantidades de software open source, básicamente se apropian indebidamente del trabajo de la comunidad y producen resultados despojados de las obligaciones que requieren las licencias open source.

Creemos que estas inquietudes merecen ser tomadas en serio. Es cierto que los grandes modelos de lenguaje son capaces, en algunos casos, de emitir extractos no triviales de sus datos de entrenamiento. Si ese fuera un comportamiento frecuente o inevitable, sería una buena razón para evitar el uso de estas herramientas por completo.

Pero la evidencia sugiere lo contrario. Cuando se lanzó GitHub Copilot, hubo afirmaciones ampliamente publicitadas de que sus sugerencias se copiaban de proyectos open source. Cuando esas afirmaciones se corroboraban, generalmente implicaban esfuerzos deliberados para convencer a la herramienta de que reprodujera el código conocido textualmente, lo cual no es un uso común. Desde entonces, no hemos visto evidencia creíble de que las herramientas de desarrollo de inteligencia artificial ampliamente utilizadas repliquen de manera sistemática partes de los datos de capacitación que son lo suficientemente importantes como para generar problemas de derechos de autor.

La idea errónea que subyace en gran parte de la narrativa de la "máquina de plagio" es que los modelos de inteligencia artificial generativa son una especie de compresión con pérdida de sus datos de entrenamiento. En realidad, el comportamiento normal de los modelos es generar texto novedoso basado en patrones estadísticos que han aprendido. El hecho de que estén capacitados en código open source no significa que su salida sea una reproducción de ese código.

Dicho esto, no se puede ignorar la posibilidad de replicación ocasional. Los desarrolladores que utilizan herramientas de inteligencia artificial deben estar atentos a este riesgo y tratar los resultados generados por la inteligencia artificial como algo que se debe revisar con el mismo cuidado que cualquier otra contribución. Cuando las herramientas de desarrollo de inteligencia artificial brinden funciones para detectar o marcar sugerencias extensas que coincidan con el código open source existente, se deben habilitar esas funciones. En combinación con las prácticas de divulgación y la supervisión humana, estos pasos son una forma práctica de mitigar la preocupación por la replicación sin tratar todo el uso de la inteligencia artificial como inherentemente viciado.

Las contribuciones asistidas por inteligencia artificial y el DCO

Los proyectos que usan el Certificado de origen para desarrolladores (DCO) han planteado inquietudes particulares sobre las contribuciones asistidas por inteligencia artificial. El DCO, que llevamos mucho tiempo sugiriendo como una práctica recomendada de desarrollo open source, requiere que los colaboradores certifiquen que tienen derecho a enviar su trabajo bajo la licencia del proyecto. Algunos desarrolladores argumentan que, debido a que los resultados de las herramientas de inteligencia artificial pueden incluir material desconocido o no divulgado, nadie puede aprobar legítimamente el DCO para el código asistido por inteligencia artificial. Esta visión ha llevado a algunos proyectos que usan DCO a prohibir por completo las contribuciones asistidas por inteligencia artificial.

Entendemos esta preocupación, pero nunca se ha interpretado que el DCO requiera que cada línea de una contribución deba ser la expresión creativa personal del colaborador u otro desarrollador humano. Muchas contribuciones contienen material rutinario no sujeto a derechos de autor, y los desarrolladores aún las firman. El objetivo real del DCO es la responsabilidad. El colaborador cree que tiene derecho a usar la contribución en un trabajo que se rige (en cuanto a sus elementos protegidos por derechos de autor) por una licencia open source particular. Los mantenedores del proyecto tienen la expectativa razonable de que el colaborador ha realizado la debida diligencia para la certificación. Con la divulgación, la atención humana y la supervisión —ayudadas, siempre que sea posible, por herramientas que verifican la similitud del código—, las contribuciones asistidas por inteligencia artificial pueden ser totalmente compatibles con el espíritu del DCO.

Esto no quiere decir que los proyectos tengan que permitir las contribuciones asistidas por inteligencia artificial. Cada proyecto tiene derecho a establecer sus propias reglas y determinar su propio nivel de comodidad, y si un proyecto decide prohibir las contribuciones asistidas por inteligencia artificial por ahora, esa decisión merece respeto. Los proyectos que opten por seguir este camino deben reconocer que las preocupaciones que expresan no son nuevas ni exclusivas de la inteligencia artificial. Durante años, los usuarios comerciales de open source reacios al riesgo se preocuparon por el código "lavado": contribuciones que ocultan material protegido por derechos de autor bajo términos problemáticos y no revelados. Con el tiempo, esos temores resultaron ser infundados. No es imposible que una contribución asistida por inteligencia artificial contenga material protegido por derechos de autor no divulgado, pero la experiencia sugiere que es un evento de riesgo manejable, y no es categóricamente diferente de los desafíos que el open source ha enfrentado y superado en el pasado.

En otras palabras, el DCO puede seguir siendo lo que siempre ha sido: una herramienta práctica y efectiva para mantener la confianza y la claridad legal en el desarrollo open source, incluso en la era de la inteligencia artificial.

Establecimiento de la confianza

Subyacente a gran parte del debate sobre la inteligencia artificial en el desarrollo de software, ya sea legal, técnico o ético, está la cuestión de la confianza. La confianza es una preocupación humana fundamental que es esencial para el éxito de cualquier proyecto open source. La introducción de la inteligencia artificial en el desarrollo open source plantea nuevos problemas de confianza en varias dimensiones: la confianza en que los colaboradores utilicen la inteligencia artificial de manera responsable, en que quienes lo hagan no sean estigmatizados, y en que las empresas que desarrollan y fomentan el uso de la inteligencia artificial lo hagan de manera que sirvan al bien público. Reconocer que estas empresas, incluida Red Hat, tienen un interés comercial en el éxito de la inteligencia artificial también es fundamental para ser transparentes sobre su papel en esta transformación tecnológica.

El desafío de generar confianza en la tecnología no es nuevo. La conferencia seminal de Ken Thompson de 1984, "Reflections on Trusting Trust", sigue siendo un referente para comprender cuán profundamente el juicio humano y la integridad institucional sustentan el software mismo. La inteligencia artificial vuelve a poner de relieve estos conceptos. La confianza aún debe ganarse a través de acciones consistentes y visibles. Red Hat valora la confianza que hemos creado con las comunidades upstream, y creemos que nuestro modelo de desarrollo open source, basado en la transparencia, la colaboración y la responsabilidad, sigue siendo la mejor manera de mantenerla mientras navegamos juntos por el futuro de la inteligencia artificial y el open source.

De cara al futuro

Los problemas que analizamos aquí —el marcado, los avisos de licencia, las inquietudes sobre la replicación de los datos de capacitación y el DCO— son el tipo de cuestiones legales con las que los desarrolladores open source tienen que lidiar hoy en día. Con la divulgación del uso de la inteligencia artificial, la supervisión humana y el respeto por las reglas del proyecto, el desarrollo asistido por inteligencia artificial puede conciliarse tanto con los fundamentos legales como con los valores culturales del open source. Agradecemos la colaboración en proyectos upstream sobre estos y otros enfoques que equilibren esos intereses. Cada proyecto debe tener la libertad de tomar sus propias decisiones. Las comunidades open source serán más fuertes si abordan estos problemas por sí mismas, en lugar de mantenerse al margen de ellos.

Sobre los autores

Chris Wright

Chief Technology Officer and Senior Vice President, Global Engineering

Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.

During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.

Read full bio