OpenAI ha optado por reforzar la protección de sus plataformas ofreciendo recompensas a especialistas e investigadores que detecten comportamientos anómalos en sus modelos de inteligencia artificial.
Este proyecto, bautizado como Safety Bug Bounty, se centra en amenazas emergentes como la manipulación mediante instrucciones o el uso indebido de agentes autónomos, a diferencia de los clásicos programas de ciberseguridad. La finalidad es identificar problemas que puedan surgir en contextos reales, como la inyección de órdenes maliciosas, la posible fuga de datos o acciones perjudiciales ejecutadas por sistemas automatizados.
La iniciativa llega en un momento crucial, tras la integración de nuevas funcionalidades dentro del ecosistema de ChatGPT, como bibliotecas de contenido y herramientas de compra incorporadas.
El programa complementa la seguridad tradicional de OpenAI, pero introduce un enfoque innovador: examinar el comportamiento de la IA como si se tratara de una nueva superficie de ataque. Para que una vulnerabilidad sea válida, los investigadores deberán demostrar que el fallo puede replicarse de forma consistente, aproximadamente en la mitad de los intentos.
Además, OpenAI acepta informes que revelen información sensible, incluyendo el funcionamiento interno de los modelos o sus patrones de razonamiento. También están dentro del alcance los fallos que permitan burlar restricciones o comprometer la integridad de la plataforma.
Sin embargo, no todo tipo de hallazgo es elegible. La compañía excluye los llamados jailbreaks simples, los errores de bajo impacto o aquellos que no presenten una solución clara o consecuencias prácticas. Las propuestas serán revisadas por equipos especializados en seguridad y comportamiento de IA, y algunas podrían redirigirse según su naturaleza.
OpenAI tampoco descarta lanzar en el futuro programas privados adicionales para investigar áreas especialmente sensibles.
Referencia de contenido: consultar fuente original aquí




