El Talón de Aquiles de la Inteligencia Artificial: Cómo los Modelos de Lenguaje Grande pueden ser Manipulados por Hackers

Vulnerabilidad de los Modelos de Lenguaje Grande ante Ataques Cibernéticos

Los Modelos de Lenguaje Grande (LLM), como ChatGPT de OpenAI y Bard de Google, han transformado nuestra interacción con la tecnología. Sin embargo, recientemente se ha evidenciado su susceptibilidad a ataques cibernéticos. Investigadores de seguridad han logrado manipular el chatbot Bing de Microsoft para que actúe como un estafador, demostrando la facilidad con la que estos sistemas pueden ser engañados.

Desde febrero, se han registrado numerosos ataques de «inyección indirecta de instrucciones», considerados una de las formas más alarmantes en que los LLM podrían ser explotados por hackers. Ante esta situación, la industria de la ciberseguridad está intentando aumentar la conciencia sobre los peligros potenciales asociados a esta nueva forma de ataque.

Inyección Indirecta de Instrucciones: Un Problema en Auge

Vijay Bolina, jefe de seguridad informática en DeepMind de Google, ha expresado su preocupación por la inyección indirecta de instrucciones. Según Bolina, el problema se ha intensificado con la conexión de los LLM a internet y a los complementos. Además, el uso creciente de LLMs por parte de las empresas puede proporcionarles más datos personales y corporativos, lo que complica aún más la situación.

Existen dos tipos principales de ataques de inyección. Las inyecciones directas ocurren cuando alguien intenta hacer que el LLM responda de manera no intencionada. Por otro lado, las inyecciones indirectas son aquellas en las que la instrucción proviene de un tercero, como un sitio web o un PDF que el LLM puede leer.

Riesgos y Desafíos para la Ciberseguridad

El riesgo fundamental radica en que quien proporciona entrada al LLM tiene una alta influencia sobre la salida. Si alguien puede introducir datos en el LLM, puede potencialmente manipular lo que devuelve. Los investigadores han demostrado cómo las inyecciones indirectas podrían usarse para robar datos, manipular un currículum y ejecutar código remotamente en una máquina.

El Centro Nacional de Ciberseguridad clasifica las inyecciones indirectas como la principal vulnerabilidad para aquellos que despliegan y gestionan LLMs. Advierte que la inyección indirecta podría ser un problema inherente a la tecnología LLM y hasta ahora no existen soluciones infalibles contra este tipo de ataques, aunque hay estrategias para dificultar su ejecución.

En conclusión, aunque los modelos de lenguaje grande han abierto nuevas posibilidades en términos de interacción con la tecnología y procesamiento del lenguaje natural, también han presentado nuevos desafíos en términos de seguridad cibernética. Es crucial que tanto desarrolladores como usuarios estén conscientes del potencial riesgo y tomen medidas para protegerse contra estos tipos emergentes de ataques cibernéticos.

Sarah Vercheval

Sarah es además de experta en marketing digital, creadora de contenido con amplia experiencia en el campo. Graduada en Sociología por la Universidad de Barcelona y con un Postgrado en Marketing Digital en Inesdi, Sarah ha logrado destacarse como Directora de Marketing Digital.

Su profundo conocimiento de las tendencias digitales y su habilidad para identificar oportunidades de crecimiento han sido fundamentales para el éxito de numerosas campañas. Además, imparte clases y conferencias en prestigiosas escuelas de negocio, universidades y eventos, compartiendo sus conocimientos y experiencias con otros profesionales y estudiantes.

Esta entrada también está disponible en: Français Português