Vulnerabilidades na personalização de modelos de linguagem
O crescente interesse das empresas na personalização dos Modelos de Linguagem em Larga Escala (LLM) para aplicações específicas levou os fornecedores desses serviços a oferecerem ferramentas e características para tal fim. No entanto, um estudo recente lançou luz sobre possíveis vulnerabilidades neste processo.
A pesquisa, realizada pela Universidade de Princeton, Virginia Tech e IBM Research, revelou que a personalização dos LLMs pode enfraquecer as medidas de segurança implementadas para prevenir a geração de conteúdo prejudicial. Esta situação abre a porta para que atores mal-intencionados explorem esta vulnerabilidade durante o processo de personalização.
Riscos e ameaças no ajuste fino
A segurança e o ajuste fino são processos contínuos que buscam evitar que os LLMs gerem saídas prejudiciais. Os desenvolvedores devem estar constantemente alerta para novas técnicas que podem enganar o modelo para contornar suas salvaguardas, re-treinando os modelos ou implementando medidas adicionais.
No entanto, este estudo destaca os riscos inerentes ao ajuste fino. Atuantes mal-intencionados podem explorar a “aprendizagem com poucos exemplos” para ajustar os modelos para fins prejudiciais. Os modelos ajustados poderiam generalizar para outros comportamentos prejudiciais não incluídos nos exemplos de treinamento. Além disso, existe a ameaça do “envenenamento de dados“, um ataque em que exemplos prejudiciais são adicionados ao conjunto de dados usado para treinar ou ajustar os modelos.
Além disso, atuantes mal-intencionados podem criar exemplos “implicitamente prejudiciais” que contornam as salvaguardas. Isso pode resultar em um “ataque de mudança de identidade“, no qual os exemplos de treinamento instruem o modelo a adotar uma nova identidade que é “absolutamente obediente ao usuário”.
Preservação da segurança na personalização de modelos
Mesmo os desenvolvedores podem danificar seus próprios modelos durante o ajuste fino. O alinhamento de segurança dos LLM pode ser comprometido durante esse processo, mesmo sem intenção maliciosa por parte dos desenvolvedores. A afinação descuidada em um conjunto de dados voltado para a utilidade pode inadvertidamente desviar o modelo de seu objetivo de inocuidade.
Para preservar a segurança do modelo, várias soluções foram propostas. Estas incluem técnicas de alinhamento mais robustas e medidas de moderação aprimoradas para os dados usados para ajustar os modelos. Também é recomendado estabelecer práticas de auditoria de segurança para os modelos ajustados.
Esta descoberta tem uma influência significativa no mercado emergente para a personalização comercial e de código aberto do LLM. Representa uma oportunidade para os provedores de serviços LLM e as empresas especializadas na personalização do LLM adicionarem novas medidas de segurança, garantindo assim que as aplicações específicas sejam seguras e eficazes.
Sandra é especialista em marketing digital e experta em redes sociais. Ela completou uma pós-graduação em Comunicação e RP para marcas de moda no Idep Barcelona, além de outra em Marketing e reputação online: comunidades virtuais. Sandra está a par das últimas tendências e melhores práticas em redes sociais, e isso se reflete em seu trabalho diário, gerando um impacto positivo no mundo digital.