FastBERT: La revolución de las redes neuronales gracias a la técnica de aceleración desarrollada por ETH Zurich

Avance en Inteligencia Artificial: Reducción de Cálculos en Redes Neuronales

Un equipo de investigadores de ETH Zurich ha desarrollado una técnica revolucionaria que tiene el potencial de acelerar las redes neuronales. Esta innovación podría reducir más del 99% de los cálculos en modelos como BERT y GPT-3, lo que representa un avance significativo hacia la creación de sistemas de inteligencia artificial más eficientes y potentes.

Las Capas de Avance Rápido: Una Solución a la Exigencia Computacional

Las redes neuronales, especialmente los transformadores que son la base de los modelos de lenguaje, constan de varias capas, incluyendo capas de atención y capas de avance. Estas últimas son computacionalmente exigentes y pueden ralentizar el proceso general. Para solucionar este problema, los investigadores proponen la introducción de «capas de avance rápido» (FFF) en lugar de las tradicionales.

Las FFF operan mediante una operación matemática llamada multiplicación matricial condicional (CMM), que sustituye a las multiplicaciones matriciales densas (DMM) utilizadas por las redes convencionales. Al identificar las neuronas correctas para cada cálculo, las FFF pueden reducir significativamente la carga computacional.

FastBERT: Prueba Exitosa y Potencial para Mejoras Futuras

Para probar esta nueva técnica, los investigadores desarrollaron FastBERT, una modificación del modelo transformador BERT de Google. FastBERT reemplaza las capas intermedias de avance con capas de avance rápido. En pruebas realizadas en varias tareas del benchmark GLUE, FastBERT obtuvo resultados comparables a los modelos BERT base.

El potencial para acelerar los modelos de lenguaje a gran escala (LLMs) es considerable. En GPT-3, por ejemplo, las redes de avance en cada capa transformadora podrían ser reemplazadas por FFF, lo que podría acelerar significativamente el modelo.

A pesar de la promesa de esta técnica, todavía hay margen para mejoras. Aunque la multiplicación matricial densa ha sido optimizada, la multiplicación matricial condicional aún no tiene una implementación eficiente. Los investigadores desarrollaron su propia implementación de operaciones CMM, logrando una mejora de velocidad de 78x durante la inferencia. Sin embargo, con mejor hardware y una implementación de bajo nivel del algoritmo, podría haber un potencial de mejora de más de 300x en la velocidad de inferencia.

Este estudio forma parte de un esfuerzo más amplio para abordar los cuellos de botella de memoria y cálculo en los modelos de lenguaje grandes. El objetivo final es allanar el camino para sistemas de IA más eficientes y potentes. Con avances como este, estamos un paso más cerca de ese objetivo.

Sarah Vercheval

Sarah es además de experta en marketing digital, creadora de contenido con amplia experiencia en el campo. Graduada en Sociología por la Universidad de Barcelona y con un Postgrado en Marketing Digital en Inesdi, Sarah ha logrado destacarse como Directora de Marketing Digital.

Su profundo conocimiento de las tendencias digitales y su habilidad para identificar oportunidades de crecimiento han sido fundamentales para el éxito de numerosas campañas. Además, imparte clases y conferencias en prestigiosas escuelas de negocio, universidades y eventos, compartiendo sus conocimientos y experiencias con otros profesionales y estudiantes.

Esta entrada también está disponible en: Français Português