Cramming: Training a Language Model on a Single GPU in One Day
El artículo “Cramming: Training a Language Model on a Single GPU in One Day” por Jonas Geiping y Tom Goldstein presenta un enfoque alternativo a la tendencia actual de aumentar el rendimiento de los modelos de lenguaje a través de la escalabilidad. En lugar de preguntar cómo aumentar la capacidad de cómputo para entrenar modelos cada vez más grandes, se preguntan cuán lejos se puede llegar con una sola GPU en un día.
El artículo investiga el rendimiento alcanzable con un modelo de lenguaje basado en transformadores entrenado desde cero con “masked language modeling” durante un solo día en una única GPU de consumo. Los autores proporcionan una versión modificada del proceso de preentrenamiento que logra un rendimiento cercano al de BERT, y analizan por qué la reducción de la escala es difícil y qué modificaciones mejoran el rendimiento en este escenario limitado.
A través de las leyes de escalabilidad, los autores categorizan una serie de mejoras recientes en el entrenamiento y la arquitectura, discutiendo su mérito y aplicabilidad práctica (o falta de ella) para el entorno de cálculo limitado.
Principales conclusiones:
- El artículo presenta una forma de entrenar un modelo de lenguaje de alto rendimiento en una sola GPU en un solo día, lo que es significativamente más rápido y asequible que las opciones escalables convencionales.
- Los autores proporcionan una versión modificada del proceso de preentrenamiento que logra un rendimiento cercano al de BERT, lo que sugiere que la reducción de escala no tiene por qué significar una pérdida significativa de rendimiento.
- El artículo presenta evidencia de que incluso en un entorno de cálculo limitado, el rendimiento sigue las leyes de escalabilidad observadas en entornos de alta capacidad de cómputo.
- Los autores categorizan una serie de mejoras recientes en el entrenamiento y la arquitectura según su aplicabilidad práctica en entornos de cálculo limitado.
Lecciones aprendidas:
- El enfoque de “cramming” presenta una alternativa a la tendencia actual de aumentar el rendimiento de los modelos de lenguaje a través de la escalabilidad, lo que permite a los investigadores y practicantes con recursos limitados acceder a modelos de alto rendimiento.
- La reducción de escala no tiene por qué significar una pérdida significativa de rendimiento, siempre y cuando se realicen modificaciones apropiadas en el proceso de preentrenamiento.
- Incluso en entornos de cálculo limitado, las leyes de escalabilidad siguen siendo relevantes, lo que sugiere que las mejoras en la arquitectura y el entrenamiento que se aplican en entornos escalables también pueden ser relevantes en entornos limitados.
- La categorización de mejoras recientes en el entrenamiento y la arquitectura según su aplicabilidad práctica en entornos de cálculo limitado puede ser útil para guiar futuras investigaciones.✏