Hi, I'm Rodo 👋

I'm a Software Engineer

Rodolfo Guluarte Hale

Hi, I'm Rodo 👋

I'm a Software Engineer

Cramming: Training a Language Model on a Single GPU in One Day

3 minutes
April 20, 2023

El artículo “Cramming: Training a Language Model on a Single GPU in One Day” por Jonas Geiping y Tom Goldstein presenta un enfoque alternativo a la tendencia actual de aumentar el rendimiento de los modelos de lenguaje a través de la escalabilidad. En lugar de preguntar cómo aumentar la capacidad de cómputo para entrenar modelos cada vez más grandes, se preguntan cuán lejos se puede llegar con una sola GPU en un día.

El artículo investiga el rendimiento alcanzable con un modelo de lenguaje basado en transformadores entrenado desde cero con “masked language modeling” durante un solo día en una única GPU de consumo. Los autores proporcionan una versión modificada del proceso de preentrenamiento que logra un rendimiento cercano al de BERT, y analizan por qué la reducción de la escala es difícil y qué modificaciones mejoran el rendimiento en este escenario limitado.

A través de las leyes de escalabilidad, los autores categorizan una serie de mejoras recientes en el entrenamiento y la arquitectura, discutiendo su mérito y aplicabilidad práctica (o falta de ella) para el entorno de cálculo limitado.

Principales conclusiones:

Lecciones aprendidas: