Codex, un modelo de lenguaje GPT finamente ajustado con código público de GitHub
El artículo “Evaluando grandes modelos de lenguaje entrenados en código” presenta los resultados de una evaluación exhaustiva de Codex, un modelo de lenguaje basado en GPT-3 que ha sido entrenado en una gran cantidad de código disponible públicamente en GitHub. Codex es capaz de sintetizar código a partir de descripciones de funciones y comentarios, lo que lo convierte en una herramienta potencialmente valiosa para los programadores.
Los autores evaluaron el rendimiento de Codex en varios conjuntos de datos de prueba, incluyendo uno diseñado específicamente para medir la capacidad del modelo para generar código funcionalmente correcto a partir de docstrings. También examinaron la capacidad de Codex para generar código que cumpla con las convenciones de estilo de Python y para evitar errores comunes.
Los resultados de la evaluación indican que Codex es capaz de generar código funcionalmente correcto con una alta precisión. Sin embargo, también se encontraron limitaciones en la capacidad del modelo para generar código que cumpla con las convenciones de estilo de Python y para evitar errores comunes.
Los autores concluyen que Codex tiene el potencial de ser una herramienta útil para los programadores, pero también señalan que es importante tener en cuenta sus limitaciones y que es necesario seguir mejorando los modelos de lenguaje para que puedan ser más efectivos en la generación de código.
Algunas de las lecciones aprendidas de este estudio incluyen la importancia de evaluar cuidadosamente los modelos de lenguaje antes de utilizarlos en aplicaciones del mundo real, la necesidad de seguir mejorando los modelos de lenguaje para que puedan ser más efectivos en la generación de código, y la importancia de ser conscientes de las limitaciones de los modelos de lenguaje y de trabajar en colaboración con los programadores para mejorar su capacidad para generar código de alta calidad.
Referencias: Chen, M., Tworek, J., Jun, H., Yuan, Q., de Oliveira Pinto, H. P., Kaplan, J., … & Zaremba, W. (2021). Evaluating Large Language Models Trained on Code. arXiv preprint arXiv:2107.03374.✏