• Autor de la entrada:
  • Tiempo de lectura:3 minutos de lectura

Investigadores de la Universidad Carnegie Mellon lanzaron PolyCoder, un modelo de generador de código automatizado que fue entrenado en múltiples lenguajes de programación.

Sus creadores, dicen que es particularmente bueno en la creación de código en C.

Los investigadores, esperan que el modelo PolyCoder de código abierto pueda democratizar la investigación en el campo de la generación de código de Inteligencia Artificial.

Hasta ahora, la generación de código está dominado por empresas bien financiadas como DeepMind o OpenAI (propiedad de Alphabet).

Codex de OpenAI, fue presentado en Agosto y está disponible a través de la herramienta de Copilot de GitHub (propiedad de Microsoft) y su uso se basa en un acceso no gratuito mediante llamadas a una API.

La idea que mueve la generación automática de código es lograr ahorrar tiempo a los desarrolladores, suponiendo que la salida sea precisa y no presente fallas de seguridad.

DeepMind, afirmó que su generador de código AlphaCode, es capaz de encontrar el código adecuado en un 54,3% de casos. Pero para entrenar el modelo se requieren cientos de petaFLOPS a diario dentro de los centros de datos de Google.

Para mejorar la situación y poder lograr una mejor resolución a ese problema, los investigadores han entregado su propio modelo entrenado en código de múltiples lenguajes de programación que han denomiado PolyCoder.

Los investigadores explicaron el nuevo modelo de IA par la creación de código, tal que así:

“Lanzamos un nuevo modelo, PolyCoder, con 2.7B de parámetros basados en la arquitectura GPT-2 que fue entrenado con 249 GB de código en 12 lenguajes de programación en una sola máquina. En el lenguaje de programación C, PolyCoder es capaz de superar a todos los modelos, incluido Codex”.

El modelo fuen entrenado con los datos públicos de los repositorios de GitHub específicos de 12 de los lenguajes de programación más populares:

C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala y TypeScript. El conjunto de datos sin filtrar, alcanzó los 631 GB de datos y 38,9 millones de archivos.

Además, para entrenar a PolyCoder, los investigadores eligieron la librería de GPT-2 debido a las limitaciones presupuestarias.

Si bien, los investigadores fueron capaces de anunciar sus éxitos en el área de la creación del código de cara a la generación de código con C, Codex aún sigue siendo superior en otros idiomas.

Comparte tu opinión