¿Qué es GPT? El modelo de aprendizaje en el que se basa Chat GPT

GPT-3, es un modelo de lenguaje autorregresivo que utiliza el aprendizaje profundo para producir texto similar al de un humano.

Es un modelo de predicción de lenguaje de tercera generación de la serie GPT-n creada por OpenAI, un laboratorio de investigación de inteligencia artificial con sede en San Francisco.

La versión completa de GPT-3 tiene una capacidad de 175 mil millones de parámetros de aprendizaje automático, que es más de dos órdenes de magnitud mayor que la de su predecesor, GPT-2.

GPT-3, que se introdujo en Mayo de 2020 y se encuentra en prueba beta a partir de julio de 2020, es parte de una tendencia en los sistemas de procesamiento del lenguaje natural (NLP) de representaciones de lenguaje previamente entrenadas.

Antes del lanzamiento de GPT-3, el modelo de lenguaje más grande era Turing NLG de Microsoft, presentado en febrero de 2020, con una capacidad diez veces menor que la de GPT-3.

La calidad del texto generado por GPT-3 es tan alta que es difícil distinguirlo del escrito por un humano, que tiene tanto beneficios como riesgos. Treinta y un investigadores e ingenieros de OpenAI presentaron el documento original del 28 de mayo de 2020 que presenta el GPT-3.

En su artículo, advirtieron sobre los peligros potenciales de GPT-3 y pidieron investigación para mitigar el riesgo: David Chalmers, un filósofo australiano, describió al GPT-3 como “uno de los sistemas de inteligencia artificial más interesantes e importantes jamás producidos”.

Antecedentes

Según The Economist, los algoritmos mejorados, las computadoras potentes y el aumento de los datos digitalizados han impulsado una revolución en el aprendizaje automático , con nuevas técnicas en la década de 2010 que dieron como resultado “mejoras rápidas en las tareas”, incluida la manipulación del lenguaje.

Los modelos de software están entrenados para aprender utilizando miles o millones de ejemplos en una “estructura … basada libremente en la arquitectura neuronal del cerebro”.

La arquitectura más utilizada en el procesamiento del lenguaje natural (PNL) es una red neuronal. Se basa en un modelo de aprendizaje profundo que se introdujo por primera vez en 2017: elmodelo de aprendizaje automático de transformadores.

Los modelos GPT-n se basan en esta arquitectura de red neuronal basada en transformadores de aprendizaje profundo. Hay una serie de sistemas de PNL capaces de procesar, extraer, organizar, conectar, contrastar, comprender y generar respuestas a preguntas.

El 11 de junio de 2018, los investigadores e ingenieros de OpenAI publicaron su artículo original sobre modelos generativos, modelos de lenguaje, sistemas de inteligencia artificial que podrían ser entrenados previamente con un corpus enorme y diverso de texto a través de conjuntos de datos, en un proceso que llamaron pre-generativo. entrenamiento (GP).

Los autores describieron cómo se mejoraron los desempeños de comprensión del lenguaje en el procesamiento del lenguaje natural (NLP) en el transformador-n previo al entrenamiento generativo (GPT-n) a través de un proceso de “entrenamiento previo generativo de un modelo de lenguaje en un corpus diverso de texto sin etiquetar, seguido de un ajuste fino discriminativo en cada tarea específica “.

Esto eliminó la necesidad de supervisión humana y de etiquetado manual que requiere mucho tiempo.

En febrero de 2020, Microsoft presentó su Turing Natural Language Generation (T-NLG), que entonces era el “modelo de lenguaje más grande jamás publicado con 17 mil millones de parámetros”. Funcionó mejor que cualquier otro modelo de lenguaje en una variedad de tareas que incluían resumir textos y responder preguntas.

Capacidad de GPT 3

Una preimpresión de arXiv del 28 de mayo de 2020 de un grupo de 31 ingenieros e investigadores de OpenAI describió el desarrollo de un “modelo de lenguaje de última generación” llamado GPT-3 o Generative Pretrained Transformer 3, un modelo de lenguaje de tercera generación.

El equipo había logrado aumentar la capacidad de GPT-3 en más de dos órdenes de magnitud con respecto a la de su predecesor, GPT-2, lo que convirtió a GPT-3 en el modelo de lenguaje no disperso más grande hasta la fecha.

El mayor número de parámetros de GPT-3 le otorga un mayor nivel de precisión en relación con versiones anteriores con menor capacidad. La capacidad de GPT-3 es diez veces mayor que la de Turing NLG de Microsoft.

El sesenta por ciento del conjunto de datos de preentrenamiento ponderado para GPT-3 proviene de una versión filtrada de Common Crawl que consta de 410 mil millones de tokens codificados por pares de bytes, otras fuentes son 19 mil millones de tokens de WebText2 que representan el 22% del total ponderado, 12 mil millones de tokens de Books que representan el 8%, 55 mil millones de tokens de Books2 que representan el 8% y 3 mil millones de tokens de Wikipedia que representan el 3%.

GPT-3 fue entrenado en cientos de miles de millones de palabras y es capaz de codificar en CSS, JSX, Python, entre otros. Dado que los datos de entrenamiento de GPT-3 eran completos, no requiere más entrenamiento para distintas tareas de lenguaje.

El 11 de junio de 2020, OpenAI anunció que los usuarios podían solicitar acceso a su API GPT-3 fácil de usar, un “conjunto de herramientas de aprendizaje automático”, para ayudar a OpenAI a “explorar las fortalezas y los límites” de esta nueva tecnología.

La invitación describía cómo esta API tenía una interfaz de “entrada de texto, salida de texto” de propósito general que puede completar casi “cualquier tarea en inglés”, en lugar del caso de uso único habitual.

Según un usuario, que tenía acceso a una versión inicial privada de la API OpenAI GPT-3, GPT-3 era “inquietantemente bueno” para escribir “texto increíblemente coherente” con solo unas pocas indicaciones simples.

Debido a que GPT-3 puede “generar artículos de noticias que los evaluadores humanos tienen dificultades para distinguir de los artículos escritos por humanos”, GPT-3 tiene el “potencial de promover tanto las aplicaciones beneficiosas como las dañinas de los modelos de lenguaje”.

En su artículo del 28 de mayo de 2020, los investigadores describieron en detalle los posibles “efectos dañinos de GPT-3” que incluyen “información errónea, spam, phishing, abuso de procesos legales y gubernamentales, ensayo académico fraudulento pretextos de redacción e ingeniería social “.

Los autores llaman la atención sobre estos peligros para llamar a la investigación sobre la mitigación de riesgos.

Reseñas de GPT 3

En su revisión del 29 de julio de 2020 en The New York Times , Farhad Manjoo dijo que GPT-3, que puede generar código de computadora y poesía, así como prosa, no es solo “asombroso”, “espeluznante” y “humillante”, pero también “más que un poco aterrador”.

Daily Nous presentó una serie de artículos de nueve filósofos sobre GPT-3. El filósofo australiano David Chalmers describió al GPT-3 como “uno de los sistemas de IA más interesantes e importantes jamás producidos”.

Una revisión en Wired dijo que GPT-3 estaba “provocando escalofríos en Silicon Valley”.

Un artículo en Towards Data Science declaró que GPT-3 se entrenó en cientos de miles de millones de palabras y es capaz de codificar en CSS, JSX, Python y otros lenguajes.

La National Law Review dijo que GPT-3 es un “paso impresionante en el proceso más grande”, con OpenAI y otros encontrando “aplicaciones útiles para todo este poder” mientras continúan “trabajando hacia una inteligencia más general”.



Relacionados