En este momento estás viendo Principales innovaciones en IA y ML del Instituto Allen para la inteligencia artificial
Principales innovaciones en IA y ML del Instituto Allen para la inteligencia artificial

El cofundador de Microsoft, Paul Allen, fundó el Instituto Allen de Inteligencia Artificial en 2014 para lograr avances científicos mediante la construcción de sistemas de inteligencia artificial con capacidades de razonamiento, aprendizaje y lectura.

A lo largo de los años, el Instituto de Investigación privado y la incubadora de empresas emergentes han superado las fronteras de la inteligencia artificial y el aprendizaje automático.

AllenNLP

Basado en PyTorch, AllenNLP es un modelo de código abierto. La biblioteca de aprendizaje profundo admite la gestión de experimentos y la evaluación después del desarrollo.

Proporciona abstracciones y un API de alto nivel para modelos de PNL, junto con un framework extensible para administrar y ejecutar experimentos. Es utilizado por una gran cantidad de organizaciones como Facebook Research, Airbnb y Amazon Alexa.

AllenNLP ofrece las siguientes características:

  • Una herramienta de línea de comandos para entrenar modelos de PyTorch
  • Colección de modelos entrenados previamente para hacer predicciones
  • Framework experimental para hacer ciencia replicable
  • Implementaciones de referencia legibles de modelos comunes de PNL

Aristo

Aristo es otro proyecto favorito del Instituto Allen de Inteligencia Artificial. Su objetivo es construir sistemas que integren tecnologías de lectura, aprendizaje, explicación y razonamiento para demostrar una comprensión profunda del mundo.

En 2019, el software Aristo demostró que podía obtener una puntuación superior al 90 por ciento de los estudiantes de octavo grado en una prueba de opción múltiple y un rendimiento superior al 80 por ciento en una prueba para estudiantes de último año de secundaria.

Teniendo en cuenta el pésimo desempeño de los programas de inteligencia artificial en el «Desafío de ciencia de inteligencia artificial de Allen» en 2016, el logro de Aristo en solo tres años es de hecho un tour de force.

El proyecto Aristo combina el procesamiento del lenguaje natural, la extracción de información, la representación del conocimiento, el razonamiento automático y el conocimiento de sentido común. Hasta ahora, este proyecto se ha desplegado en áreas de investigación como razonamiento multisalto, razonamiento sobre acciones, razonamiento de sondeo con modelos de lenguaje, etc.

Merlot

El Instituto Allen de Inteligencia Artificial ha desarrollado modelos de conocimiento de guiones neuronales multimodales (Merlot) en colaboración con la Universidad de Washington.

El sistema está capacitado en millones de videos de YouTube con voz transcrita para ayudarlo a aprender a hacer coincidir imágenes en videos con palabras y seguir eventos a nivel mundial a lo largo del tiempo. Este es un modelo sin supervisión y los videos no están etiquetados ni categorizados.

Genie

El Instituto Allen de Inteligencia Artificial, la Universidad Hebrea de Jerusalén y la Universidad de Washington crearon GENIE, una tabla de clasificación para la evaluación humana en el ciclo de la generación de texto.

La adopción de tablas de clasificación se ha limitado hasta ahora a configuraciones con evaluaciones automáticas.

Las tareas abiertas que requieren la generación de un lenguaje natural, como la traducción de idiomas, carecen de técnicas que puedan evaluar de manera confiable y automática la calidad del modelo.

GENIE soluciona estos problemas y publica las predicciones del modelo en una plataforma de crowdsourcing donde los anotadores humanos los evalúan según parámetros predeterminados.

Además, GENIE también incorpora métricas populares como BLEU y ROGUE para mostrar qué tan bien se correlacionan con los puntajes de evaluación humana.

S2ORC y TLDR

Semantic Scholar Open Research Corpus es una colección de 8.1 millones de artículos académicos en inglés.

Según el equipo detrás de este gran corpus, este recurso es una de las colecciones más grandes disponibles públicamente de texto académico legible por máquina que consta de metadatos enriquecidos, resúmenes de artículos, referencias bibliográficas y texto completo para artículos de acceso abierto.

Además, el texto completo está anotado con menciones en línea detectadas automáticamente de figuras, citas, tablas, etc., cada una vinculada a sus correspondientes objetos de papel.

En 2020, se activó una herramienta gratuita TLDR (acrónimo común de Internet para ‘Resumen de contenido’) con S2ORC para los resultados de búsqueda.

Esta herramienta puede resumir documentos que contienen más de 5,000 palabras en solo 21 palabras de promedio, lo que genera una relación de compresión de 238 palabras.

AllenAct

AllenAct es una plataforma para promover la investigación reproducible en Inteligencia Artificial incorporada con un enfoque hacía la modularidad y la flexibilidad.

Admite múltiples entornos de entrenamiento y algoritmos con modelos previamente entrenados, visualizaciones en tiempo real y otros tutoriales.

Aborda los desafíos relacionados con la IA incorporada, como la replicación de datos, el tiempo de aceleración y los costos de capacitación al desacoplar tareas y entornos.

También asegura la compatibilidad con algoritmos especializados que involucran secuencias de rutinas de entrenamiento y además, la visualización de AllenAct se puede integrar con TensorBoard.