El perro robot Spot de Boston Dynamics ahora puede hablar y actuar como guía turístico gracias a ChatGPT.
El equipo de ingeniería se inspiró en la capacidad de los modelos de lenguaje grande (LLM) para realizar juegos de roles, replicar culturas y matices, formar planes, mantener la coherencia a lo largo del tiempo y su capacidad de respuesta visual a preguntas (VQA).
En pocas palabras, convirtieron a Spot en un robot guía turístico capaz de caminar, mirar objetos en el entorno, usar un VQA o un modelo de subtítulos para describirlos y luego entrar en detalles usando un LLM.
Eso no es todo, también puede responder preguntas de la audiencia de la gira y planificar qué acciones se deben tomar a continuación.
“Este tipo de demostración aprovecha los puntos fuertes del LLM: notoriamente, los LLM alucinan y agregan detalles que suenan plausibles sin verificar los hechos; pero en este caso, no necesitábamos que el recorrido fuera preciso en términos de hechos, solo entretenido, interactivo y lleno de matices. El listón para el éxito también es bastante bajo: el robot sólo necesita caminar y hablar sobre las cosas que ve. Y dado que Spot ya tiene un SDK de autonomía sólida, ya tenemos la parte de “recorrido” prácticamente cubierta”, afirma Matt Klingensmith, el ingeniero principal de software.