¿Qué es Claude 3 y qué puedes hacer con él?

Claude 3 es una familia de tres modelos de IA multimodales desarrollados por Anthropic para reemplazar su serie de modelos de IA Claude 2. Se podría decir que Claude 3 es la respuesta de Anthropic a Gemini de Google y GPT-4 de OpenAI. Lanzado en tres versiones, Haiku, Sonnet y Opus, en su orden creciente de inteligencia, Claude 3 es el primer modelo de IA multimodal de Anthropic y representa un salto significativo con respecto a la serie Claude 2.

Ahora, si nunca has oído hablar del chatbot Claude AI, es comprensible. Claude y sus modelos subyacentes no disfrutan del estatus de superestrella de ChatGPT ni del atractivo de marca de Gemini de Google. Sin embargo, Claude es, sin duda, uno de los chatbots de IA más avanzados del mundo, superando al tan cacareado ChatGPT en varias áreas clave.

Para apreciar realmente Claude 3, es importante echar un vistazo a los fallos de los modelos anteriores.

Las iteraciones anteriores de Claude tenían la reputación de un enfoque demasiado entusiasta de la seguridad de la IA. Las características de seguridad de Claude 2, por ejemplo, eran tan estrictas que el chatbot evitaba demasiados temas, incluso aquellos sin problemas de seguridad claros.
También hubo problemas con la ventana de contexto del modelo. Cuando le pides a un modelo de IA que explique algo o, por ejemplo, que resuma un artículo largo, imagina que solo puede leer unos pocos párrafos del artículo a la vez. Este límite de la cantidad de texto que puede considerar a la vez se denomina “ventana de contexto”. Las versiones anteriores de Claude venían con una ventana de contexto de 200k tokens (equivalente a 150.000 palabras). Sin embargo, el modelo no era capaz de manejar tanto texto de una sola vez sin olvidar trozos de él.
También está la cuestión de la multimodalidad. Casi todos los principales modelos de IA se han vuelto multimodales, lo que significa que pueden procesar otras formas de datos, como imágenes, y responder a esos datos (en lugar de solo ingresar texto). Claude no fue capaz de hacerlo.

Los tres problemas se han abordado completa o al menos parcialmente con el lanzamiento de Claude 3.

Contenidos

¿Qué puedes hacer con Claude 3?

Al igual que la mayoría de los modelos de IA generativa de vanguardia que existen, Claude 3 puede generar respuestas de primer nivel para diversas consultas en diferentes campos. Ya sea que necesite resolver un problema de álgebra rápido, escribir una nueva canción, redactar un artículo en profundidad, escribir código para software o analizar un conjunto de datos masivo, Claude 3 cumple con los requisitos.

Pero la mayoría de los modelos de IA ya son buenos en estas tareas, así que ¿por qué usar Claude 3?

La respuesta es sencilla; Claude 3 no es solo otro modelo de IA que es bueno en estas tareas, es el modelo de IA multimodal más avanzado y gratuito que puede obtener en cualquier lugar de Internet. Sí, está Gemini, el muy publicitado y supuesto asesino de GPT-4 de Google que se desempeña de manera impresionante en las pruebas de referencia. Sin embargo, Anthropic afirma que Claude 3 lo supera por un margen impresionante en varias tareas. Si bien los resultados de referencia son algo que a menudo debemos tomar con un grano de sal, puse a prueba ambos modelos de IA y la superioridad del modelo Claude 3 en varios casos de uso importantes fue muy clara.

Por lo tanto, Claude 3 le permite hacer la mayoría de las cosas que puede hacer con Gemini y GPT-4 (menos la generación de imágenes) sin tener que pagar la tarifa de suscripción de $ 20 para ChatGPT premium.

Claude 3 vs. ChatGPT

Una forma rápida de probar el rendimiento de un modelo de IA es comprobar qué tan bien se compara con el mejor del mercado: GPT-4. Por supuesto, puse a prueba ambos modelos; ¿Qué tan bien se compara el Claude 3 de Anthropic con el colosal GPT-4?

Claude vs. ChatGPT: Habilidades de codificación

Comenzando con una serie de tareas de programación, Claude 3 igualó la capacidad de GPT-4 en todas las tareas básicas de programación presentadas e incluso lo superó en algunas. Aunque sólo probé lo básico, la versión anterior de Claude era notablemente menos competente en las mismas tareas cuando la probamos en esta comparación entre ChatGPT y Claude en septiembre de 2023. Por ejemplo, cuando les pedimos a ambos modelos que crearan una aplicación simple de lista de tareas pendientes, Claude falló en todos los casos, mientras que ChatGPT tuvo lo que llamaríamos un rendimiento de cinco estrellas en ese momento.

Con la última versión, Claude 3 produjo una aplicación de lista de tareas pendientes de mejor rendimiento en las tres instancias que probamos. Este es el resultado de GPT-4 cuando se le pide que cree una aplicación de lista de tareas pendientes.

Y aquí está el resultado de Claude 3 cuando se le pidió que hiciera lo mismo.

Ambas aplicaciones eran funcionales hasta cierto punto, pero está claro que Claude 3 hizo un mejor trabajo en esta.

Después de probar pruebas de programación más complejas, Claude fue el mejor modelo en varios casos, mientras que GPT-4 también tuvo sus victorias. Si bien no puedo decir de manera concluyente que Claude 3 sea mejor en lógica de programación, si hubiera una gran brecha entre los dos modelos, es casi seguro que esa brecha se habría reducido.

Claude vs. ChatGPT: Razonamiento de sentido común

Seguí adelante para probar ambos modelos en el razonamiento de sentido común. Trabajar con chatbots de IA es una paradoja interesante. Los chatbots de IA pueden manejar tareas complejas con facilidad, pero a menudo luchan con problemas básicos que requieren sentido común o lógica. Por lo tanto, les dimos a ambos modelos una serie de preguntas aparentemente sencillas que requerían sentido común para responder correctamente.

De estas cinco preguntas, ambos modelos respondieron a las cinco de manera lógica. Les hicimos a ambos chatbots una de esas preguntas: si una nave espacial de Marte se rompe en dos, con una parte estrellándose en el Océano Atlántico cerca de Brasil y la otra en el Océano Pacífico cerca de Japón, ¿dónde se entierra a los sobrevivientes?

ChatGPT respondió correctamente incluso sin GPT-4. Si te estás preguntando la razón de la elección de la pregunta, bueno, los chatbots históricamente han fracasado lamentablemente en este tipo de línea de preguntas. A continuación fue el turno de Claude.

La respuesta de Claude no fue exactamente una respuesta definitiva, pero fue capaz de identificar la información clave; No se entierra a los sobrevivientes. Es importante tener en cuenta que la última vez que le hicimos la misma pregunta a Claude 2, no fue capaz de ver a través de la trampa del sentido común.

Claude vs. ChatGPT: Escritura creativa

En el mundo real, uno de los casos de uso más populares de los chatbots de IA es la generación de texto creativo en todas sus formas: artículos, cartas, letras de canciones, lo que sea. Por lo tanto, probé ambos modelos para determinar cuál crea un texto que suene mejor para los humanos.

La idea es que los resultados no solo sean “correctos” o creativos (de una manera robótica), sino que suenen como si hubieran sido escritos por un humano. Les encargué a ambas modelos que compusieran la letra de una canción de rap sobre el cultivo de pepinos y convertirse en millonario con ellos. ¿Quién escribe canciones de rap sobre pepinos? Esa es la idea, ¡algo desafiante!

Esta es la opinión de ChatGPT:

Y aquí está la respuesta de Claude, usando el mismo mensaje.

Puede ser subjetivo, pero Claude parece ser la mejor opción aquí. Cuando a ambas herramientas se les encomendó la tarea de redactar tres artículos sobre diferentes temas, Claude proporcionó la mejor opción en los tres casos. Produjo un resultado más parecido al humano y evitó los patrones comúnmente asociados con los textos generados por IA, como las exageraciones, el uso de palabras complejas y el uso esporádico de palabras de enlace.

Claude vs. ChatGPT: Capacidades de reconocimiento de imágenes

Para probar las capacidades de reconocimiento de imágenes, alimentamos a ChatGPT y Claude con varias imágenes de edificios altos populares de todo el mundo. ChatGPT identificó correctamente a los 20, mientras que Claude 3 no identificó algunos, incluido el bastante popular Marina 101 de Dubái, la Lotte World Tower en Seúl y el edificio Merdeka 118 en Kuala Lumpur, Malasia.

A diferencia de ChatGPT, Claude tuvo dificultades para identificar edificios, entre otros, y la tasa de fracaso aumentó si el edificio no estaba en Estados Unidos o China. Sin embargo, no tuvo problemas para identificar versiones ofuscadas de la Torre Eiffel o el Empire State Building.

ChatGPT es claramente mejor en esto, pero teniendo en cuenta que Claude 3 es el primer intento de Anthropic de construir un modelo de IA multimodal, no fue una mala salida.

Aunque los modelos de renombre como la Palm 2 de Google, y posteriormente Gemini, siempre se han promocionado como posibles asesinos de GPT-4, hemos mantenido constantemente que la IA Claude menos conocida probablemente tendrá ese honor desde su lanzamiento inicial en marzo de 2023. Después de unos meses y varias iteraciones a lo largo de la línea, Claude 3 se ve exactamente como el asesino de GPT-4 que habíamos anticipado que sería. Si eres un gran usuario de chatbot pero no has probado el chatbot Claude AI, te estás perdiendo una herramienta de IA enormemente influyente que puede potenciar tu productividad.