¿Qué es el Aprendizaje Profundo?

El aprendizaje profundo es uno de los campos más influyentes y de más rápido crecimiento dentro de la inteligencia artificial.

Sin embargo, obtener una comprensión intuitiva del aprendizaje profundo puede ser difícil porque el término aprendizaje profundo cubre una variedad de algoritmos y técnicas diferentes.

Qué es la Inteligencia Artificial

El aprendizaje profundo también es una subdisciplina del aprendizaje automático en general, por lo que es importante comprender qué es el aprendizaje automático para alcanzar a comprender qué es el aprendizaje profundo.

¿Qué es el aprendizaje automático?

El aprendizaje profundo es una extensión de algunos de los conceptos que se originan del aprendizaje automático, por eso, tomemos un minuto para explicar qué es el aprendizaje automático.

En pocas palabras, el aprendizaje automático es un método para permitir que las computadoras realicen tareas específicas sin codificar explícitamente cada línea de los algoritmos utilizados para realizar esas tareas.

Hay muchos algoritmos de aprendizaje automático diferentes, pero uno de los algoritmos más utilizados es un perceptrón multicapa.

A un perceptrón multicapa también se les suele conocer por una red neuronal compuesta de una serie de nodos/neuronas conectados entre sí. Las redes neuronales obtienen su nombre del hecho de que están inspiradas en la estructura y función del cerebro humano.

Existen tres capas diferentes en un perceptrón multicapa: La capa de entrada, la capa oculta y la capa de salida.

La capa de entrada lleva los datos a la red, donde son manipulados por los nodos en la capa oculta u intermedia.

Los nodos en la capa oculta son funciones matemáticas que pueden manipular los datos provenientes de la capa de entrada, extrayendo patrones relevantes de los datos de entrada: Así es como la red neuronal “aprende”.

La capa de salida como su propio nombre indica, se encarga de dar salida a los resultados generados del trabajo del resto de la red.

Las conexiones entre los nodos de la red tienen valores llamados pesos. Estos valores son esencialmente suposiciones sobre cómo se relacionan los datos de una capa con los datos de la siguiente capa.

A medida que la red entrena, las ponderaciones se ajustan y el objetivo es que las ponderaciones/suposiciones acerca de los datos finalmente converjan en valores que representen con precisión los patrones significativos dentro de los datos.

Las funciones de activación están presentes en los nodos de la red, y estas funciones de activación transforman los datos de forma no lineal, lo que permite que la red aprenda representaciones complejas de los datos.

Las funciones de activación multiplican los valores de entrada por los valores de peso y agregan un término de sesgo.

Entendiendo que es el aprendizaje profundo

Aprendizaje profundo es el término que se le da a las arquitecturas de aprendizaje automático que unen muchos perceptrones multicapa

, de modo que no hay una sola capa oculta, sino muchas capas ocultas.

Cuanto más profunda es la red neuronal profunda, más patrones sofisticados puede aprender la red.

Las redes de capas profundas compuestas por neuronas a veces se denominan redes totalmente conectadas o capas totalmente conectadas, haciendo referencia al hecho de que una neurona determinada mantiene una conexión con todas las neuronas que la rodean.

Las redes totalmente conectadas se pueden combinar con otras funciones de aprendizaje automático para crear diferentes arquitecturas de aprendizaje profundo.

Diferentes tipos de aprendizaje profundo

Existen una importante variedad de arquitecturas de aprendizaje profundo utilizadas por investigadores e ingenieros, y cada una de las diferentes arquitecturas tiene su propio caso de uso especializado.

Redes neuronales convolucionales

Las redes neuronales convolucionales* o CNN, son la arquitectura de red neuronal comúnmente utilizada en la creación de sistemas de visión por computadora.

La estructura de las redes neuronales convolucionales permite interpretar datos de imágenes, convirtiéndolos en números que una red totalmente conectada puede interpretar. Una CNN tiene cuatro componentes principales:

  • Capas convolucionales
  • Capas de submuestreo/agrupación
  • Funciones de activación
  • Capas totalmente conectadas

Las capas convolucionales son las que toman las imágenes como entradas en la red, analizando las imágenes y obteniendo los valores de los píxeles.

El submuestreo o agrupación es donde los valores de la imagen se convierten/reducen para simplificar la representación de las imágenes y reducir la sensibilidad de los filtros de imagen al ruido.

Las funciones de activación controlan cómo fluyen los datos de una capa a la siguiente y las capas totalmente conectadas son las que analizan los valores que representan la imagen y aprenden los patrones contenidos en esos valores.

Redes Neuronales Recurrentes

Las redes neuronales recurrentes o RNN, son populares para tareas donde el orden de los datos es importante, donde la red debe aprender sobre una secuencia de datos.

Las RNN se aplican comúnmente a problemas como el procesamiento del lenguaje natural ya que el orden de las palabras es importante al decodificar el significado de una oración.

La parte “recurrente del término” red neuronal recurrente proviene del hecho de que la salida de un elemento dado en una secuencia depende del cálculo anterior y del cálculo actual.

A diferencia de otras formas de redes neuronales profundas, las RNN tienen “memorias” y la información calculada en los diferentes pasos de tiempo de la secuencia, se utiliza para calcular los valores finales.

Hay varios tipos de RNN, incluidos los RNN bidireccionales, que tienen en cuenta los elementos futuros de la secuencia. Además de los elementos anteriores, al calcular el valor de un elemento.

Otro tipo de RNN es una red de memoria a largo plazo o LSTM. Los LSTM son tipos de RNN que pueden manejar largas cadenas de datos.

Los RNN regulares pueden ser víctimas de algo llamado “problema del gradiente explosivo”, este problema ocurre cuando la cadena de datos de entrada se vuelve extremadamente larga; pero los LSTM tienen técnicas para poder combatir este problema.

Codificadores automáticos

La mayoría de las arquitecturas de aprendizaje profundo mencionadas hasta ahora, se aplican a problemas de aprendizaje supervisado en lugar de tareas de aprendizaje no supervisado.

Los codificadores automáticos pueden transformar datos no supervisados en un formato supervisado, lo que permite utilizar redes neuronales en el problema.

Los codificadores automáticos se usan con frecuencia para detectar anomalías en conjuntos de datos, esto sería un ejemplo de aprendizaje no supervisado ya que se desconoce la naturaleza de la anomalía.

Estos ejemplos de detección de anomalías incluyen la detección de fraudes para instituciones financieras. En este contexto, el propósito de un codificador automático es determinar una línea base de patrones regulares en los datos e identificar anomalías o valores atípicos.

La estructura de un codificador automático suele ser simétrica, con capas ocultas dispuestas de manera que la salida de la red se parece a la entrada. Los cuatro tipos de codificadores automáticos que se usan con mayor frecuencia son:

  • Codificadores automáticos regulares/simples
  • Codificadores multicapa
  • Codificadores convolucionales
  • Codificadores regularizados

Los codificadores automáticos regulares/simples son solo redes neuronales con una sola capa oculta, mientras que los codificadores automáticos multicapa son redes profundas con más de una capa oculta.

Los codificadores automáticos convolucionales utilizan capas convolucionales en lugar de o además de, capas totalmente conectadas.

Los autocodificadores regularizados utilizan un tipo específico de función de pérdida que permite que la red neuronal lleve a cabo funciones más complejas, funciones distintas a la simple copia de entradas en salidas.

Redes adversarias generativas

Las redes adversas generativas (GAN) son en realidad múltiples redes neuronales profundas en lugar de una sola red. Se entrenan dos modelos de aprendizaje profundo al mismo tiempo y sus resultados se envían a la otra red.

Las redes compiten entre sí y dado que obtienen acceso a los datos de salida de las demás, ambas aprenden de estos datos y van mejorando de forma constante.

Las dos redes están esencialmente jugando un juego de falsificación y detección, donde el modelo generativo intenta crear nuevas instancias que engañarán al modelo detective/discriminador. Las GAN se han vuelto muy populares dentro del campo de la visión artificial.


Conclusión final sobre el aprendiza profundo

El aprendizaje profundo amplía los principios de las redes neuronales para crear modelos sofisticados que pueden aprender patrones complejos y generalizar esos patrones a conjuntos de datos futuros.

Las redes neuronales convolucionales se utilizan para interpretar imágenes, mientras que las RNN/LSTM se utilizan para interpretar datos secuenciales.

Los codificadores automáticos pueden transformar tareas de aprendizaje no supervisadas en tareas de aprendizaje supervisadas.

Finalmente, las GAN son redes múltiples enfrentadas entre sí que son especialmente útiles para tareas de visión artificial.


Este artículo forma parte de una guía completa sobre inteligencia artificial.

Relacionados