¿Qué es el Aprendizaje Supervisado y NO supervisado?

En el aprendizaje automático](https://ciberninjas.com/aprendizaje-automatico/ “¿Qué es el aprendizaje supervisado?”), la mayoría de las tareas se pueden categorizar fácilmente en una de dos clases diferentes: Problemas de aprendizaje supervisado o problemas de aprendizaje no supervisado.

Guía de Inteligencia Artificial

En el aprendizaje supervisado, los datos tienen etiquetas o clases adjuntas, mientras que en el caso del aprendizaje no supervisado, los datos no están etiquetados.

Veamos más de cerca el porque esta distinción es importante y veamos algunos de los algoritmos asociados con cada tipo de aprendizaje.

Diferencias entre el aprendizaje supervisado vs no supervisado

La mayoría de las tareas de aprendizaje automático se encuentran en el dominio del aprendizaje supervisado. En los algoritmos de aprendizaje supervisado, las instancias/puntos de datos individuales en el conjunto de datos tienen asignada una clase o etiqueta.

Eso significa que el modelo de aprendizaje automático puede aprender a distinguir qué funciones están correlacionadas con una clase determinada y que el ingeniero de aprendizaje automático puede comprobar el rendimiento del modelo al ver cuántas instancias se clasificaron correctamente.

Los algoritmos de clasificación se pueden usar para discernir muchos patrones complejos, siempre que los datos estén etiquetados con las clases adecuadas. Por ejemplo, un algoritmo de aprendizaje automático puede aprender a distinguir diferentes animales entre sí, en función de las diferentes características como “bigotes”, “cola”, “garras”, etc.

A diferencia del aprendizaje supervisado, el aprendizaje no supervisado implica la creación de un modelo que puede extraer patrones de datos no etiquetados. En otras palabras, la computadora analiza las características de entrada y determina por sí misma cuáles son las características y los patrones más importantes.

El aprendizaje no supervisado trata de encontrar las similitudes inherentes entre diferentes instancias. Si un algoritmo de aprendizaje supervisado tiene como objetivo colocar puntos de datos en clases conocidas, los algoritmos de aprendizaje no supervisados examinarán las características comunes a las instancias del objeto y las colocarán en grupos según estas características, creando esencialmente sus propias clases.

Algunos ejemplos de algoritmos de aprendizaje supervisado son la regresión lineal, la regresión logística, los “vecinos K más cercanos”, los árboles de decisión y las máquinas de vectores de soporte.

Mientras tanto, algunos ejemplos de algoritmos de aprendizaje no supervisados son el análisis de componentes principales y el agrupamiento de medias K.

Algoritmo de aprendizaje supervisado

La regresión lineal es un algoritmo que toma dos características y traza la relación entre ellas. La regresión lineal se utiliza para predecir valores numéricos en relación con otras variables numéricas. La regresión lineal tiene la ecuación de Y = a +bX, donde b es la pendiente de la línea y a es donde y cruza el eje X.

La regresión logística es un algoritmo de clasificación binaria. El algoritmo examina la relación entre las características numéricas y encuentra la probabilidad de que la instancia se pueda clasificar en una de dos clases diferentes.

Los valores de probabilidad se “aprietan” hacia 0 o 1. En otras palabras, las probabilidades fuertes se acercarán a 0,99 mientras que las probabilidades débiles se acercarán a 0.

Las K de vecinos más cercanos asignan una clase a nuevos puntos de datos en función de las clases asignadas de una cantidad determinada de vecinos en el conjunto de entrenamiento. La cantidad de vecinos considerados por el algoritmo es importante y muy pocos o demasiados vecinos pueden clasificar erróneamente los puntos.

Los árboles de decisión son un tipo de algoritmo de clasificación y regresión. Un árbol de decisión funciona dividiendo un conjunto de datos en porciones cada vez más pequeñas hasta que los subconjuntos no se pueden dividir más y el resultado es un árbol con nodos y hojas.

Los nodos son donde se toman las decisiones sobre los puntos de datos utilizando diferentes criterios de filtrado, mientras que las hojas son las instancias a las que se les ha asignado alguna etiqueta (un punto de datos que ha sido clasificado).

Los algoritmos de árboles de decisión son capaces de manejar datos tanto numéricos como categóricos, las divisiones se hacen en el árbol en variables/características específicas.

Las máquinas de vectores de soporte son un algoritmo de clasificación que opera dibujando hiperplanos o líneas de separación, entre puntos de datos. Los puntos de datos se separan en clases según el lado del hiperplano en el que se encuentren.

Se pueden dibujar múltiples hiperplanos a través de un plano, dividiendo un conjunto de datos en múltiples clases. El clasificador intentará maximizar la distancia entre el hiperplano en picado y los puntos a ambos lados del plano y cuanto mayor sea la distancia entre la línea y los puntos, más confianza tendrá el clasificador.

Algoritmos de aprendizaje no supervisados

El análisis de componentes principales es una técnica utilizada para la reducción de la dimensionalidad, lo que significa que la dimensionalidad o complejidad de los datos se representa de una manera más simple. El algoritmo de análisis de componentes principales encuentra nuevas dimensiones para los datos que son ortogonales.

Si bien, se reduce la dimensionalidad de los datos, la variación entre los datos debe conservarse tanto como sea posible. Lo que esto significa en términos prácticos es que toma las características del conjunto de datos y las descompone en menos características que representan la mayoría de los datos.

El clúster de Medias K es un algoritmo que agrupa automáticamente puntos de datos en grupos basados en características similares. Los patrones dentro del conjunto de datos se analizan y los puntos de datos se dividen en grupos según estos patrones. Esencialmente, K-means (medias K) crea sus propias clases a partir de datos no etiquetados.

El algoritmo K-Means funciona asignando centros a los conglomerados o centroides, y moviendo los centroides hasta encontrar la posición óptima para los centroides. La posición óptima será aquella en la que se minimice la distancia entre los centroides y los puntos de datos circundantes dentro de la clase.

La “K” en el agrupamiento de K-medias se refiere a cuántos centroides se han elegido.


Conclusión final del concepto entre aprendizaje supervisado y no supervisado

Para cerrar, repasemos rápidamente las diferencias clave entre el aprendizaje supervisado y no supervisado.

Como comentamos anteriormente, en las tareas de aprendizaje supervisado se etiquetan los datos de entrada y se conoce el número de clases. Mientras tanto, los datos de entrada no están etiquetados y el número de clases no se conoce en los casos de aprendizaje no supervisado.

El aprendizaje no supervisado tiende a ser menos complejo computacionalmente, mientras que el aprendizaje supervisado tiende a ser más complejo computacionalmente.

Mientras que los resultados del aprendizaje supervisado tienden a ser muy precisos, los resultados del aprendizaje no supervisado tienden a ser menos precisos.

Relacionados
Salir de la versión móvil