Kedro: Un framework de Python para proyectos de ciencia de datos reproducibles

¿Alguna vez ha pasado sus datos a una lista de funciones y clases sin saber con certeza cómo es la salida?

Puede intentar guardar tus datos y luego verificarlos ante Jupyter Notebook para asegurarte de que el resultado sea el esperado. Este enfoque funciona, pero es engorroso.

def process_data(data):
pass
def split_data(data):
pass 
df = process_data(data)
df.to_csv('processed_data.csv')
X_train, X_test, y_train, y_test = split_data(data)

Otro problema común es que es difícil comprender las relaciones entre las funciones cuando se mira un script de Python que contiene tanto el código para crear como para ejecutar funciones.

def split(data):
pass 
def train(X_train, y_train):
pass
def predict(X_test, model):
pass 
def report(predictions):
pass
X_train, y_train, X_test = split(data)
model = train(X_train, y_train)
predictions = predict(X_test, model)
report(predictions)

Su código parece aún más complejo y difícil de seguir a medida que crece el proyecto.

¿Qué es Kedro?

Kedro

es un framework de Python de código abierto para crear código de ciencia de datos modular, mantenible y reproducible.

Tomando prestados los conceptos de las mejores prácticas de la ingeniería de software y aplicándolos al código de aprendizaje automático.

Kedro te permite:

  1. Crear una ciencia de datos a partir de una plantilla sencilla.
  2. Crear una canalización de ciencia de datos.
  3. Cortar una tubería.
  4. Modularizar una tubería.
  5. Configurar tus datos y parámetros a través de un archivo YAML.
  6. Analizar sin esfuerzo las salidas de los nodos en Jupyter Notebook.
  7. Visualizar la canalización.
  8. Crear la documentación para tu proyecto.

En este artículo, analizaré cada una de las características y explicaré cómo pueden ser útiles para los proyectos de ciencia de datos.

Para instalar Kedro, solamente tendrás que instalar:

pip install kedro

Si quieres saber como se crea un proyecto completo utilizando Kedro no dudes en consultar el siguiente artículo de Towards Data Science.

Artículos Relacionados

Relacionado

Vulture: Encuentra el código muerto en Python

Vulture encuentra código no utilizado dentro de código creado con Python. Esto es útil para limpiar y encontrar errores en bases de código grandes. Debido a la naturaleza dinámica de Python, es probable que los analizadores de código estático como Vulture no detecten algún código muerto. Además, el código que solo se llama implícitamente puede ser notificado como código no utilizado. No obstante, Vulture puede ser ¡SEGUIR LEYENDO!

Vidgear: Librería de Python para el procesamiento de vídeo

VidGear es una poderosa biblioteca de procesamiento de video en Python construida con Gears de subprocesos múltiples, cada uno con un conjunto único de características innovadoras. Estas API proporcionan un contenedor fácil de usar, altamente extensible y multihilo alrededor de muchas bibliotecas subyacentes de última generación como OpenCV ➶, FFmpeg ➶, picamera ➶, pafy ➶, pyzmq ➶ y python-mss ➶. El siguiente diagrama de bloques funcional ¡SEGUIR LEYENDO!

Uscrapper: Raspador web OSINT de recopilación de datos personales

Presentamos Uscrapper 2.0, un potente webscrapper OSINT que permite a los usuarios extraer diversa información personal de un sitio web. Aprovecha técnicas de raspado web y expresiones regulares para extraer direcciones de correo electrónico, enlaces de redes sociales, nombres de autores, ubicaciones geográficas, números de teléfono y nombres de usuario de fuentes con y sin hipervínculos en la página web, admite subprocesos múltiples para acelerar este ¡SEGUIR LEYENDO!

Tutoriales RIP: Más de 300 Guías de Programación y Tecnología basadas en Contenidos de Stack Overflow

Las guías de RIP TUTORIAL (+300) son un proyecto de ZZZ Proyects (‎una empresa dedicada a añadir valor a la comunidad .NET) que consta en la creación de libros con contenidos extraídos de Stack Overflow. Por lo que he observado, los contenidos son de 2016/17, pese a eso. Lo considero un contenido útil. Muchas guías son una simple instalación o inicio a un contenido; pero las ¡SEGUIR LEYENDO!

Thonny: Un Ide de Python específico para principiantes y Raspberry Pi

Thonny es un nuevo IDE de Python para aprender y enseñar programación que puede hacer que la visualización de programas sea una parte natural del flujo de trabajo de los principiantes. Entre sus características destacadas se encuentran diferentes formas de recorrer el código, la evaluación paso a paso de la expresión, la visualización intuitiva de la pila de llamadas y un modo para explicar los conceptos ¡SEGUIR LEYENDO!