¿Alguna vez ha pasado sus datos a una lista de funciones y clases sin saber con certeza cómo es la salida?
Puede intentar guardar tus datos y luego verificarlos ante Jupyter Notebook para asegurarte de que el resultado sea el esperado. Este enfoque funciona, pero es engorroso.
def process_data(data):
pass
def split_data(data):
pass
df = process_data(data)
df.to_csv('processed_data.csv')
X_train, X_test, y_train, y_test = split_data(data)
Otro problema común es que es difícil comprender las relaciones entre las funciones cuando se mira un script de Python que contiene tanto el código para crear como para ejecutar funciones.
def split(data):
pass
def train(X_train, y_train):
pass
def predict(X_test, model):
pass
def report(predictions):
pass
X_train, y_train, X_test = split(data)
model = train(X_train, y_train)
predictions = predict(X_test, model)
report(predictions)
Su código parece aún más complejo y difícil de seguir a medida que crece el proyecto.
¿Qué es Kedro?
es un framework de Python de código abierto para crear código de ciencia de datos modular, mantenible y reproducible.
Tomando prestados los conceptos de las mejores prácticas de la ingeniería de software y aplicándolos al código de aprendizaje automático.
Kedro te permite:
- Crear una ciencia de datos a partir de una plantilla sencilla.
- Crear una canalización de ciencia de datos.
- Cortar una tubería.
- Modularizar una tubería.
- Configurar tus datos y parámetros a través de un archivo YAML.
- Analizar sin esfuerzo las salidas de los nodos en Jupyter Notebook.
- Visualizar la canalización.
- Crear la documentación para tu proyecto.
En este artículo, analizaré cada una de las características y explicaré cómo pueden ser útiles para los proyectos de ciencia de datos.
Para instalar Kedro, solamente tendrás que instalar:
pip install kedro
Si quieres saber como se crea un proyecto completo utilizando Kedro no dudes en consultar el siguiente artículo de Towards Data Science.
Artículos Relacionados