Kedro: Un framework de Python para proyectos de ciencia de datos reproducibles

¿Alguna vez ha pasado sus datos a una lista de funciones y clases sin saber con certeza cómo es la salida?

Puede intentar guardar tus datos y luego verificarlos ante Jupyter Notebook para asegurarte de que el resultado sea el esperado. Este enfoque funciona, pero es engorroso.

def process_data(data):
pass
def split_data(data):
pass 
df = process_data(data)
df.to_csv('processed_data.csv')
X_train, X_test, y_train, y_test = split_data(data)

Otro problema común es que es difícil comprender las relaciones entre las funciones cuando se mira un script de Python que contiene tanto el código para crear como para ejecutar funciones.

def split(data):
pass 
def train(X_train, y_train):
pass
def predict(X_test, model):
pass 
def report(predictions):
pass
X_train, y_train, X_test = split(data)
model = train(X_train, y_train)
predictions = predict(X_test, model)
report(predictions)

Su código parece aún más complejo y difícil de seguir a medida que crece el proyecto.

¿Qué es Kedro?

Kedro

es un framework de Python de código abierto para crear código de ciencia de datos modular, mantenible y reproducible.

Tomando prestados los conceptos de las mejores prácticas de la ingeniería de software y aplicándolos al código de aprendizaje automático.

Kedro te permite:

  1. Crear una ciencia de datos a partir de una plantilla sencilla.
  2. Crear una canalización de ciencia de datos.
  3. Cortar una tubería.
  4. Modularizar una tubería.
  5. Configurar tus datos y parámetros a través de un archivo YAML.
  6. Analizar sin esfuerzo las salidas de los nodos en Jupyter Notebook.
  7. Visualizar la canalización.
  8. Crear la documentación para tu proyecto.

En este artículo, analizaré cada una de las características y explicaré cómo pueden ser útiles para los proyectos de ciencia de datos.

Para instalar Kedro, solamente tendrás que instalar:

pip install kedro

Si quieres saber como se crea un proyecto completo utilizando Kedro no dudes en consultar el siguiente artículo de Towards Data Science.

Artículos Relacionados

Relacionado

15 Excelentes Libros GRATIS de Programación hechos por el creador de tutoriales de programación Flaviocopes (en inglés)

En los siguientes manuales vas a encontrar un gran contenido (en inglés) creado por @flaviocopes. Si te gustan sus contenidos, no dejes de visitar su página web flaviocopes.com, en la que Flavio publica un artículo en el que aprender algo nuevo cada día. Manual de Python. 2021 PDF, ePub, Mobi Manual para principiantes de React. 2020 PDF, ePub, Mobi Manual para principiantes de JavaScript. 2020 PDF, ¡SEGUIR LEYENDO!

15 Mejores Lenguajes de Programación que Aprender

Una de las habilidades más importantes para aprender en el mundo de hoy en día, es saber programar con un lenguaje de programación. En la actualidad, las computadoras han entrado en casi todas las industrias, desde el piloto automático de un avión hasta el velocímetro digital de una bicicleta pasando por la inclusión del Internet de las cosas en los pequeños electrodomésticos. Casi todo lo que ¡SEGUIR LEYENDO!

17 Nuevos Cursos Gratuitos de SQL, Python, Diseño Web y Más (06 de Marzo)

Regreso con nuevos cursos gratis, recuerda que algunos de los cupones de los cursos publicados ayer, es muy posible que aún sigan activos; y vas a poder encontrar cursos en español de javascript -typescript, react,vue- y Unity. Además, de cursos en inglés de Python, R, SQL y más; también tienes muchos cursos totalmente gratis y una gran oferta de guías para programación de O´Reilly (en inglés) ¡SEGUIR LEYENDO!

21 Nuevos Cursos Gratuitos: Python, Google Cloud, CSS y Más (25 de Febrero 2021)

Como de costumbre, vamos con los cursos gratis, tenemos 3 cursos en español: Computación, Google Cloud y aplicaciones web; y 18 cursos gratuitos en inglés: Python, Flask, Ionic, PHP, Android, Github, CSS, Flexbox, Illustrator, Photoshop, Scrum y minado de Sugar. Recuerda, que puedes si quieres, puedes acceder a las Mejores Ofertas de Udemy ¡Alé, aprendamos gratis un ratico! Cursos en Español Computación ? Curso Gratuito de ¡SEGUIR LEYENDO!

25 Mejores cursos de Udemy 2020 [EN]

Más de 20 expertos han compilado esta lista de los mejores cursos, certificados, tutoriales, capacitación y clases de Udemy disponibles en línea para 2020. Estos incluyen las mejores ofertas y descuentos para brindarte los mejores precios en oferta. Los cursos son adecuados para principiantes, estudiantes intermedios y expertos. Esta compilación ya ha ayudado a más de 72.000 estudiantes y se actualiza cada poco tiempo. Consulta nuestra ¡SEGUIR LEYENDO!

26 Nuevos Cursos GRATIS de Udemy: Python, Javascript, Flutter (cupón finalizado)

26 Nuevos cursos con cupones free de Udemy: En español (typescript,javascript, react, vue y videojuegos) e ingles (Python, Django, Javascript, R, SQL, Flutter, Java, Qt, Bootstrap, Illustrator y Photoshop). Cursos en Español ? Curso Gratis de Udemy: Aprende JavaScript y Jquery de 0 a 100 APÚNTATE ? Curso Gratis de Udemy: Aprende Typescript de 0 a 100 APÚNTATE ? Curso Gratis de Udemy: Aprende Vue + ¡SEGUIR LEYENDO!

40 Cursos Gratis de Udemy: Desarrollo Web, Python (cupón finalizado)

Recién llega la primavera y vamos con una publicación más, que incluye los cursos del Lunes; hoy tenemos, 9 cursos en español (Typescript, Javascript, React, Vue, Firebase, Swift, Azure, HTML y CSS, Power Bi). Más 31 cursos en inglés: Javascript, Typescript, React, Python, R, Java, Drupal, Android y Kotlin, Básicos de Visual Studio Code, Bootstrap, Gitlab, Maya 3D, Photoshop, Marketing en Facebook e Instagram, SEO. Iniciación ¡SEGUIR LEYENDO!

5 Características que hacen de Python un lenguaje de programación inmortal

Las variadas cualidades de Python han llevado a su enorme importancia en el mundo. Este artículo cubre las razones por las que Python es un lenguaje de programación inmortal. Python es uno de los lenguajes que están experimentando un desarrollo y una popularidad mayor cada año. Se ha convertido en el lenguaje de programación con la tasa de crecimiento más significativa de los últimos años. También ¡SEGUIR LEYENDO!

5 Lenguajes de programación que todo ingeniero DevOps debería aprender

La adopción de DevOps ha aumentado en los últimos dos años, lo que ha ayudado a las organizaciones a reunir todas las funciones, permitiendo proporcionar software confiable con una entrega más rápida y de mejor calidad. Si eres ingeniero DevOps y buscas los mejores lenguajes de programación para optimizar tu trabajo, aquí hay la lista que necesitas. 1. Python Python se ha convertido en el lenguaje ¡SEGUIR LEYENDO!

ADCSync: Use ESC1 para realizar una DCSync improvisada y volcar hashes

Esta es una herramienta fue preparada rápidamente para DCSync utilizando ESC1. Es bastante lento, pero por lo demás es un medio eficaz para realizar un ataque DCSync improvisado sin utilizar DRSUAPI o Volume Shadow Copy. Esta es la primera versión de la herramienta y esencialmente simplemente automatiza el proceso de ejecución de Certipy para cada usuario de un dominio. Todavía necesita mucho trabajo y planeo agregar ¡SEGUIR LEYENDO!

ANALÍTICA DE DATOS CON PYTHON PARA MARKETING DIGITAL [EDITORIAL ANAYA]

Queremos abrir los ojos de los profesionales del marketing digital a las posibilidades que ofrece Python, un recurso invaluable que muchos pasan por alto. Esta premisa fundamental fue la chispa que encendió la creación de este libro por parte de los autores Ubaldo Hervás y Joseba Ruiz. Tanto si te dedicas al marketing, la analítica digital, CRO, SEO, performance, email marketing o social media, es crucial ¡SEGUIR LEYENDO!