articulo

Python, los pandas y sus profiling

En el apartado de los análisis de datos, para su comprensión y entrega de reportes que permiten mapear un mejor entendimiento de los mismos, se topa uno con pandas_profiling

¿Qué es eso?

Se debe de recordar que pandas es el nombre de una de las librerías usadas en python que permiten y facilitan la extracción de los datos. Profiling viene ha ser la forma en que se pueden mostrar todos esos resultados. (vea imagen 1).

Imagen 1. Encabezado y parte de un reporte generado en panda_profiling desde python. Fuente: Tomado de tumblr.com

¿Cómo se uso?

Muy sencillo, bueno desde luego primero hay que instalar la librería y ya después hacer uso de ella.

  1. Para instalar panda_profiling has uso del siguiente comando: pip3 install pandas_profiling[notebook,html].
  2. Después hay que crear un archivo donde se contenga las siguientes instrucciones:
import numpy as np
from pandas_profiling import ProfileReport
import pandas as pd
df=pd.read_csv('fichero.csv',sep=';')
df.head()
df.describe()
profile=ProfileReport(df)
profile.to_file('Reporte.html')

¿Qué pasa en los import?

Bien, como es costumbre, hay que incluir todas las librerías que se vayan a utilizar, eso es el numpy, pandas y el pandas_profiling.

¿Qué pasa con el read_csv?

Lo que pasa es que se le asigna un nuevo parámetro donde permite hacer uso de los “;” (punto y comas) que regularmente traen los ficheros csv, también se puede hacer uso del parámetro delimiter=”;” el detalle es que en este caso solo lo delimitas hasta donde se encuentre los punto y comas.

¿Qué hace df.head()?

Permite obtener el primer registro del fichero csv, donde se deben de colocar los campos a analizar.

¿Qué hace df.describe()?

Permite hacer un análisis exploratorio muy básico de primera instancia.

¿Para qué sirve el profile=ProfileReport(df)?

Prepara el reporte de todos los datos que hay en el dataframe que se ha pasado al inicio.

¿Qué hace profile.to_file(“Reporte.html”)?

Esta parte de la función permite generar un fichero html, donde mostrará todos las correlaciones entre los campos y datos, así mismo, genera un buen de gráficas e histogramas donde se puede apreciar la aparición de los datos y campos, su interacción y como se puede mezclar.

Conclusiones

Al parecer tiene más ventajas, debido a que genera un fichero html, en el cual es fácil de transportar y compartir con los distintos clientes que requieran un análisis exploratorio más amplio de los datos y mejor uso de las herramientas que tiene, con el fin de aumentar su productividad y la de sus empleados.

En lo particular es una herramienta genial para la generación y presentación rápida de informes o reportes. Permitiendo con un par de lineas de código en python y el dataset (el archivo csv con todos los datos) podan ser apreciados de una mejor manera. Mucho más fácil de manejar / presentar. Y se deja de lado la técnica milenaria de usar una hoja de calculo para su apreciación.

Leave a Reply

Your email address will not be published. Required fields are marked *