Demo: Cargando datos desde diferentes archivos de igual estructura hacia una sola tabla

Si desean descargar los archivos usados en esta publicación, pueden hacerlo desde este enlace: ventasdepaises. Desempaqueten el contenido descargado en un directorio.

Un problema común a resolver en las organizaciones sucede cuando se tienen diversos archivos todos con el mismo formato (el mismo tipo de información), pero cada uno referido a categorías distintas, por ejemplo varios archivos de ventas, uno por cada país. Este es el caso del ejemplo que nos convoca en esta publicación.

Tenemos tres archivos de ventas, tipo CSV (texto separado por comas), y cada uno tiene este formato:

screen-shot-2017-01-23-at-9-33-52-pm

Lo que se desea es tener una sola gran tabla que junte los tres archivos, de manera que se puedan hacer comparaciones de ventas por países. Además, se desea que, apenas surja un nuevo archivo (por ejemplo datos de un país nuevo, o nuevas ventas de un país existente), se pueda refrescar la solución y aparezcan los nuevos datos en el análisis.

La solución es bastante simple. Abramos Power BI Desktop y seleccionemos «Get Data» y en la lista de alternativas seleccionemos «Folder»como figura a continuación:

screen-shot-2017-01-23-at-9-39-40-pm

En la ventana que aparece, seleccionemos el directorio donde se encuentran los archivos a cargar.

Screen Shot 2017-01-23 at 9.44.54 PM.png(para los curiosos, estoy usando una máquina virtual Windows que corre dentro de una Mac)

Al dar «OK» aparece una vista de la consulta, tal como esta:

screen-shot-2017-01-23-at-9-46-38-pm

Aquí se observa que Power BI ha cargado la lista de archivos existentes en la carpeta junto con sus propiedades (i.e. fechas de modificación de los archivos, extensión, entre otros). Demos clic en «Edit» para editar la consulta y obtener lo que deseamos. Aparecerá esta ventana:

screen-shot-2017-01-23-at-9-48-52-pm

En la primera columna llamada «Content» se encuentra en realidad los datos del archivo. El resto de columnas sirve para filtrar en caso, por ejemplo, haya más archivos en el directorio y no deseemos cargar un archivo con extensión distinta, o de una fecha particular. Por ello, removemos todas las otras columnas que no son la primera teniendo cuidado de hacerlo seleccionando la columna «Content» y luego «Remove Other Columns», en lugar de seleccionar todo el resto de columnas y removerlas. ¿Por qué? Porque no controlamos lo que devuelve la consulta original. Es decir, en una próxima actualización del Power BI Desktop, al hacer los pasos hasta aquí, podría aparecer una nueva columna que diga «Size» (tamaño). Entonces, como removimos columnas específicas, Power BI no removerá esta columna nueva «Size» (porque como no existía antes, nunca la removimos) y se podrá generar un error en los datos, o nuestra tabla podría contener columnas que no esperábamos. Esto no pasará si usamos «Remove other columns» que remueve cualquier otra columna existente actualmente o alguna que pueda existir en el futuro.screen-shot-2017-01-23-at-9-55-34-pm

La opción mencionada aparece al hacer clic derecho sobre el nombre de la columna («content» en este caso):

Ahora nos queda una sola columna. En lscreen-shot-2017-01-23-at-9-57-35-pma esquina superior derecha de la misma hay una doble flecha hacia abajo. Si posamos el cursor encima de dicha doble flecha aparecerá el nombre de la opción: «Combine Binaries».

Hagamos clic en esa doble flecha.

Aparecerá ahora una ventana como la siguiente. En este caso no es necesario cambiar las opciones por defecto que ahí aparecen pero nótese que puedo especificar cuál es el carácter que delimita los diversos campos (en este caso es una coma «,») y si va a detectar automáticamente los tipos de datos de cada columna. Damos «OK».

Screen Shot 2017-01-23 at 10.01.08 PM.png

Ahora aparece la tabla con todos los archivos juntos. Se ve tal como aparece a continuación:

Screen Shot 2017-01-23 at 10.05.07 PM.png

Vemos que hay algunos «problemas» con los tipos de datos. En particular la columna «Ingresos» no aparece como «Decimal» y la columna «Unidades» no aparece como «Número entero». Del mismo modo, la columna «Ubicación» presenta un problema con el manejo del acento ortográfico. Hacemos los cambios del caso seleccionando la columna cuyo tipo de datos queremos modificar y escogiendo el tipo apropiado de entre la lista ubicada en el menú «Home» como a continuación se muestra:

screen-shot-2017-01-23-at-10-11-38-pm

Nótese que luego de hacer los cambios del caso, en las columnas, al lado izquierdo del nombre de cada campo, aparece el símbolo asociado al nuevo tipo de datos que hemos seleccionado.

screen-shot-2017-01-23-at-10-10-20-pm

Finalmente le damos «Close & Apply» que figura sobre la parte superior izquierda de la pantalla y tenemos todo listo:

Screen Shot 2017-01-23 at 10.13.50 PM.png

Seleccionamos en el panel de la derecha «País» y «Unidades» y seleccionamos -por ejemplo- el gráfico de barras apiladas (el primero de arriba a la izquierda en el panel «Visualizations») y obtenemos un gráfico que demuestra que los tres archivos han sido consolidados en uno solo y podemos hacer comparaciones.

Screen Shot 2017-01-23 at 10.16.18 PM.png

Finalmente, cuando aparezca un nuevo archivo en el directorio en cuestión, o queramos volver a cargar toda la información, bastará con presionar el botón «Refresh» de Power BI y todo listo.

Espero este procedimiento sea de utilidad. Luego tocaré otros casos como, por ejemplo, aquellos en los que el nombre del país no aparece dentro del archivo sino que hay que tomarlo del nombre del mismo.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s