Contoso v2: Datos de prueba

Cuando uno aprende sobre Power BI, o sobre cualquier software para análisis de información, el ingrediente clave es -precisamente- información: tener acceso a una buena cantidad de datos con los que se pueda «jugar». Hay muchos conjuntos de datos disponibles en internet, pero uno que uso mucho es «Contoso v2» y es original del año 2010, allá cuando recién salía Power Pivot como descarga gratuita para algunas ediciones de Excel. Ese conjunto de datos se llama oficialmente «PowerPivot for Excel Tutorial Sample Data-v.2» pero es más conocido simplemente como «Contoso v2» pues ese es el nombre del archivo .zip que se descarga.

Para descargar el archivo Contoso v2 pueden ir a este enlace.

Actualización 5/may/2018: El enlace anterior ha sido dado de baja por Microsoft.
Descarguen los archivos de trabajo, ahora en castellano, desde aquí.

Una vez descomprimido el ZIP, encontrarán cinco archivos:

screen-shot-2017-03-03-at-12-12-06-am

Vamos a cargar toda la información de los dos archivos Access y de los dos Excel. El archivo de texto llamado «SQL Query» es una consulta usada para cargar los datos del archivo «ProductCategories». No usaremos esa consulta.

No es práctica recomendable (fuera del ámbito académico) cargar toda la data que se pueda a Power BI pues se malgastan recursos (memoria principalmente) inútilmente.  Con data pequeña no se siente el problema, pero cuando se desea cargar decenas o centenas de millones de registros, ahí podría afectar.

Usando el menú «Get Data» -como en anteriores ocasiones- carguemos uno a uno los datos de los archivos mencionados. Al conectarnos al archivo «ContosoSales» vemos siete tablas. Las cargamos todas.

screen-shot-2017-03-03-at-12-18-49-am

Hacemos lo mismo con los dos archivos Excel. Uno contiene una tabla llamada «DimGeography» y el otro una llamada «Stores». Finalmente cargamos el otro archivo Access que contiene una única tabla llamada «DimProductCategory».  Luego de esto debemos tener esta lista de tablas cargadas en Power BI

screen-shot-2017-03-03-at-12-42-53-am

Ahora renombro las tablas al castellano (y elimino los prefijos «Dim» y «Fact»). Al hacerlo, se reordenan alfabéticamente las tablas y aparecen así:

screen-shot-2017-03-03-at-12-50-07-am

La tabla principal se llama «Venta». Cada fila de esa tabla representa una transacción realizada. Cada columna representa un aspecto de una transacción. Hay -por ejemplo- un monto de venta (columna «SalesAmount»), costo («TotalCost») y precio unitario («UnitPrice»). Además, cada línea también registra, por ejemplo:

  • el producto que se vendió («ProductKey» es el identificador o código del producto en cuestión; el maestro de identificadores de producto está en la tabla «Producto»)
  • el canal a través del cual se vendió ese producto (el identificador del canal es «ChannelKey» y el maestro de canales está en la tabla «Canal»). Puede ser una venta «online», o una venta en tienda («store»).
  • la fecha en la que se realizó la transacción («DateKey»). En el caso de Contoso V2, todas las demás tablas son «maestros de identificadores»; la única tabla con transacciones es «Venta».

Veamos ahora las relaciones entre las tablas. Una relación es simplemente decirle a Power BI donde buscar el significado de un identificador. Por ejemplo, la relación entre «Venta» (columna «ChannelKey»)  y «Canal» (columna también llamada «ChannelKey») indica que los valores del campo «ChannelKey» de la tabla «Venta» (los identificadores) se encuentran todos explicados en la tabla «Canal». El campo común («ChannelKey»), permite hacer esa relación.

screen-shot-2017-03-03-at-1-20-18-am

Como vemos en el gráfico, casi todas las tablas están ya relacionadas. Esto sucede porque se encontraban ya relacionadas en el archivo Access, o porque Power BI encontró que una columna de una nueva tabla a cargar tiene el mismo nombre que otra de una tabla existente, y ambas columnas contienen valores ‘relacionables’ . Solo falta relacionar «Fecha» con «Venta» lo cual se consigue vía un «Drag & Drop» (arrastrar y soltar) entre los campos «DateKey» de ambas tablas.

Terminada de construir la relación faltante, grabamos el archivo y notemos que algo salta a la luz: el tamaño del archivo de Power BI es mucho menor que el de la data original (recordemos que hemos cargado toda la data). Como se observa a continuación, la data original pesa más de 300Mb y el archivo de Power BI, con los datos en él, solo pesa 60 Mb (la quinta parte, aproximadamente)

screen-shot-2017-03-03-at-1-31-28-am

Esta diferencia de tamaño se debe a la compresión de datos que Power BI realiza automáticamente. De este tema me ocuparé en una próxima publicación. Baste decir que en promedio la compresión es de 7 a 1.

Listo. Ya tenemos un archivo con datos que puede ser utilizado en futuros artículos para enseñar DAX o Power Query Language, por ejemplo.

 

Pueden descargar el archivo «Contoso V2 Full» (60 mb aprox.) desde aquí.

¿Conocen algunas otras fuentes de datos en internet que puedan ser útiles para futuros artículos? Comenten o escríbanme con sus sugerencias para poder consolidarlas y publicarlas para todos.

6 comentarios sobre “Contoso v2: Datos de prueba

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s