TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Google Dataset Search

1.      Introducción

En los últimos años la cantidad de datos viene aumentando de manera muy intensa y caótica. Eso implica una grande expansión de conjunto de datos disponibles por la web. Tenemos un océano de datos abiertos perdidos por la web ofrecidos por instituciones gubernamentales, académicas, privadas y otras. Pero ¿cómo podemos acceder a todos estos datos? Es claro que no existe un único repositorio de datasets y aún no tenemos una manera unificada de llegar a estos repositorios.

Este es el objetivo de Google Dataset Search: tornarse el principal centralizador y buscador de datasets del mundo.

En este post, hablaremos sobre esta nueva herramienta de Google que se dedica exclusivamente a la búsqueda de Datasets para el data science. Dicha herramienta fue lanzada en modo beta el septiembre de 2018 y actualmente posee 25 millones de conjuntos de datos abiertos de todo el mundo.

Por cierto, Google Dataset Search no almacena ningún dato. Lo que hicieron fue replicar su funcionalidad de búsqueda del Google de toda la vida, pero ahora exclusivamente para el analytics.

2.      ¿Para quién va dirigido este post?

Google Dataset Search trabaja apenas con datos abiertos (como por ejemplo datos gubernamentales, académicos, etc.). Por lo tanto, este post va direccionado a profesionales o interesados por Analytics, BI, Big Data y Machine Learning.

3.      ¿Cómo funciona?

Para buscar un conjunto de datos, tienes que acceder al enlace https://datasetsearch.research.google.com y empezar a buscar por la información de tú interés y disfrutar de la facilidad de búsquedas genéricas de Google:

Por ejemplo, buscando “Coronavirus España”, nos aparecen todos los datos públicos hacia este tópico:

La información sobre la búsqueda y el conjunto de datos que selecciones se dispone en la siguiente manera en la página:

Si eres un desarrollador o quieres que tus conjuntos de datos aparezcan en los resultados de búsquedas, puedes hacerlo siguiendo estos pasos:

1)   Tener creada una landing page o una cuenta en un sitio web que te permita subir tu conjunto de datos (puedes usar Kaggle u otra plataforma para eso).

2)   En el HTML de tu página web o de la plataforma que contenga tus datos, introducir los marcadores necesarios para que Google Dataset Search lo identifique como una página que contiene un archivo de datos para se descargar. Puedes acceder más detalles sobre los marcadores y como hacerlo en este enlace:

·         https://developers.google.com/search/docs/data-types/dataset

4.      trucos para obtener más resultados

Aquí van algunos trucos de acuerdo con uno de los creadores de la herramienta, Chris Gorgolewski, para que tu dataset se destaque frente a otros:

1)   Lenguaje genérico: ponga una descripción genérica. Considerando que la mayoría de los usuarios de Google buscan por cosas complejas economizando lo máximo la cantidad de palabras. Reserve los detalles hacia tus datos en el cuerpo de tu landing page.

2)   Sinónimos: siempre es una buena idea incluir en los marcadores palabras claves que sean sinónimos de las que contenga originalmente. Así, los usuarios pueden llegar a tu página mismo que no sea exactamente lo que han introducido al buscador.

3)   Enlaces externos: tu landing page no puede ser el fin de la jornada del usuario. Incluir en la descripción algunos enlaces para los contribuyentes, webs de instituciones participantes u otros conjuntos de datos semejantes.

5.      Enlaces externos

Caso quieras saber en más sobre el funcionamiento por detrás de la herramienta, acceda a este video donde el jefe de producto de Google Dataset Search: