Cómo scrapear URLs de una búsqueda en Google
A veces quiero ver cuantas urls indexadas tiene Google en su crawl, para ello utilizamos el comando «site: miweb.com» o lo compruebo mediante el Search Console (antiguo Google Webmaster Tools):
Pero y ¿si quiero saber todas esas URLs indexadas? En este post os voy a mostrar una manera de extraer todas las URLs indexadas en Google utilizando el comando site. Si quieres puedes ver este post donde menciono diferentes comandos de Google para espiar la competencia.
Existen herramientas como Screaming Frog o Xenu que nos darán una lista de todas las URLs accesibles desde dentro de la propia página web, pero no nos darán las URLs indexadas en Google.
Gracias a este tutorial, mostraré cómo scrapear una lista con todas las URLs indexadas en Google en 5 pasos, una guía muy fácil para extraer todas las URLs apta para todos los públicos 🙂 Asi que vamos al lio…
Tutorial de cómo scrapear URLs en Google
Para poder extraer las URLs utilizaremos Google Chrome, primero realizaremos la búsqueda por la que quiero scrapear las URLs por ejemplo «site:www.davidcalabuig.com». Pero Google sólo nos muestra 10 resultados por defecto, para ampliar este número hay que modificar el número de resultados por búsqueda de 10 a 100, para ello clicamos en la rueda de configuración y elegimos la primera opción «Configuración de búsqueda» como vemos en la siguiente imagen:
Ya dentro de los ajustes de búsqueda seleccionamos la opción «No mostrar nunca resultados de Google Instant» y cambiamos en el apartado de Resultados por página de 10 resultados a 100 y guardamos.
Si la búsqueda tiene más de 100 resultados tendremos el problema de paginación en Google, pero para deshacernos de este «problemilla» utilizaremos la extensión gInfinity que nos eliminará la limitación de 100 resultados por página y eliminará la paginación de las SERPs.
Hay que mencionar que hay que hacer scroll para que se carguen los 100 resultados siguiente, es decir si realizamos una búsqueda nos aparecerán 100 resultados, si instalamos la extensión gInfinity y hacemos scroll se cargarán los 100 resultados siguientes, un total de 200 resultados, si queramos más resultados deberemos hacer más scroll. Para evitar realizar scroll manualmente te recomiendo que le des un vistazo a la review de iMacros de cómo automatizar tareas en tu navegador.
Una vez cargado todos los resultados que queremos extraer las URLs, nos vamos a la página de highposition y arrastramos el botón «Google SERP Extraction» encima de la pestaña donde tenemos todas las URLs en Google, en el siguiente Gif puedes ver los pasos:
Cuando pulsemos el botón se abrirá una ventana con el listado de URLs scrapeadas ?
Ya tenemos todas las URLs en un vistazo y en menos de 1 minuto. Yo lo utilizo mucho para extraer todas las URLs que se han indexado por «error» y con la macro del tutorial de iMacros, enviar estas URLs a desindexar y no tener que buscarlas y desindexarlas manualmente ?
Espero que os haya gustado esta tool gratuita y que la compartáis en las redes sociales, finalizo con alguna pregunta ¿qué herramienta utilizáis para scrapear URLs? ¿os ha gustado esta herramienta? En los próximos posts publicaré diferentes herramientas también muy útiles para todo lo relacionado en el mundillo del marketing online 😉