Screaming Frog: Guida Completa

Screaming Frog è un web crawler più semplicemente chiamato robot o spider in grado di scansionare un sito web in modo metodico e automatizzato.

Connettendosi al Server di un Sito Web segue la strada dei link interni ed ogni volta che incontra file come: Javascript, HTML, CSS li salva e li inserisce all’interno di un indice.

Una volta archiviati gli elementi di un sito web, la vera forza di questo Tool risiede nella sua Dashboard semplice e intuitiva nel presentare i risultati di scansione e filtrarli in maniera intelligente a seconda delle analisi che si dovranno svolgere.

Una SEO Audit può risultare un’operazione che richiede molto tempo ad un SEO Specialist, ma affidarsi ad uno strumento seo automatizzato come Screaming Frog significherebbe diminuire i tempi di analisi e facilitare la scansione di un sito web ed il suo posizionamento sui motori di ricerca.

Screaming Frog SEO Spider

Ho deciso di mettere insieme una Guida Completa sull’utilizzo di questa fantastica “Rana URLatrice” e visto che si tratta di un SEO Spider Tool dalle infinite risorse, per facilitare la lettura ho creato un indice di link interni per facilitare la navigazione.

Indice:
1. Cosa analizzare con Screaming Frog
2. Dashboard Principale
3. Modalità di Scansione: Spider, List o SERP?
4. Configurazione del SEO Spider
4.1 Velocizzare lo Spider
4.2 Analizzare i sotto-domini
4.3 Analisi dominio partendo da una sotto-directory
4.4 Limits Spider Configuration
4.4.1 Escludere i parametri nelle URL:?___from_store=it
4.5 Scansione di Siti Web in Javascript
4.5.1 Old AJAX Crawling Scheme
4.5.2 JavaScript
4.5.3 Monitorare le risorse bloccate
4.6 Configurazioni Avanzate del SEO Spider
4.6.1 Catene di Redirect 3XX
4.7 Preferences Spider Configuration
4.8 Crawling di una Sotto-Directory: Include e Exclude
4.9 Profili di Configurazione Personalizzati
5. Link Interni
5.1 Strategia di Link Popularity
6. Robots.TXT
6.1 Come testare un Robots.TXT
7. Sitemap.XML
7.1 Come creare un file di Sitemap
7.2 Come verificare un file di Sitemap
8. HREFLANG: Gestione Siti Multilingua
8.1 Export Report HREFLANG
9. URL Rewriting
9.1 Come trovare URL che devono essere riscritti
9.2 Come rimuovere parametri dagli URL
9.3 Come riscrivere gli URL con la funzione Regex Replace
10. Velocità di Crawling
10.1 Come fare il Crawling di un Sito ospitato su un Vecchio Server
11. Simulatore di Spider
12. Personalizzare lo Spider
12.1 Tecnica di Scraping
12.2 Dimostrazione Pratica di Scraping
12.3 Estrazione URL Mobile
13. Configurazione Proxy
14. Collegamento API
15. Authentication

1.Cosa analizzare con Screaming Frog

Screaming Frog è un SEO Tool che scansiona un sito web talmente in profondità che cercare di elencare tutte le sue funzionalità in un’unica Guida Online diventa una vera e propria impresa, se non impossibile!

Per onestà intellettuale in questa Guida ho cercato di mettere insieme le principali funzioni di questo strumento che se continuerai a leggere vedrai ad una ad una nello specifico.

Ecco cosa è possibile analizzare con Screaming Frog:

  • Errori Client: il crawl riesce a trovare collegamenti interrotti (4XX) e errori del server (5XX)
  • Reindirizzamenti: trova parametri temporanei o permanenti (3XX) e reindirizzamenti JS e catene di reindirizzamento
  • Analisi dei Metadati: individuare Titoli e Meta Description: mancanti, duplicati, maggiori o minori di 65 caratteri, la lunghezza dei pixel
  • H1 e H2: mancanti, duplicati, maggiori o minori di 70 caratteri
  • Dimensione file: URL e Immagini
  • Estrarre dati con XPath: raccogliere dati HTML utilizzando i CSS Path, XPath o Regex
  • Generatore di Sitemaps XML: creazione dei file di Sitemaps XML con una configurazione avanzata sugli URL per includere l’ultima modifica, la priorità e la frequenza di modifica
  • Contenuti Duplicati: titoli delle pagine, descrizioni e intestazioni (controllo algoritmo codice Hash)
  • Conteggio parole: all’interno di una pagina html
  • Livello di profondità di pagina: livelli di navigazione del sito web
  • Direttive Robots: visualizza gli URL bloccati da robots.txt, meta robots o direttive X-Robots-Tag come ‘noindex‘ o ‘nofollow‘, nonché canonicals e rel = ‘next’ e rel = ‘prev’
  • Custom robots.txt: scarica, modifica e prova il robots.txt di un sito web
  • Risorse bloccate: visualizzare e controllare le risorse bloccate in modalità rendering
  • AJAX: configura lo Spider per rispettare lo schema di scansione AJAX ormai obsoleto di Google
  • Attributi di HREFLANG: controllo dei collegamenti di conferma mancanti, codici di lingue incoerenti e non corretti
  • Collegamenti interni (Inlinks): tutte le pagine che collegano un URL
  • Collegamenti esterni (Outlinks): tutti i collegamenti verso l’esterno
  • Anchor Text
  • Immagini: descrittive con o senza alt tag text
  • Protocollo HTTP E HTTPS
  • Tempo di risposta dal server
  • Meta Refresh: includendo la pagina di destinazione e il tempo di ritardo
  • Problemi URL: caratteri non ASCII – sottolineatura, caratteri maiuscoli, parametri o URL lunghi
  • Link Follow e Nofollow: a livello di pagina e di collegamento esterno
  • User-Agent Switcher: crawl come GoogleBot, Bingbot, Yahoo!
  • Integrazione API: possibilità di integrare Google Analytics, Search Console e altri tool per l’analisi di metriche esterne: Majestic, Ahrefs e Moz.

Dopo questa breve visione d’insieme andiamo a scoprire ad una ad una tutte le funzionalità dei vari Tool che possiede il SEO Spider ma prima è fondamentale capire come si struttura la sua intuitiva Dashboard Principale.
↑Indice

2.Dashboard Principale

La forza principale di questo Tool come anticipato nell’introduzione di questa Guida Completa a Screming Frog risiede nella sua Dashboard principale.

Nella parte superiore del SEO Tool è presente la barra del Menù Principale, essa rappresenta la barra di comando dalla quale è possibile controllare le impostazione principali del SEO Spider.

Subito sotto alla Barra per l’inserimento dell’URL si trova il pannello dei Filtri sui Risultati di scansione, questo strumento è la parte più versatile del Tool attraverso il quale è possibile visualizzare nell’Interfaccia Principale i risultati filtrati a seconda del tipo di analisi che si sta svolgendo.

Schermata della Dashboard Principale di Screaming Frog

Selezionando un singolo URL nell’Interfaccia Principale è possibile ricavare nell’Interfaccia Minore del SEO Tool informazioni più specifiche del singolo file, riguardanti:

  • URL info
  • Inlinks
  • Outlinks
  • Image info
  • SERP Snippet
  • Rendered Page

Nella parte destra di ScreamingFrog, infine, troviamo infine le seguenti voci:

  • Overview e Graph View: sono presenti i risultati di scansione in modalità percentuale suddivisi in modo strategico come per il Pannello dei Filtri.
  • Site Structure: presenta il numero e la relativa percentuale di pagine che si collegano ad una specifica pagina con il relativo grafico del Depth Stats ovvero i differenti livelli di profondità che presenta il sito e dove sono collocate le sue risorse

(Livello di profondità consiste nel numero di Click dalla Home Page)

  • Response Time: risposta di caricamento della pagina in secondi con il relativo numero di URL e la loro percentuale rispetto all’intero sito.
  • API: barra sullo stato di avanzamento sul collegamento alle API di Tool esterni.

La Dashboard di Screaming Frog è strutturata in maniera schematica, intuitiva e visiva in modo da presentare i risultati di scansione in maniera semplice da interpretare e facilitare le Analisi SEO.

Fino a qui ho cercato di dare una visione d’insieme dello strumento riassumendo cosa è possibile analizzare e come è strutturata la presentazione dei risultati di Crawling.

Se continuerai a leggere la presente Guida nei prossimi paragrafi verranno delineati nello specifico ad uno a uno tutti i vari strumenti che mette a disposizione il SEO Spider.
↑Indice

3.Modalità di Scansione: Spider, List o SERP?

Come anticipato nell’introduzione della presente Guida a Screaming Frog essendo un Web Crawler che naviga e scansiona un Sito Web attraverso i suoi link interni, è possibile modificare la Modalità di Scansione.

Andando nel Menù Principale, sotto la voce “Mode” il SEO Spider mette a disposizione 3 differenti modalità di Crawling:

Spider: questa modalità permette di inserire direttamente l’URL del dominio , sotto-dominio oppure anche di una specifica directory. Al di sotto del Menù Principale troviamo la barra per l’inserimento dell’URL.

Modalità di scansione di Screaming Frog

List: strumento che permette di fare il crawl di una specifica lista di URL semplicemente copiandola e inserendola direttamente attraverso il tasto “paste”.

Questo strumento si può utilizzare ad esempio in un Benchmark tra competitor di una medesima SERP per analizzare Title, Description e perché no collegando le API di Tool esterni (se in possesso) e vedere quanti Link ricevono i Competitor!

SERP: inserendo in file .csv oppure .xls e riportando in maniera consequenziale: urltitledescription, questo strumento da l’opportunità di avere una preview delle relative URL inserite nel file direttamente in SERP, andando a misurare pixel e il numero di caratteri di ogni risultato di ricerca.

Una volta capita quale sia la migliore Modalità di Scansione per i nostri obiettivi di Analisi è possibile Configurare ulteriormente Screaming Frog in differenti modalità che andremo a vedere nei successivi paragrafi.
↑Indice

4. Configurazione del SEO Spider

In questo paragrafo focalizzeremo l’attenzione sulle differenti modalità di Configurazione di Screaming Frog per rendere prestante e performante il nostro SEO Spider.

E’ importante prestare attenzione e dedicare del tempo alla sua corretta Configurazione perché dalle sue impostazioni dipenderà l’intero risultato di Scansione.

Nella fase preliminare della scansione di un sito web è sempre bene tenere a mente i propri Obiettivi di Analisi. A seconda che voglio fare un’analisi desktop oppure mobile e ancora che sia una scansione di un sito intero o solamente sezioni specifiche di esso, ci sono differenti modalità di Configurazione da impostare.

Oltre che a sbagliare i risultati di Analisi, una sbagliata configurazione potrebbe comportare un enorme perdita di tempo, e si sa…

il tempo è denaro!

4.1 Velocizzare lo Spider

Il Sito Web oggetto di analisi presenta molte pagine da scansionare alcune delle quali non servono per i tuoi obiettivi di Analisi.

Se hai bisogno di velocizzare il processo di Crawling, le impostazioni di Configurazione di Screaming Frog permettono di non scansionare differenti File che comprometterebbero la velocità di scansione.

Nel Menù Principale sotto la Voce Configuration -> Spider nel Tab “Basic” è possibile impostare il SEO Spider in modo da eseguire oppure non eseguire la scansione dei seguenti File:

  • Check Immagini
  • Check File CSS
  • Check File JavaScript
  • Check SWF: collegamenti flash ovvero animazioni o video che utilizzano l’estensione flash di Adobe
  • Check External Links (fare attenzione a questo opzione perché immagini, file CSS e ancora JavaSript possono essere file esterni)

Come configurare la velocità di Screaming Frog

  • Check Links Outside of Start Folder: disattivando questa casella si decide si non eseguire la scansione di collegamenti esterni partendo da una sottocartella.
  • Seguire “nofollow” interno e esterno: con questa impostazione il SEO Spider non eseguirà la scansione di collegamenti interni o esterni che presentano l’attributo “nofollow”
  • Crawl Canonical: in default ScremingFrog esegue la scansione degli elementi Canonici, se non si desidera la scansione dei taa rel=canonical bisogna deselezionare questa casella.
  • Crawl Next e Prev: di default lo Spider non esegue la scansione degli elementi rel=”next” e rel=”prev
  • Extract hreflang: di default lo spider estrae gli attributi hreflang e visualizza i codici di lingua e di regione degli URL con il tag (come vedremo nel prosegui di tale Guida)
  • Crawl hreflang: abilitando questa impostazione per gli URL riscontrati negli attributi hreflang da eseguire per la ricerca di indicizzazione

4.2 Analizzare i sotto-domini

Di default Screaming Frog esegue la scansione solamente del dominio o sotto-dominio che si inserisce nel Tool. Se un sito web presenta differenti sotto-domini durante l’attività di crawling Screming Frog tratterà i seguenti sotto-domini come entità separate rispetto al dominio principale.

Infatti il SEO Spider una volta che incontra i link interni riferiti ad un sotto-dominio, tratterà i seguenti link come “esterni” rispetto al dominio principale.

Per abilitare il SEO Spider a scansionare anche tutti i sottodomini bisogna andare su Configuration del Menù Principale e sotto la voce Spider fleggare “Crawl All Subdomains” così facendo Screaming Frog farà il crawling di tutte le pagine linkate internamente appartenenti anche ai sotto-domini.

4.3 Analisi dominio partendo da una sotto-directory

Se invece vogliamo abilitare il SEO Spider a fare il crawling all’interno di una directory specifica però si ha anche l’esigenza di recuperare le altre pagine del dominio, magari perché si stanno analizzando i link interni.

Bisogna andare sempre su Configuration del Menù Principale e sotto la voce Spider fleggare questa volta la voce: “Crawl Outside of Start Folder” successivamente inserire l’URL di partenza sotto la modalità di Crawling: Spider in modo che la scansione inizierà dalla sotto-directory specifica.

4.4 Limits Spider Configuration

Screaming Frog ti consente di limitare i risultati di Crawling, andando sempre in Configuration Spider, però questa volta selezionando “Limits” è possibile selezionare le seguenti modalità di configurazione:

  • Limit Crawl Total: la versione gratuita del software ha un max di 500 URL, ma se si dispone di una versione a pagamento sarà possibile inserire un qualisiasi numero max di URL.
  • Limit Crawl Depth: è possibile scegliere in che profondità il SEO Spider dovrà scendere nella scansione del sito web.
  • Limit Max URL Legth to Crawl: limite massimo della lunghezza degli URL per cui eseguirà la scansione
  • Limit Max Folder Depth: limite massimo di profondità per la scansione delle sotto-directory.

4.4.1 Escludere i parametri nelle URL: ?___from_store=it

Vi è mai capitato di fare un crawl di un sito ed avere URL di questo genere?

?___from_store=it

parametri aggiuntivi degli URL che vorresti escludere dalla scansione di Screaming Frog per risparmiare tempo di scansione. Sempre nella sezione “Limits” bisogna fleggare l’ultimo tab: “Limit Number of Query Strings” e impostare zero sul numero delle query strings da scansionare escludendo così questi path di “tracciamento” dagli URL.

4.5 Scansione di Siti Web in Javascript

Storicamente i Crawler dei motori di ricerca come GoogleBot non erano in grado di scansionare e indicizzare dei contenuti creati dinamicamente utilizzando la tecnologia JavaScirpt, vedendo solamente ciò che aveva una struttura in HTML.

Tuttavia ultimamente Google sta sempre di più evolvendo deprecando le vecchie linee guida di scansione AJAX e generalmente sono in grado di comprendere pagine web con la tecnologia JavaScript.

Ecco quindi dei consigli su come eseguire la scansione di siti web in JavaScript in modo efficace usando lo strumento di rendering.

Nella configurazione di Screaming Frog è possibile impostare il rendering per la scansione delle seguenti risorse:

  • Text Only: cerca solo testo HTML, ignorando il sistema di scansione AJAX e JavaScript
  • Old AJAX Crawling Scheme: vecchio schema di scansione AJAX oramai obsoleto di Google
  • JavaScript: esegue i file Javascript

Rendering risorse Javascript con Screaming Frog

Sebbene sia essenziale per il controllo di oggi, si consiglia di utilizzare il crawling JavaScript solamente in modo “selettivo” e non in default.

Questo perché la scansione JavaScript potrebbe rallentare di molto il crawl di un sito in quanto tutte le risorse JavaScript, CSS, immagini etc. sono generalmente richiamate da risorse esterne e caricare di lavoro il Server che ospita il Sito.

Il rendering delle risorse JavaScript non è un problema per siti web di piccole dimensioni, ma lo diventa per siti di grandi dimensioni aumentando di molto i tempi di Scansione.

4.5.1 Old AJAX Crawling Scheme

Come impostazione predefinita ScreamingFrog esegue la scansione utilizzando il vecchio schema di scansione AJAX il che significa che JavaScript è disabilitato, ma il vecchio sistema di scansione AJAX verrà rispettato se impostato correttamente dal sito web.

Se il sito utilizza JavaScript però viene impostato correttamente attraverso l’escape fragment negli URL, in base al vecchio schema di scansione AJAX di Google, verrà eseguita la scansione degli URL che verranno visualizzati nei risultati di crawling di Screaming Frog selezionando il tab “AJAX”.

L’escape fragment in parole semplici è un parametro che si inserisce negli URL per comunicare a Google di considerare la “pagina gemella” da JS a HTML.

Filtrando i risultati di crawling verranno visualizzate solamente le pagine che utilizzano il vecchio schema di scansione AJAX, mostrando entrambe le versioni:

  • Pretty URL
  • Ugly URL

E come Google il SEO Spider recupera la versione brutale dell’URL e pianifica l’istantanea HTML con l’URL “grazioso”.

Se il sito è stato costruito in JavaScript ma non aderisce al vecchio schema di scansione troverai solamente la home page per cui è stata eseguita la scansione con forse un paio di file JavaScript e CSS, ma non altro.

4.5.2 JavaScript

Se da un’analisi preliminare si è evinto che il sito web in questione utilizza la tecnologia JavaScript si dovrà configurare la modalità di rendering JavaScript:

Andando su Configuration –> Spider –> Redering e cambiare su JavaScript

Una volta fatto partire il crawler è subito possibile accorgersi di quanto la scansione è diversa da quella standard in quanto potrebbe richiedere molto più tempo.

4.5.3 Monitorare le risorse bloccate

Durante un’analisi delle risorse JavaScript e non solo è importante tener d’occhio le risorse che vengono bloccate all’interno del Filtro di Ricerca: “Response Codes” selezionando:

  • Blocked by Robots.txt

è possibile analizzare tutte le risorse JavaScript ma non solo, CSS o immagini che vengono bloccati tramite Robots.txt, questo influirà su rendering, scansione e quindi indicizzazione.

Robots blocked file Javascript

Nei casi più gravi se un sito che utilizza la tecnologia JavaScript blocca completamente le risorse JS, il sito semplicemente non eseguirà la scansione.

Com’è possibile notare dallo screenshot precedente in questa sezione è possibile anche analizzare i reindirizzamenti delle risorse JavaScript lato client andando appunto a selezionare:

  • Redirection (JavaScript)

4.6 Configurazioni Avanzate del SEO Spider

Sempre nella sezione della Configurazione allo Spider di Screaming Frog questa volta nella sezione:“Advanced

  • Allow Cookies: di default Screaming Frog non accetta i cookie come GoogleBot, tuttavia attraverso questa impostazione potrai scegliere di accettare i cookie.
  • Pause on High Memory Usage: lo Spider si interromperà automaticamente quando raggiungerà l’utilizzo elevato di memoria, tuttavia è possibile scegliere di disattivare completamente questa protezione.
  • Respect Noindex: non scansionare gli URL con il tag noindex
  • Respect Canonical: non scansionare gli URL con il canonical

Configurazioni avanzate di Screaming Frog

  • Respect Next/Prev: scansionare solamente il primo URL della sequenza paginata con attributo “rel= next” “rel= prev”
  • Extract Images From img srcset Attribute
  • Response Timeout: impostazione predefinita che lo Spider attenderà per ottenere qualsiasi tipo di risposta da ogni URL.
  • 5XX Response Retries: rieseguire automaticamente le risposte 5XX Server Error
  • Max Redirect to Follow: controllo del numero di reindirizzamente che lo Spider SEO seguirà durante il crawl.

4.6.1 Catene di Redirect 3XX

Always Follow Redirects è uno strumento di Screaming Frog che merita particolare attenzione fleggando questa funzionalità è possibile far seguire al SEO Spider tutti i reindirizzamenti fino all’ultimo URL.

Questa funzionalità è particolarmente utile durante la migrazione di un sito perché gli URL possono seguire un numero infinito di reindirizzamenti 3XX prima di raggiungere la destinazione finale, e come sappiamo è doveroso ai fini SEO, evitare catene di reindirizzamenti per evitare di consumare Crawal Budget.

Una volta completata la scansione con questo tipo di configurazione è possibile scaricarsi le catene di reindirizzamenti andando su:

Report -> Redirect chains

4.7 Preferences Spider Configuration

Nelle impostazioni di Configurazione dello Spider sotto il Tab “Preferences” possiamo scegliere differenti preferenze sui risultati che vogliamo avere dalla Scansione.

  • Page Title e Meta Description Width da queste due opzioni possiamo controllare i limiti di caratteri e di Pixel che devono avere i Title

Preferences configuration seo spider

  • Altre preferenze personali: offrono la possibilità di controllare la lunghezza dei caratteri degli URL, delle intestazioni Header H1 e H2 e degli Alt Tag delle immagini.

4.8 Crawling di una Sotto-Directory: Include e Exclude

Quante volte ti è capitato di fare il Crawl di un intero sito web ma quello che ti serviva era solamente analizzare una singola directory?

Se durante una SEO Audit abbiamo l’esigenza di analizzare sezioni specifiche di un Sito Web come cartelle, sub-cartelle, sotto-domini senza perdere tempo con il crawler del sito intero allora è bene seguire i punti sottostanti.

Screaming Frog da la possibilità di limitare l’azione dello Spider Includendo o Escludendo parti mirate nella sua scansione attraverso il comando RegEx. Questo comando viene usato per impostare le regole sempre in “Configuration” nelle due sezioni:

  • Includi /.* 
  • Escludi /.* 

Include folder in Screaming Frog

Impostando come da esempio nel pannello dopo la sezione del sito da Includere o Escludere dalla scansione /.* in modo da comunicare a Screaming Frog fino a dove deve procedere con il Crawl.

4.9 Profili di Configurazione Personalizzati

A conclusione del presente paragrafo è doveroso descrivere la Nuova modalità di salvataggio e caricamento di Profili di Configurazione Personalizzati di cui dispone la Nuova versione di Screaming Frog 8.1.

Infatti il Nuovo SEO Spider ti consente di salvare differenti profili di configurazione personalizzati impostati in precedenti Crawler, in modo da non doverle ri-selezionare ogni volta manualmente.

Per fare questo basta andare nel Menù Principale e sotto la Voce “File” –>“Configuration

  • Load e Load Recent: ti consentono di caricare Configurazioni già salvate o effettuate precedentemente
  • Save as: ti consente di salvare una nuova configurazione
  • Salvare una corrente configurazione in Default
  • Infine pulire la Configurazione di default e reimpostare da zero Screaming Frog

I profili di configurazione personalizzati vengono salvati nella propria directory utente, in modo da poter copiare e condividere i tuoi profili personalizzati affinché possano essere caricati ed utilizzati velocemente.

Non esiste un limite max al numero di Configurazioni che possiamo salvare nel nostro PC, Screaming Frog ti consente di creare tanti profili secondo le nostre esigenze.

↑Indice

5. Link Interni

L’Analisi dei Link Interni risulta molto semplice e intuitiva attraverso l’uso di Screaming Frog.

Infatti il Tool selezionando un URL oggetto di analisi nell’interfaccia principale, ti da subito a colpo d’occhio una panoramica nell’Interfaccia Minore della Dashboard.

Check dei Link interni con Screaming Frog

Qui cliccando sul tab Inlinks abbiamo tutti i collegamenti interni che puntano verso una risorsa specifica attraverso un anchor text specifico.

  • Typpe: indica la tipologia di link -> AHREF, REDIRECT, JS, IMG, CSS 
  • From: consiste l’URL che linka la risorsa che stiamo esaminando
  • To: consiste nella risorsa che viene linkata
  • Anchor Text: la porla chiave con il quale è linkata la pagina target.

Se abbiamo bisogno di un’analisi più approfondita e avere una panoramica più chiara della situazione di tutti i link interni del sito web, Screaming Frog ci offre la possibilità di scaricare un file excel, dopo naturalmente aver effettuato la crawlerata dell’intero sito web.

 Andando su Bulk export: “all inlinks”

Per capire meglio la tipologia della struttura degli anchor interni si può abbinare questo file con un grafico a torta con le percentuali degli anchor utilizzati (link interno su un articolo dimostrativo di Ecxel, pensare alla creazione di un video dimostrativo)

5.1 Strategia di Link Popularity

Stai cercando di capire qual è la strategia del tuo competitor e capire quali sono le pagine più importanti in ottica SEO che cerca di ottimizzare attraverso la ramificazione e strutturazione dei link interni.

Screaming Frog è un valido strumento per capire quali sono le strategie SEO di un Competitor e capire su quali Keyword punta a posizionarsi.

I link interni sono un ottimo indicatore in ottica ottimizzazione SEO questi hanno una duplica valenza sia quello di veicolare il traffico all’interno del sito web sia quella di veicolare i Spider dei motori di ricerca per fargli raggiungere prima le pagine prioritarie per i nostri obiettivi di Business.

Link Popularity con Screaming Frog

Per questo un’analisi approfondita dei link interni è importante capire quali sono le pagine che noi reputiamo importanti ai fini SEO e perché no anche quelle dei nostri diretti competitor.

Per controllare quali pagine ricevono più link interni basta andare sulla dashboard principale e nel tab Internal andare a cercare i dati riguardanti gli: “Inlinks”. Il Tool di dice quant’è il numero di link interni che riceve una pagina e ordinandoli in modo decrescente ci accorgiamo subito quali sono le pagine di un sito web che ricevono più link e con quali anchor text 😉

↑Indice

6. Robots.TXT

In Screaming Frog c’è ovviamente una parte relativa al Robots.txt essendo uno Spider obbedisce in modo analogo alle sue regole come GoogleBot.

Alcune volte può accadere che inserendo il nome del dominio e facendo partire la Scansione con Screming Frog, non succeda nulla, vi è mai capitato?

Questo inconveniente può dipendere da differenti fattori uno tra questi è il bloccaggio degli spider tramite il file robots.txt come in questo caso:

/Users/serafini/Downloads/robots-txt-seo-special.png

Questo è il Robots.txt di SEO Special quando il sito era ancora in costruzione e veniva bloccato a tutti gli User agent.

Al fine di procedere con la scansione di un sito web in costruzione oppure perché è solamente bloccato volutamente dal web master l’accesso a Spider esterni, basterebbe andare su Configuration del Menù principale:

  • robots.txt
  • settings 

e Flaggare il pulsante: “Ingore robots.txt” così facendo si sta dicendo al software di non prendere in considerazione le impostazioni del Robots e proseguire tranquillamente con la scansione del Sito Web. 

Se invece si vuole capire quali sono gli URL interni bloccati da Robots.txt bisogna andare come abbiamo visto nel paragrafo 4.5.3 nel Filtro di Ricerca – Response Codes – e cliccare su “Blocked by Robots.txt”.

6.1 Come testare un Robots.TXT

Hai un Robots.txt pronto e voi implementarlo ma non hai il coraggio di farlo direttamente on-line e vorresti prima testarlo per vedere come risponde il tuo sito web!

Andando su sempre su Configuration e Robots.txt ma questa volta sotto la voce:

  • “Custom”

è possibile aggiungere attraverso il tasto “Add” un esempio di file Robots.txt che vuoi testare.

Testare un Robots.txt con Screaming Frog

Come ben sappiamo un File Robots.txt viene utilizzato per dare delle specifiche direttive su quali File accedere oppure no agli spider che scansionano un determinato sito web.

Tutti i principali Spider dei motori di ricerca si conformano allo standard di esclusione dei Robot e prima di procedere con la scansione e il recupero di URL di un sito “rispettano” le istruzioni del file Robots.txt.

E’ importante sapere però che le regole dettate dai File Robots.txt NON SONO LEGGI ASSOLUTE! Ovvero un qualunque Spider di qualunque motore di ricerca può benissimo non accettarle e scansionare ugualmente le parti bloccate dal file di Robots… Screaming Frog ne è un’esempio!

In Ottica di ottimizzazione SEO è importante quindi sapere che gli URL bloccati in Robots.txt possono essere ugualmente indicizzati dai motori di ricerca anche se sono solamente collegati da link interni.

Un Robots.txt si limita appunto ad impedire agli Spider dei motori di ricerca di vedere il contenuto di una pagina.

Un meta tag “noindex” è un’opzione migliore per rimuovere il contenuto dagli indici di ricerca.

↑Indice

7. Sitemap.XML

Screming Frog consente sia di creare che di verificare una Sitemap XML.

La funzionalità “Crea Sitemap XML” consente di creare un Sitemap con tutte le pagine HTML che rispondono 200 rilevate durante una scansione, inclusi file PDF e Immagini.

Il SEO Spider inoltre è conforme agli standar descritti nel protocollo di sitemap.org, infatti se il tuo sito web possiede 50.000 URL creerà automaticamente un file di sitemap index con le relative sotto-sitemap.

Andiamo a vedere ora come costruire un File di Sitemap con Screaming Frog.

7.1 Come creare un file di Sitemap

Una volta completato il Crawl del sito web per cui si vuole costruire una Sitemap, andando nel Menù Principale su:

  • Sitemap
  • Create XML Sitemap

Le impostazioni di Default di Screaming Frog sono appositamente scelte in ottica SEO includendo:

  • Tutte le pagine che rispondo con uno status code 200
  • URL canoniche
  • Last modifie (ultima risposta del Server)
  • Priority a seconda della profondità dei livelli di navigazione priorità MAX 1 per la Home Page (Livello 0) e così a scendere priorità 0,9 per le Pagine di Categoria(Livello1) e così via fino ad arrivare alle pagine foglia
  • Change Frequency: in questo caso calcolato dall’ultima modifica dell’header.
    Queste sono le impostazione di Default di Screming Frog, ma è anche possibile cambiarle.

7.2 Come verificare un file di Sitemap

Andando Nel Menu Principale impostando la Modalità List per la scansione

Upload –> Download Sitemap

Queste impostazioni ti consentono di scansionare la Sitemap per analizzarla e capire quali sono gli aspetti da migliorare.

In genere è consigliabile controllare gli Status Code di tutte le URL che compongono la sitemap assicurandoci che rispondono 200 e non ci siano pagine che rispondono 3xx e ancora 4xx.

↑Indice

8. HREFLANG: Gestione Siti Multilingua

Nella barra dei Filtri di ricerca andando sul tab: “hreflang” ci sono i dettagli relativi agli attributi sul famoso tag per disambiguare le versioni in lingua se presenti di un sito web.

Check Hreflang con Screaming Frog

Screming Frog ti presenta in successione ogni singola pagina su cui è implementato oppure non è implementato il Tag=hreflang, ecco le voci che presenta il SEO Tool:

  • URL scansionato
  • Title
  • Occurrences: numero di hreflang scoperto in una pagina (ovvero il numero di siti in lingua che ha quella pagina)
  • HTML hreflang 1: codice di hreflang lingua e regione
  • HTML hrefland 1 URL: pagina relativa su cui è implementato l’hreflang
  • Sitemap hreflang 1: codice di hreflang lingua e regione nella Sitemap
  • Sitemap hreflang 1 URL: pagina relativa su cui è implementato l’hreflang nella Sitemap

Come per tutti i strumenti SEO di Screaming Frog anche in questo caso è possibile filtrare i risultati di ricerca nei seguenti modi:

  • Missing Confirmation Links: URL con mancanti link di conferma
  • Inconsistent Language Confirmation Links: URL dove non è stata confermata la lingua
  • Non Canonical Confirmation Links: URL con link di conferma non canonici
  • Noindex Confirmation Links: URL che ha un Meta Tag Noindex
  • Incorrect Language Codes: URL con valori errati di lingua e di codice regionale
  • Multiple Entries: URL con voci multiple a una lingua o un codice regionale
  • Missin Self Reference: URL mancanti di un attributo hreflang autoreferente
  • Not Using Canonical: URL che non utilizzano l’URL canonico nel suo attributo hreflang
  • Missing X-Default: gli url mancano dell’attributo X-Default
  • Missing: gli URL mancano completamente dell’attributo hreflang

8.1 Export Report HREFLANG

Nel Menù Principale sotto la voce Report, c’è una sezione intera dedicata all’esportazione dei risultati di crawling per l’implementazione del Tag hreflang.

Sono disponibili 5 rapporti hreflang che consentono di esportare specifici problemi di implementazioni:

  • Errors: questo rapporto mostra gli attributi hreflang che non hanno un response code 200 ma ne presentano di differenti come stati 3xx 4xx 5xx
  • Missing Confirmation Links: rapporto che ti consente di capire ed esportare quali pagine non hanno un collegamento di conferma
  • Inconsistent Language Confirmation Links: pagine che hanno codice di lingua differenti dalla stessa pagina
  • Non Canonical Confirmation Links: mostra i collegamenti di conferma relativi a URL non canonici
  • Noindex Confirmation Links: mostra infine i collegamenti di conferma relativi a URL che hanno il tag noindex e quindi bloccati ai motori di ricerca.

↑Indice

9. URL Rewriting

In questo paragrafo tratteremo la funzionalità di riscrittura dei parametri degli URL.

Questa funzionalità è estremamente utile per i siti web che utilizzano gli ID di sessione e ancora il monitoraggio di Google Analytics e tanti altri path aggiunti che si vogliono rimuovere.

Come primo Step bisogna capire quali sono gli URL che hanno dei parametri strani… oppure da riscrivere.

9.1 Come trovare URL che devono essere riscritti

Avviando il SEO Spider con la scansione in modalità default andare sul pannello dei Filtri selezionando “URL”.

Qui è possibile ottenere gli URL con i seguenti parametri:

  • Non ASCII Characters
  • Underscores (sottolineatura)
  • Uppercase (lettere maiuscole)
  • Duplicate (URL duplicate)
  • Parameters (parametri come utm_source)
  • Over 115 Characters

/Users/serafini/Downloads/url-phat-screaming-frog.png

9.2 Come rimuovere parametri dagli URL

Come visto nel paragrafo precedente una volta capiti quali sono gli URL da sottoporre al Rewriting, al fine di rimuovere i Parametri dagli URL, andare sul Menu Principale sempre sul tasto Configuration e cliccare sulla voce “URL Rewriting”.

Nel Tab Remove parameters è possibile inserire i parametri raccolti nel crawl precedente e cliccare su “add” per aggiungere i parametri che vuoi rimuovere dagli URL.

Successivamente sarà necessario lanciare un nuovo crawling con questi settaggi per ottenere la riscrittura degli URL.

9.3 Come riscrivere gli URL con la funzione Regex Replace

Se invece abbiamo necessità di riscrivere tutti gli URL archiviati dal SEO Spider, andare di nuovo nel Menu di Navigazione principale in Configuration – Url rewriting ma questa volta cliccare sulla voce “Regex Replace”

Con questa funzione potrai riscrivere tutti gli url dell’intero sito web, ad esempio:

Sostiturire regex: .it e replace: .com

Andando su “Test” è possibile provare le tue regole di scrittura.

Infine se vuoi rimuovere tutti gli URL Duplicati basta andare sul Tab “Options” e fleggare: “Lowercase discovered URLs” in questo modo si eliminerà dal Crawling tutti gli URL duplicati dovuti a parametri con le lettere magliuscole.

↑Indice

10. Velocità di Crawling

Screaming Frog ti consente di aumentare le richieste di accesso allo spazio Server che ospita il sito web oggetto di analisi.

Andando in Configuration nel Menu Principale e accedendo alla sezione “Speed” è possibile regolare la velocità di Scansione: “Max Threads” e il numero massimo di richieste URL al secondo: “Max URL/s”.

Aumentare la velocità di Crawling di Screaming Frog

Aumentando il numero di: “Max Threads” significa aumentare significativamente la velocità del SEO Spider.

Tuttavia è importante ricordare di utilizzare in maniera responsabile tale funzionalità questo per non aumentare di troppo il numero di richieste inviate al Server e quindi di sovraccaricarlo di lavoro ed evitare problemi di connessione al Server, i famosi status code 5xx.

10.1 Come fare il Crawling di un Sito ospitato su un Vecchio Server

Molto spesso capita che i Siti Web che state analizzando sono ospitati in spazi Server “vecchiotti” e quindi non sono in grado di gestire le molteplici richieste di accesso inviate da Screaming Frog.

Attraverso lo strumento Speed è possibile anche diminuire le richieste al Server, quindi andando ancora una volta in Configuration nel Menù Principale e accedendo alla sezione “Speed”, è possibile scegliere un valore inferiore cercando di trovare il giusto equilibrio con il Server.

↑Indice

11. Simulatore di Spider

Screaming Frog essendo un Web Crawler scansiona un Sito Web nello stesso modo di uno Spider di qualunque motore di ricerca se non identico!

Infatti nelle Impostazioni di Configurazione nel Menù Principale sotto la voce:

  • HTTP Header
  • User-Agent

 User Agent Screaming Frog

E’ possibile impostare lo User Agent (colui che si connette ad un server), ecco di seguito la lista completa di tutti gli Spider che Screaming Frog può simulare:

  • Screaming Frog SEO Spider
  • GoogleBot Regular
  • GoogleBot for smartphones
  • GoogleBot-Mobile
  • BingBot 2.0
  • Yahoo!
  • YandexBot 3.0
  • Baiduspider
  • MJ12bot – MAJESTIC
  • Chrome
  • Firefox
  • IE6 – Internet Explorer
  • IE7 – Internet Explorer
  • IE8 – Internet Explorer
  • IE10 – Internet Explorer
  • IE11 – Internet Explorer
  • iPhone
  • Android Mobile
  • Android Tablet
  • Microsoft Edge

 Porre massima attenzione a come impostare lo User Agent perché da esso dipenderà il risultato dell’intero Crawling.

Andando su Configuration -> HTTP Header –> Accept Language

 E’ possibile anche impostare la lingua e il paese di provenienza a seconda del mercato che si sta esaminando ed eseguire scansioni dei contenuti adattivi locali.

↑Indice

12. Personalizzare lo Spider

Con Screming Frog è possibile personalizzare la propria ricerca direttamente all’interno del Codice HTML.

Il SEO Spider ti permette di trovare tutto ciò che vuoi all’interno del codice di sorgente attraverso la funzione regex personalizzata.

Andando su Configuration –> Custom –> Search hai la possibilità di inserire 10 filtri totali personalizzando la tua ricerca.

Successivamente nel pannello dei Filtri della scansione sul tab “custom” comparirà la lista dei filtri impostati in precedenza.

Per Esportare i Dati che hai filtrato basta andare sempre nel Menu Principale questa volta sotto la voce “Bulk Export” e alla voce “Custom” potrai scaricare in formato Excel tutti i filtri che hai impostato nella Scansione ad uno ad uno.

12.1 Tecnica di Scraping

La funzionalità di Scraping consente di recuperare parti del codice HTML oppure intera struttura del codice HTML di una pagina web

L’estrazione viene eseguita solamente su pagine HTML statiche che presentano un codice di risposta 200.

Andando su Configuration –>Custom –> Extraction ti si aprirà la configurazione personalizzata di estrazione con 10 estrattori separati che vengono impostati in default come “inattivi” come predefiniti.

Screaming Frog utilizza 3 modalità differenti di estrazione dei dati:

  • XPath: è un linguaggio che fa parte della famiglia XML che attraverso un’espressione permette di individuare dei nodi all’interno di un documento XML.
  • CSS Path: sono selettori/pattern CSS utilizzati per selezionare gli elementi a cui si vuole applicare uno stile.
  • Regex: consiste in un’espressione regolare “regular expression” ed è una sequenza di simboli che identifica un insieme di stringhe.

Screaping con Screaming Frog

Quando si scelgono le prime due modalità di estrazione CSS Path oppure XPath è possibile scegliere cosa estrarre esattamente: 

  • Extract Inner HTML: elemento selezionato e tutti il contenuto HTML
  • Extract HTML Element: il contenuto HTML interno dell’elemento selezionato (se l’elemento selezionato conterrà altri elementi HTML, verranno inclusi)
  • Extract Text: il contenuto del testo dell’elemento selezionato e il contenuto di testo di tutti gli elementi secondari.

12.2 Dimostrazione Pratica di Scraping

Andiamo a vedere insieme come effettuare un vero e proprio Scraping “raschiamento” di una testo in una pagina HTML.

Come esempio ho preso la Pagina di Wikipedia che parla appunto di cosa significa uno Web scarping. Selezionando con il tasto destro Ispeziona e visualizzando il codice di pagina HTML andando su Copy e selezionando tutto il della pagina web procedendo con Copy XPhat.

Screaping codice HTML

Ritornando su Screaming Frog e selezionando nel Menù Principale:

  • Configuration
  • Custom
  • Extraction

Dopo aver selezionato in Extractor 1 –> Xpath andare ad incollare l’espressione che ci permetterà, dopo aver selezionato: “Extract Text” di estrapolare il testo della PAGINA WEB CHE CI INTERESSA.

Ti accorgi che l’espressione XPath è andata a buon fine ed è stata interpretata correttamente da Screming Frog una volta che compare la V verde di espressione confermata, altrimenti se l’espressione è sbagliata comparirà una X rossa.

Successivamente Ricordarsi di configurare lo Spider andando nel Menù Principale:

  • Mode
  • List

in modo da procedere con il Crawler della Pagina web da cui vogliamo estrapolare il suo testo.

Tecnica di Screaping con Screaming Frog

Una volta finito il Crawl Andiamo nella barra dei Filtri di Scansione e selezioniamo “Custom” successivamente selezionare il filtro Extraction e procedere con l’Export.

Ecco finalmente il Testo della Pagina Web che tanto desideravi!

Come detto in precedenza con questa operazione oltre che al Testo .txt di una pagina web è possibile eseguire lo Scraping direttamente di tutto il codice HTML fleggando invece che Extract Text, abilitando Extract Inner HTML oppure Extract HTML Element, a seconda degli obiettivi.

L’operazione di Scraping una volta capito il processo è molto semplice e intuitiva, basta ispezionare una pagina web e copiare con XPaht oppure CSSPath il contenuto che ti interessa.

12.3 Estrazione URL Mobile

Attraverso l’espressione XPath è possibile capire quali URL sono corrispondenti tra la versione Desktop e la relativa mobile (m.).

Per fare questo è necessario copiare il seguente X-PATH:

//link[contains(@media, ‘640’) and @href]/@href

Successivamente andando su Configuration -> Custom -> Extraction -> copiando e incollando X-PATH nella voce Extractor 1 e selezionare “Extract inner HTML” – come mostrato nel seguente screenshot:
Inserita l’espressione bisognerà far partire il Crawler e una volta terminata bisognerà andare sul Tab: “Custom” e all’interno della voce “Extraction” avremo gli URL Desktop e i relativi URL Mobile.

↑Indice

13. Configurazione Proxy

Screming Frog ti consente di eseguire le tue scansioni connettendoti con un Indirizzo IP differente.

Andando su Configuration – Proxy Basta inserire l’Indirizzo IP ed il gioco è fatto!

Cambiare Proxy in Screaming Frog

↑Indice

14. Collegamento API

Dalla Nuova versione di Screming Frog 8.0 è possibile integrare il SEO Spider con metriche esterne provenienti dalle API dei seguenti Tool:

  • Google Anlytics
  • Search Console
  • Majestic
  • Ahrefs
  • Moz

Questa è una funzionalità estremamente utile per eseguire oltre che un’analisi dei propri collegamenti esterni anche un benchmark con i competitor o relativi a SERP specifiche relative a keyword specifiche di business che si vorrebbe “attaccare”.

Le potenzialità di questo strumento sono molteplici infatti è possibile connettere più API di strumenti differenti contemporaneamente ed avere la situazione sotto occhio nell’interfaccia principale di Screaming Frog aggiungendo a piacimento anche i risultati di crawling e perché no quelli di search console e google analytics.

In modo da poter combinare insieme più dati e fare delle analisi ancora più approfondite.

E’ possibile tenere sotto d’occhio il processo di collegamento ad API di Tool esterni attraverso il riquadro di destra “API”.

Collegamento API di Screaming Frog con tool esterni

Screaming Frog consente di personalizzare che tipo di informazioni vogliamo ricevere dalle API andando su:

ConfigurationAPI access e poi scegliendo tra i tool esterni che abbiamo a disposizione.

Il seguente screenshot è un’esempio della Configurazione dell’API di Google Analytics ti mostra tutte le impostazioni che diamo a screming frog su quali dati deve andare a recuperare, dopo aver selezionato l’User Account, il tool ti consente di impostare:

  • Date Range: periodo che vogliamo leggere i dati
  • Metrics: Le vari metriche come sessioni di pagina, le conversioni
  • Dimensions: visite organiche o a pagamento
  • General: numero max di risultati

E’ necessario oltre ad avere un account con i seguenti Tool esterni anche un servizio a pagamento di accesso alle API dei seguenti Tool in modo da estrarre i dati che vogliamo attraverso le proprie credenziali.

Moz è l’unico strumento con una API gratuita, basta infatti avere un account a Moz per poter prendersi metriche di Moz come ‘autorità di pagine, di dominio o il punteggio spam.

↑Indice

15. Authentication

Screaming Frog consente di scansionare anche un sito web che si trova ancora in produzione.

Se hai il problema che il sito che vuoi scansionare è ancora protetto da user e password creati dall’utente per eseguire in ugual modo la sua scansione andare su:

  • Configuration
  • Autentication
  • Form based

↑Indice

Spero che tale Guida a Screaming Frog sia stata abbastanza esaustiva. Ho cercato di riassumere gli argomenti più rilevanti, sicuramente con il tempo il presente articolo diventerà sempre più completo grazie anche a vostri Feedback e consigli in merito a miglioramenti o passaggi poco chiari.
Grazie per l’attenzione!

0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Fornisci il tuo contributo!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.