referral spam

Chiunque abbia a che fare con Google Analytics o altri tools per analizzare il traffico e il comportamento degli utenti su un sito web, primo o poi, si dovrà scontrare con una fastidiosa realtà: i refferal spammosi.

Sono numerosi e a lungo andare scompensano sensibilmente i dati raccolti come ad esempio:

  • bounce rate al 100%
  • durata della visita a 00:00:00
  • pagina per sessione 1

Insomma, se facciamo la media di questi dati e dei dati genuini il risultato sarà sicuramente differente da quello che dovrebbe essere in realtà. Come si può intervenire affinché questi dati non influenzino più i dati raccolti con Google Analytics?

Grosso modo possiamo effettuare due interventi, il primo tramite il file .htaccess e il secondo tramite dei filtri che possiamo creare tramite Google Analytics. 

Prima di procedere oltre diamo un’occhiata ad alcuni referral spam.

Semalt.com

homepage semalt

Homepage di Semalt.com

Semalt è un prodotto SEO che offre un’analisi on- e off-page come l’utilizzo delle keyword e metriche dei link. A colpo d’occhio il prodotto non sembra nascondere nulla di strano, ma se si scava più a fondo scoprirai che non è proprio così. Semalt, come altri servizi affini, usano un bot per scansionare il sito web e indicizzare i dati raccolti, ma non disattivano il tracciamento come altri bot più rispettabili fanno.

Esiste un form per richiedere la rimozione del sito dalle operazione di scansione, anche qui però non è che siamo molto onesti.

Provai ad inoltrare una richiesta di rimozione nel dicembre del 2014, ma ancora oggi ricevo visite dal loro bot.

I mille volti del diavolo

Semalt si nasconde dietro altri URL che, se seguiti, reindirizzano al sito principale, come ad esempio:

  • video–production.com
  • success-seo.com
ATTENZIONE: se vuoi farti un giro tra i referral e scoprire se sono effettivamente visite di spam, armati di un buon programma anti-spyware e -adware.

Buttons-for-website.com

buttons for website

Sito di reindirizzamento di buttons-for-website.com

Se i referral fossero ingredienti, buttos-for-website sarebbe sicuramente il prezzemolo, in tutti i casi di referral spam che ho potuto osservare era sempre lì. Se segui l’URL verrai reindirizzato al sito sharebuttons.net (vedi immagine), ti fidi ad installare il loro script? Io no

Non farti ingannare

Ho letto numerosi commenti in merito a buttons-for-website che veniva definito come innocuo. Il traffico è artificiale e proveniente da ogni angolo del globo, dubito che il mio blog venga letto in india o in giappone.

Questi sono solo due dei più comuni tra i referral spam, senza tener conto che Semalt ha altre 3/4 versioni, ma non sono gli unici e bisogna in qualche modo fermarli. Come dicevo all’inizio dell’articolo io uso due metodi: blocco con l’htaccess oppure intervengo con i filtri messi a disposizione da Google Analytics.

Creare filtri anti-spam su Google Analytics

Inizia ad analizzare il traffico spam in entrata sul tuo sito web e cerca di individuare delle caratteristiche comuni tra i vari referral. Facendo qualche analisi sui siti che ho in gestione ho notato che i referral spam hanno un hostname non valido (diverso da quello del mio sito).

Traffico dai referral Google Analytics

Referral Spam con nome host differente

Il collega Tom Capper ha individuato un’altra caratteristica comune, le dimensioni dello schermo che risulta in alcuni casi (not set).

referral dimensioni schermo

Le dimensioni dello schermo (not set)

Ora hai tutto quello che ti serve per procedere al filtraggio dei referral spam.

Esclusione del nome host

Vai nel pannello di amministrazione di Google Analytics seleziona l’account, la proprietà e la vista alla quale desideri applicare un filtro e seleziona la voce Filtri. Clicca sul pulsante rosso “+ Nuovo Filtro” e iniziamo a bloccare quei figli di marmotta.

filtro esclusione host name

Esclusione dei referral con host name differente dal mio

Il filtro non fa altro che eliminare dai dati visualizzati tutti quei referral che hanno il nome host differente da, in questo caso, spacewebdesign.it. Mi raccomando inserisci il tuo nome di dominio.

Esclusione degli schermi non validi

filtro esclusione schermi

Esclusione degli schermi con filtro personalizzato

In questo caso il filtro non rientra nella tipologia predefinita, ma dobbiamo personalizzarlo con una espressione regolare molto semplice. Il filtro non fa altro che escludere tutte le risoluzione degli schermi impostate su (not set).

Escludere i referral

I due filtri che ho appena spiegato potrebbero non bastare per filtrare completamente i referral spam. Creeremo quindi un ultimo filtro che dovrà essere aggiornato ogni volta che vedrai una nuova tipologia di referral spam.

I domini spammosi li riconosciamo a vista d’occhio, almeno gli esperti. Solitamente sono caratterizzati da parole come: cheap, porn, money, buy e così via. L’ultimo filtro raggrupperà queste “parole chiave” in un unico grande pattern.

esclusione dei referral

addio referral spam

Il pattern puoi crearlo tu inserendo le parole che contraddistinguono i domini spammosi, altrimenti puoi usare questo:

Non si gioca con l’htaccess

Da questo punto in poi, se non sei “un’addetto ai lavori” è meglio che ti fermi. Il file .htaccess è un file molto “sensibile” che comanda il comportamento del tuo server in determinate situazione, come ad esempio:

  • durata delle cache
  • compressione dei file
  • reindirizzamenti

Una lettera fuori posto e il sito va offline o come mi disse un tizio anni fa “si rompe”. Quindi ripeto, se non sei un esperto lascia stare.

Bloccare i referral spam con l’htaccess

I passaggi visti fino ad ora non bloccano definitivamente l’accesso al tuo sito da parte dei referral spam, semplicemente vengono eliminati dalle statistiche. Per bloccarli definitivamente bisogna intervenire tramite il file .htaccess. Se sei un server Apache puoi semplicemente copiare le seguenti istruzioni nel tuo file.

Questo metodo, come ho detto nel paragrafo precedente, è molto più efficacie perché previene il traffico dei bots verso il tuo server. C’è un tutorial online molto creativo, che non ho mai testato. Permette di reindirizzare i vari bot spammer al loro legittimo proprietario, trovate il link nelle fonti a fine articolo.

procione malvagio

Il procione reindirizza al mittente i bot spammosi

Conclusioni

Ora puoi filtrare o prevenire il traffico spammoso verso il tuo sito. Per ogni dubbio o domanda scrivimi un commento, sarà felice di risponderti 😉

Fonti: