URL paginati e contenuti duplicati in WordPress

ATTENZIONE: questo articolo è stato scritto oltre un anno fa, ed i contenuti potrebbero non essere più validi o compatibili. Sei pregato di tenerne conto, e se hai informazioni in merito di segnalarmele, grazie.

contenuti duplicatiWordPress è fantastico ma purtroppo non è perfetto, a fargli sfiorare la perfezione vengono in aiuto dei plugins fatti molto bene (attenzione però a non abusarne), ma alle volte non basta e qualcosina da sistemare a mano c’è sempre.

Una delle cose che non mi è piaciuta di WordPress è di trovarmi indicizzati nei motori di ricerca gli URL paginati, quelle pagine cioè caratterizzate da un indirizzo del tipo https://robrota.com/page/2, https://robrota.com/page/3, etc.

Sono indicizzazioni inutili, a mio avviso, e credo, anche se non ne sono sicurissimo, che possano essere controproducenti, con il rischio cioè di contenuti duplicati.
Per chi fosse dello stesso avviso, per fortuna la soluzione è semplice.

Mi piacerebbe comunque sapere, magari dai più esperti, se le mie supposizioni sono fondate o meno, e per questo i commenti sono particolarmente graditi.

Intanto vediamo come evitare l’indicizzazione degli URL paginati con poche modifiche molto semplici, alla portata di tutti.

Abbiamo due strade, nella prima si va a modificare il file header.php del tema utilizzato, nella seconda invece si va a modificare il file robots.txt.

Entrambe sono valide ma quale utilizzare? Io dico tutte e due, visto che alcuni spider non rispettano l’una o l’altra, almeno così si hanno maggiori possibilità che l’effetto sia quello desiderato per la maggior parte possibile dei motori di ricerca.

Modificare il TAG meta robots

Si può dire agli spiders dei motori di ricerca cosa indicizzare o meno tramite il metatag “robots” inserito tra gli header della pagina web (inserito cioè tra i tag <head> e </head>), direttamente nel file header.php del tema in uso, e grazie all’uso del condizionale in PHP personalizzare questa istruzione per gli URL paginati.

<?php if (is_paged()) { ?>
<meta name="robots" content="noindex,follow" />
<?php } ?>

In questo modo nella prima riga abbiamo detto a PHP di mostrare il contenuto seguente (seconda riga) solo in caso di URL paginati, altrimenti non mostra niente.
L’istruzione “noindex, follow” del metatag robots dice ai motori di ricerca di di non indicizzare la pagina (noindex) ma di seguire i link contenuti nella pagina (follow).

Possiamo fare di più se occorre, ed inserire un “altrimenti”, come l’esempio che segue:

<?php if (is_paged()) { ?>
<meta name="robots" content="noindex,follow" />
<?php } else { ?>
<meta name="robots" content="index,follow" />
<?php } ?>

In sostanza, se la pagina è del tipo paged mostra la prima versione del metatag robots, altrimenti mostra la seconda, dove al posto di noindex viene specificato index, ossia indicizza.

Nel caso (e ve lo raccomando) sia utilizzato il plugin All in One SEO, io consiglio la prima versione perché in taluni casi il plugin inserisce dei metatag robots ad-hoc che andrebbero a sovrapporsi a quanto indicato dalla nostra modifica.

Modificare il file robots.txt

Si può controllare l’accesso e l’indicizzazione delle pagine da parte dei motori di ricerca grazie al file robots.txt, che dovrebbe essere sempre presente alla radice del nostro bel WordPress.

La modifica del file robots.txt è semplice:

individuare la riga contenente, altrimenti scriverla:

User-Agent: *

riga che sta a significare che le successive istruzioni sono valide per tutti i robots, ed inserire la seguente istruzione:

Disallow: /page/

istruzione che disabilita l’accesso agli spider dei motori a tutti gli URL che iniziano con /page/

Fatto questo, non ci rimane che aspettare che i motori di ricerca recepiscano le nostre modifiche e attendere i risultati.

Che ne dici, hai qualche suggerimento da aggiungere?

Tags: , , , , ,

Nessun commento ancora.

Dubbi o suggerimenti? Lascia un commento!

I love Instagram