# ##########################################################################
# # ROBOTS.TXT - CONFIGURAZIONE WORDPRESS SEO + AI + ANTI-SCRAPER         #
# ##########################################################################


# --------------------------------------------------------------------------
# 1. REGOLE GENERALI PER TUTTI I BOT
# --------------------------------------------------------------------------
# Queste regole valgono per qualunque crawler che non abbia una sezione
# dedicata più sotto.
# Blocchiamo inoltre file tecnici che non hanno utilità SEO e la ricerca
# interna di WordPress, che spesso genera URL inutili ai motori di ricerca.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /readme.html
Disallow: /license.txt
Disallow: /search/
Disallow: /*?s=
Disallow: /wp-content/cache/
Disallow: /wp-content/upgrade/


# --------------------------------------------------------------------------
# 2. MOTORI DI RICERCA PRINCIPALI
# --------------------------------------------------------------------------
# Qui dichiariamo esplicitamente che i principali motori di ricerca possono
# accedere liberamente al sito.
#
# Anche se in teoria basterebbe già la regola generale, questa sezione rende
# la configurazione più chiara e leggibile.

User-agent: Googlebot
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Bingbot
Allow: /

User-agent: DuckDuckBot
Allow: /

User-agent: Applebot
Allow: /

User-agent: msnbot-media
Allow: /


# --------------------------------------------------------------------------
# 3. CRAWLER AI CONSENTITI
# --------------------------------------------------------------------------
# In questa sezione autorizziamo i crawler AI che vogliamo lasciare leggere
# il sito, ad esempio per funzioni di browsing, discovery o risposta agli
# utenti.
#
# Questa scelta NON obbliga tali sistemi a usare i contenuti, ma chiarisce
# che il sito non li esclude a priori.


User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Amazonbot
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

# --------------------------------------------------------------------------
# 4. BOT NON DESIDERATI PER TRAINING O RACCOLTA MASSIVA
# --------------------------------------------------------------------------
# Qui indichiamo in modo esplicito che alcuni bot non sono autorizzati
# a scansionare il sito.
#
# Questa sezione serve soprattutto come dichiarazione tecnica di opt-out
# e di mancato consenso alla raccolta automatizzata dei contenuti.

User-agent: CCBot
Disallow: /

User-agent: OAI-Search
Disallow: /


# --------------------------------------------------------------------------
# 5. BOT AGGRESSIVI, SCRAPER E STRUMENTI DI IMAGE MONITORING
# --------------------------------------------------------------------------
# Questa sezione dichiara il divieto di accesso a bot usati per scraping,
# scansione commerciale, database SEO aggressivi o monitoraggio automatico
# delle immagini.
#
# Il blocco qui espresso vale per i bot che rispettano robots.txt.
# Quelli che non lo rispettano vengono gestiti con Cloudflare e .htaccess.

User-agent: Copytrack
Disallow: /

User-agent: Pixsy
Disallow: /

User-agent: ImageViser
Disallow: /

User-agent: PicRights
Disallow: /

User-agent: RyteBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: Rogerbot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: ia_archiver
Disallow: /


# --------------------------------------------------------------------------
# 6. SITEMAP XML
# --------------------------------------------------------------------------
# La sitemap indica ai crawler legittimi dove trovare l'elenco strutturato
# delle pagine del sito da scansionare.
#
# Questa direttiva è molto utile per la SEO ed è corretta in un sito
# WordPress che usa una sitemap index.

Sitemap: https://{{FULL_DOMAIN}}/sitemap_index.xml