# ########################################################################## # # ROBOTS.TXT - CONFIGURAZIONE WORDPRESS SEO + AI + ANTI-SCRAPER # # ########################################################################## # -------------------------------------------------------------------------- # 1. REGOLE GENERALI PER TUTTI I BOT # -------------------------------------------------------------------------- # Queste regole valgono per qualunque crawler che non abbia una sezione # dedicata più sotto. # Blocchiamo inoltre file tecnici che non hanno utilità SEO e la ricerca # interna di WordPress, che spesso genera URL inutili ai motori di ricerca. User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /readme.html Disallow: /license.txt Disallow: /search/ Disallow: /*?s= Disallow: /wp-content/cache/ Disallow: /wp-content/upgrade/ # -------------------------------------------------------------------------- # 2. MOTORI DI RICERCA PRINCIPALI # -------------------------------------------------------------------------- # Qui dichiariamo esplicitamente che i principali motori di ricerca possono # accedere liberamente al sito. # # Anche se in teoria basterebbe già la regola generale, questa sezione rende # la configurazione più chiara e leggibile. User-agent: Googlebot Allow: / User-agent: Googlebot-Image Allow: / User-agent: Bingbot Allow: / User-agent: DuckDuckBot Allow: / User-agent: Applebot Allow: / User-agent: msnbot-media Allow: / # -------------------------------------------------------------------------- # 3. CRAWLER AI CONSENTITI # -------------------------------------------------------------------------- # In questa sezione autorizziamo i crawler AI che vogliamo lasciare leggere # il sito, ad esempio per funzioni di browsing, discovery o risposta agli # utenti. # # Questa scelta NON obbliga tali sistemi a usare i contenuti, ma chiarisce # che il sito non li esclude a priori. User-agent: GPTBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: / User-agent: ClaudeBot Allow: / User-agent: anthropic-ai Allow: / User-agent: Amazonbot Allow: / User-agent: Meta-ExternalAgent Allow: / # -------------------------------------------------------------------------- # 4. BOT NON DESIDERATI PER TRAINING O RACCOLTA MASSIVA # -------------------------------------------------------------------------- # Qui indichiamo in modo esplicito che alcuni bot non sono autorizzati # a scansionare il sito. # # Questa sezione serve soprattutto come dichiarazione tecnica di opt-out # e di mancato consenso alla raccolta automatizzata dei contenuti. User-agent: CCBot Disallow: / User-agent: OAI-Search Disallow: / # -------------------------------------------------------------------------- # 5. BOT AGGRESSIVI, SCRAPER E STRUMENTI DI IMAGE MONITORING # -------------------------------------------------------------------------- # Questa sezione dichiara il divieto di accesso a bot usati per scraping, # scansione commerciale, database SEO aggressivi o monitoraggio automatico # delle immagini. # # Il blocco qui espresso vale per i bot che rispettano robots.txt. # Quelli che non lo rispettano vengono gestiti con Cloudflare e .htaccess. User-agent: Copytrack Disallow: / User-agent: Pixsy Disallow: / User-agent: ImageViser Disallow: / User-agent: PicRights Disallow: / User-agent: RyteBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: Rogerbot Disallow: / User-agent: MJ12bot Disallow: / User-agent: DotBot Disallow: / User-agent: ia_archiver Disallow: / # -------------------------------------------------------------------------- # 6. SITEMAP XML # -------------------------------------------------------------------------- # La sitemap indica ai crawler legittimi dove trovare l'elenco strutturato # delle pagine del sito da scansionare. # # Questa direttiva è molto utile per la SEO ed è corretta in un sito # WordPress che usa una sitemap index. Sitemap: https://{{FULL_DOMAIN}}/sitemap_index.xml