• Catégories
    • Toutes les catégories
    • Planète Warez
      Présentations
      Aide & Commentaires
      Réglement & Annonces
      Tutoriels
    • IPTV
      Généraliste
      Box
      Applications
      VPN
    • Torrent & P2P
    • Direct Download et Streaming
    • Autour du Warez
    • High-tech : Support IT
      Windows, Linux, MacOS & autres OS
      Matériel & Hardware
      Logiciel & Software
      Smartphones & Tablettes
      Graphismes
      Codage : Sites Web, PHP/HTML/CSS, pages perso, prog.
      Tutoriels informatiques
    • Culture
      Actualités High-Tech
      Cinéma & Séries
      Sciences
      Musique
      Jeux Vidéo
    • Humour & Insolite
    • Discussions générales
    • Espace détente
    • Les cas désespérés
  • Récent
  • Populaire
  • Résolu
  • Non résolu
Réduire

Planète Warez

,
  • Politique
  • Règlement
  • À propos
  • Annonces
  • Faire un don
  • Feedback
  • Team
  • Tutoriels
  • Bug Report
  • Wiki
    • Light
    • Default
    • Ubuntu
    • Lightsaber
    • R2d2
    • Padawan
    • Dim
    • FlatDark
    • Invaders
    • Metallic
    • Millennium
    • Leia
    • Dark
    • DeathStar
    • Starfighter
    • X-Wing
    • Sith Order
    • Galactic
ko-fi

Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles

Planifier Épinglé Verrouillé Déplacé Actualités High-Tech
perplexity aicloudflareia
1 Messages 1 Publieurs 23 Vues
    • Du plus ancien au plus récent
    • Du plus récent au plus ancien
    • Les plus votés
Répondre
  • Répondre à l'aide d'un nouveau sujet
Se connecter pour répondre
Ce sujet a été supprimé. Seuls les utilisateurs avec les droits d'administration peuvent le voir.
  • Violenceundefined Hors-ligne
    Violenceundefined Hors-ligne
    Violence Admin
    écrit dernière édition par
    #1

    Perplexity AI s’est fait épingler par Cloudflare, pris la main dans le sac à contourner allègrement les règles du web avec leurs bots masqués. Et le plus fort dans tout ça c’est qu’ils nient tout en bloc.

    L’affaire a éclaté quand Cloudflare, qui s’occupe d’un cinquième du trafic internet mondial, a décidé de fouiner un peu dans les pratiques suspectes de certains bots IA. Et le verdict est tombé assez rapidement : Perplexity a recours à des crawlers furtifs qui se font passer pour de véritables navigateurs afin de s’emparer du contenu des sites web, même lorsque les propriétaires ont dit non par le biais du fameux fichier robots.txt.

    Ce qui rend cette histoire encore plus énervante, c’est la technique utilisée. Plutôt que d’employer leur user agent officiel “PerplexityBot”, les bots se déguisent en Chrome sur Windows 10.

    Cloudflare a mené ses propres expériences pour prouver la manœuvre. Ils ont conçu un site web accessible uniquement aux vrais user agents Chrome et Firefox, tout en bloquant explicitement PerplexityBot via le robots.txt. Les bots officiels de Perplexity sont bien arrêtés, mais étrangement, quand un utilisateur fait une requête sur Perplexity.ai, le contenu est tout de même récupéré.

    Comment ? Et bien grâce à des crawlers masqués, utilisant des ASN (Autonomous System Numbers) différents et des user agents trafiqués.

    La défense de Perplexity ? Un véritable morceau de bravoure. Leur PDG, Aravind Srinivas, affirme qu’ils ne contournent pas le robots.txt, mais qu’ils recourent à des “fournisseurs tiers” pour le crawling. En gros, “C’est panoupanous, c’est les autres.” Sauf qu’il ne veut pas révéler l’identité de ces mystérieux partenaires, prétextant un accord de confidentialité. Pratique, non ?

    Le problème dépasse largement le cadre de Perplexity car Wired et le développeur Robb Knight avaient déjà mené l’enquête en juin 2024 et découvert des indices similaires. Amazon Web Services a même lancé une investigation pour vérifier si Perplexity bafoue leurs conditions d’utilisation. Et en juin 2025, la BBC a menacé de poursuites judiciaires, exigeant que Perplexity cesse de scraper leur contenu et efface toutes les données collectées.

    Pour situer l’ampleur du phénomène, Cloudflare a déterminé que les bots IA représentent désormais 5% de tout le trafic bot identifié. OpenAI avec GPTBot est en tête, suivi de… PerplexityBot en neuvième position. Mais ça, c’est uniquement pour ceux qui jouent cartes sur table. Combien passent sous le radar avec des identités truquées ?

    La technique de contournement est d’ailleurs assez rusée car quand vous demandez à Perplexity d’explorer une URL spécifique, leur système prétend agir “au nom de l’utilisateur”, comme si vous copiez-collez vous-même le contenu. Sauf qu’en réalité, c’est un bot automatisé qui s’en charge, en utilisant des headless browsers pour paraître plus légitime.

    TollBit, une startup spécialisée dans les accords de licence IA, a révélé que plus de 50 sites web choisissent délibérément d’ignorer le protocole robots.txt. Et surprise, selon une enquête de Business Insider, OpenAI et Anthropic (les créateurs de Claude) figureraient parmi eux. Mais au moins, ils ne se cachent pas derrière des user agents falsifiés.

    Ce qui m’agace vraiment dans cette histoire, c’est l’hypocrisie ambiante. D’un côté, ces entreprises IA nous vendent du rêve sur l’éthique et la transparence et de l’autre, elles emploient des méthodes dignes de hackers des années 2000 pour aspirer du contenu sans permission. Et pendant ce temps, les créateurs de contenu se retrouvent pillés sans compensation.

    Cloudflare propose bien quelques solutions pour se protéger, notamment leur outil AI Bots qui permet de gérer finement l’accès des différents crawlers IA. Ils ont aussi mis au point un “Bot Score” qui évalue la légitimité du trafic sur une échelle de 1 à 99. Plus le score est bas, plus y’a de chances que ce soit un bot. Les crawlers masqués de Perplexity obtiennent généralement un score en dessous de 30.

    Donc, si vous gérez un site web, je vous recommande vivement de scruter vos logs. Repérez les schémas suspects du genre une même IP qui enchaîne les requêtes, des user agents identiques mais aux comportements différents, ou des accès à des URLs jamais publiées.

    Quoiqu’il en soit, si même les plus grandes entreprises IA ne respectent pas des règles basiques comme le robots.txt, qu’est-ce qui les empêchera demain de franchir d’autres limites ?

    C’est bien dommage, je trouve…


    –Sources :

    https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/)

    https://korben.info/perplexity-ai-stealth-crawlers-cloudflare-expose.html

    V:\> █░░ PR4IS3 TH3 C0D3 ░░█ ✌(◕‿-)✌
    ╚═ Admin, Dev et auteur de la plupart des bugs de PW…

    ░░░▒▒▒▓▒▒▒░░░
    ░░░░░░▓░░░░░░
    ▒▒▒▒▓▓▓▓▓▒▒▒▒
    ░░░░░░▓░░░░░░

    1 réponse Dernière réponse
    3






©2025 planete-warez.net
L'actualité Warez & underground en continu
Icône café Faire un don
Politique   RGPD  @dev  Sudonix
    • Se connecter

    • Vous n'avez pas de compte ? S'inscrire

    • Connectez-vous ou inscrivez-vous pour faire une recherche.
    • Premier message
      Dernier message
    0
    • Catégories
      • Toutes les catégories
      • Planète Warez
        Présentations
        Aide & Commentaires
        Réglement & Annonces
        Tutoriels
      • IPTV
        Généraliste
        Box
        Applications
        VPN
      • Torrent & P2P
      • Direct Download et Streaming
      • Autour du Warez
      • High-tech : Support IT
        Windows, Linux, MacOS & autres OS
        Matériel & Hardware
        Logiciel & Software
        Smartphones & Tablettes
        Graphismes
        Codage : Sites Web, PHP/HTML/CSS, pages perso, prog.
        Tutoriels informatiques
      • Culture
        Actualités High-Tech
        Cinéma & Séries
        Sciences
        Musique
        Jeux Vidéo
      • Humour & Insolite
      • Discussions générales
      • Espace détente
      • Les cas désespérés
    • Récent
    • Populaire
    • Résolu
    • Non résolu