• Catégories
    • Toutes les catégories
    • Planète Warez
      Présentations
      Aide & Commentaires
      Réglement & Annonces
      Tutoriels
    • IPTV
      Généraliste
      Box
      Applications
      VPN
    • Torrent & P2P
    • Direct Download et Streaming
    • Autour du Warez
    • High-tech : Support IT
      Windows, Linux, MacOS & autres OS
      Matériel & Hardware
      Logiciel & Software
      Smartphones & Tablettes
      Graphismes
      Codage : Sites Web, PHP/HTML/CSS, pages perso, prog.
      Tutoriels informatiques
    • Culture
      Actualités High-Tech
      Cinéma & Séries
      Sciences
      Musique
      Jeux Vidéo
    • Humour & Insolite
    • Discussions générales
    • Espace détente
    • Les cas désespérés
  • Récent
  • Populaire
  • Résolu
  • Non résolu
Réduire

Planète Warez

,
  • Politique
  • Règlement
  • À propos
  • Annonces
  • Faire un don
  • Feedback
  • Team
  • Tutoriels
  • Bug Report
  • Wiki
    • Light
    • Default
    • Ubuntu
    • Lightsaber
    • R2d2
    • Padawan
    • Dim
    • FlatDark
    • Invaders
    • Metallic
    • Millennium
    • Leia
    • Dark
    • DeathStar
    • Starfighter
    • X-Wing
    • Sith Order
    • Galactic
ko-fi

L'extraction de données pour et par l'I.A. se heurte au pdf et au format des journaux

Planifier Épinglé Verrouillé Déplacé Actualités High-Tech
2 Messages 2 Publieurs 67 Vues
    • Du plus ancien au plus récent
    • Du plus récent au plus ancien
    • Les plus votés
Répondre
  • Répondre à l'aide d'un nouveau sujet
Se connecter pour répondre
Ce sujet a été supprimé. Seuls les utilisateurs avec les droits d'administration peuvent le voir.
  • duJambonundefined En ligne
    duJambonundefined En ligne
    duJambon Pastafariste Rebelle
    a écrit sur dernière édition par duJambon
    #1

    Je ne vous traduirais pas l’article qui est plutôt rasoir, mais un petit exemple vous fera tout comprendre.

    La reconnaissance de caractère par OCR avait déjà ses limites, les llms ne font guère mieux, par exemple du texte encolonné dans un journal, un livre ou un pdf

    5f3aadbe-7c47-4af0-8923-d97600117f02-image.png

    “Shake my booty” est à la base d’un tube et d’une expression devenue célèbre, alors qu’à la base le butin (en l’occurrence aussi le cul) n’a aucune raison d’être secoué ici.

    Même à l’ère de l’intelligence artificielle, il n’existe pas encore de solution OCR parfaite. Pire, elles contribuent ou entretiennent les hallucinations de ces systèmes. La course à l’extraction de données à partir de PDF se poursuit, avec des entreprises comme Google qui proposent désormais des produits d’IA générative sensibles au contexte. Comme l’observe Willis, une partie de la motivation des entreprises d’IA pour extraire les PDF est sans doute liée à l’acquisition potentielle de données d’entraînement : « Je pense que l’annonce de Mistral est une preuve assez claire que les documents – et pas seulement les PDF – constituent une part importante de leur stratégie, précisément parce qu’ils fourniront probablement des données d’entraînement supplémentaires. »

    Qu’elles profitent aux entreprises d’IA qui utilisent des données de formation ou aux historiens qui analysent un recensement historique, ces technologies, à mesure qu’elles s’améliorent, peuvent ouvrir la voie à des référentiels de connaissances actuellement enfermés dans des formats numériques conçus principalement pour la consommation humaine. Cela pourrait conduire à un nouvel âge d’or de l’analyse des données – ou à une journée de chasse aux erreurs difficiles à repérer, selon la technologie utilisée et la confiance aveugle que nous lui accordons.

    Source et beaucoup plus: https://arstechnica.com/ai/2025/03/why-extracting-data-from-pdfs-is-still-a-nightmare-for-data-experts/

    When Pigs Fly.

    1 réponse Dernière réponse
    0
  • Violenceundefined Hors-ligne
    Violenceundefined Hors-ligne
    Violence CosmoSeeders # Dev I.T Guy PW Addict
    a écrit sur dernière édition par
    #2

    Perso j’utilise le screen to text de Powertoys. Ça marche relativement bien…

    V:\> █░░ PR4IS3 TH3 C0D3 ░░█ ✌(◕‿-)✌
    ╚═ Admin, Dev et auteur de la plupart des bugs de PW…

    ░░░▒▒▒▓▒▒▒░░░
    ░░░░░░▓░░░░░░
    ▒▒▒▒▓▓▓▓▓▒▒▒▒
    ░░░░░░▓░░░░░░

    1 réponse Dernière réponse
    0






©2025 planete-warez.net
L'actualité Warez & underground en continu
Icône café Faire un don
Politique   RGPD  @dev  Sudonix
    • Se connecter

    • Vous n'avez pas de compte ? S'inscrire

    • Connectez-vous ou inscrivez-vous pour faire une recherche.
    • Premier message
      Dernier message
    0
    • Catégories
      • Toutes les catégories
      • Planète Warez
        Présentations
        Aide & Commentaires
        Réglement & Annonces
        Tutoriels
      • IPTV
        Généraliste
        Box
        Applications
        VPN
      • Torrent & P2P
      • Direct Download et Streaming
      • Autour du Warez
      • High-tech : Support IT
        Windows, Linux, MacOS & autres OS
        Matériel & Hardware
        Logiciel & Software
        Smartphones & Tablettes
        Graphismes
        Codage : Sites Web, PHP/HTML/CSS, pages perso, prog.
        Tutoriels informatiques
      • Culture
        Actualités High-Tech
        Cinéma & Séries
        Sciences
        Musique
        Jeux Vidéo
      • Humour & Insolite
      • Discussions générales
      • Espace détente
      • Les cas désespérés
    • Récent
    • Populaire
    • Résolu
    • Non résolu