Radio and PodcastRadio and PodcastLive Radio & Podcasts
Episode 224 : Données non structurées et modern OCR artwork
Technology

Episode 224 : Données non structurées et modern OCR

Bigdata Hebdo by Vincent Heuschling

Oct 28, 202551:24Technology

Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les...

About This Episode

Episode 224 : Données non structurées et modern OCR is an episode from Bigdata Hebdo by Vincent Heuschling. Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe...

Podcast

This episode belongs to Bigdata Hebdo.

Listen Online

Use the player on this page to stream the episode online.

Episode Details

Published Oct 28, 2025, 51:24 long, audio available.

Questions About This Episode

What is Episode 224 : Données non structurées et modern OCR about?

Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents. On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings. 00:00 Introduction 03:06 La promesse des éditeurs 08:05 Comprendre le RAG et son fonctionnement 11:06 Difficultés liées à l'OCR et à l'extraction de données 19:05 Recommandations pour l'optimisation des documents 28:46 Mistral Document AI et ses fonctionnalités 33:49 Chunking et gestion des documents 40:55 Fine-tuning des modèles d'embeddings 43:00 Formats de documents et leur pérennité 47:23 Conclusion et perspectives Notes et ressources

Where can I listen to Episode 224 : Données non structurées et modern OCR?

You can listen to Episode 224 : Données non structurées et modern OCR online on Radio and Podcast. Open the player on this page to stream the available audio.

Which podcast is Episode 224 : Données non structurées et modern OCR from?

Episode 224 : Données non structurées et modern OCR is an episode from Bigdata Hebdo by Vincent Heuschling.

How long is this episode?

This episode is 51:24 long.

When was this episode published?

This episode was published on Oct 28, 2025.

Can I save Episode 224 : Données non structurées et modern OCR for later?

Yes. Use the heart button on the episode page to add it to your favorite episodes list.

Are there related episodes from Bigdata Hebdo?

Yes. This page shows related episodes from Bigdata Hebdo when more episodes are available from the podcast feed.

Quick Answers About This Episode

Where can I listen to Episode 224 : Données non structurées et modern OCR?

You can listen to Episode 224 : Données non structurées et modern OCR on this page when the episode audio is available from the podcast feed.

Which podcast is this episode from?

Episode 224 : Données non structurées et modern OCR is from Bigdata Hebdo by Vincent Heuschling.

What are the episode details?

Published Oct 28, 2025 and 51:24 long