Radio and PodcastRadio and PodcastLive Radio & Podcasts
Deep Dive 205 – AI Evals mit Martin Seeler artwork
Technology

Deep Dive 205 – AI Evals mit Martin Seeler

programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar

Apr 14, 202663:01Technology

Wie hat dir die Folge gefallen? Gut 👍 Schlecht 👎 (Keine Anmeldung erforderlich) Ein Modell-Update bei OpenAI oder Anthropic ist schnell gemacht. Aber wie stellt ihr sicher, dass eure Anwendung danach noch genau das tut...

About This Episode

Deep Dive 205 – AI Evals mit Martin Seeler is an episode from programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar. Wie hat dir die Folge gefallen? Gut 👍 Schlecht 👎 (Keine Anmeldung erforderlich) Ein Modell-Update...

Listen Online

Use the player on this page to stream the episode online.

Episode Details

Published Apr 14, 2026, 63:01 long, audio available.

Questions About This Episode

What is Deep Dive 205 – AI Evals mit Martin Seeler about?

Wie hat dir die Folge gefallen? Gut 👍 Schlecht 👎 (Keine Anmeldung erforderlich) Ein Modell-Update bei OpenAI oder Anthropic ist schnell gemacht. Aber wie stellt ihr sicher, dass eure Anwendung danach noch genau das tut, was sie soll? In dieser Folge, aufgenommen auf der DecompileD in Dresden, sprechen wir mit Martin Seeler, Senior Staff AI Engineer bei Blue Yonder , über die Welt der AI Evals und den Unterschied zwischen einem reinen „Vibe-Check“ und belastbarer Teststrategie für GenAI-Produkte. Im Fokus stehen die drei Säulen der Evaluation: Code-based Evals, LLM-as-a-Judge und Human-in-the-loop. Außerdem geht es um Error Analysis, Failure Modes und wie ihr aus Logs durch Clustering eine eigene Fehler-Taxonomie entwickelt. Wir besprechen, warum binäre Bewertungen (True/False) oft hilfreicher sind als Scores, wie ihr Kosten, Latenz und Qualität gegeneinander abwägt und wie Tools wie Langfuse , Phoenix , promptfoo oder Braintrust euch beim Monitoring und Testing unterstützen. Wenn ihr wissen möchtet, wie ihr eure KI-Anwendung vom Prototypen in einen stabilen Enterprise-Betrieb überführt und Evals gezielt für Fine-Tuning oder Reinforcement Learning nutzt, ist dieser Deep Dive genau richtig für euch. Vielen Dank an das Team der DecompileD für die Gastfreundschaft und an Vodafone für die Bereitstellung der Räumlichkeiten mit Blick auf die Trainingsfelder von Dynamo Dresden! Schreibt uns! Schickt uns eure Themenwünsche und euer Feedback: podcast@programmier.bar Folgt uns! Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen. Bluesky Instagram LinkedIn Meetup YouTube Musik: Hanimo

Where can I listen to Deep Dive 205 – AI Evals mit Martin Seeler?

You can listen to Deep Dive 205 – AI Evals mit Martin Seeler online on Radio and Podcast. Open the player on this page to stream the available audio.

Which podcast is Deep Dive 205 – AI Evals mit Martin Seeler from?

Deep Dive 205 – AI Evals mit Martin Seeler is an episode from programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar.

How long is this episode?

This episode is 63:01 long.

When was this episode published?

This episode was published on Apr 14, 2026.

Can I save Deep Dive 205 – AI Evals mit Martin Seeler for later?

Yes. Use the heart button on the episode page to add it to your favorite episodes list.

Are there related episodes from programmier.bar – der Podcast für App- und Webentwicklung?

Yes. This page shows related episodes from programmier.bar – der Podcast für App- und Webentwicklung when more episodes are available from the podcast feed.

Quick Answers About This Episode

Where can I listen to Deep Dive 205 – AI Evals mit Martin Seeler?

You can listen to Deep Dive 205 – AI Evals mit Martin Seeler on this page when the episode audio is available from the podcast feed.

Which podcast is this episode from?

Deep Dive 205 – AI Evals mit Martin Seeler is from programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar.

What are the episode details?

Published Apr 14, 2026 and 63:01 long