Question 1

What is Deep Dive 205 – AI Evals mit Martin Seeler about?

Accepted Answer

Wie hat dir die Folge gefallen? Gut 👍 Schlecht 👎 (Keine Anmeldung erforderlich) Ein Modell-Update bei OpenAI oder Anthropic ist schnell gemacht. Aber wie stellt ihr sicher, dass eure Anwendung danach noch genau das tut, was sie soll? In dieser Folge, aufgenommen auf der DecompileD in Dresden, sprechen wir mit Martin Seeler, Senior Staff AI Engineer bei Blue Yonder , über die Welt der AI Evals und den Unterschied zwischen einem reinen „Vibe-Check“ und belastbarer Teststrategie für GenAI-Produkte. Im Fokus stehen die drei Säulen der Evaluation: Code-based Evals, LLM-as-a-Judge und Human-in-the-loop. Außerdem geht es um Error Analysis, Failure Modes und wie ihr aus Logs durch Clustering eine eigene Fehler-Taxonomie entwickelt. Wir besprechen, warum binäre Bewertungen (True/False) oft hilfreicher sind als Scores, wie ihr Kosten, Latenz und Qualität gegeneinander abwägt und wie Tools wie Langfuse , Phoenix , promptfoo oder Braintrust euch beim Monitoring und Testing unterstützen. Wenn ihr wissen möchtet, wie ihr eure KI-Anwendung vom Prototypen in einen stabilen Enterprise-Betrieb überführt und Evals gezielt für Fine-Tuning oder Reinforcement Learning nutzt, ist dieser Deep Dive genau richtig für euch. Vielen Dank an das Team der DecompileD für die Gastfreundschaft und an Vodafone für die Bereitstellung der Räumlichkeiten mit Blick auf die Trainingsfelder von Dynamo Dresden! Schreibt uns! Schickt uns eure Themenwünsche und euer Feedback: podcast@programmier.bar Folgt uns! Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen. Bluesky Instagram LinkedIn Meetup YouTube Musik: Hanimo

Question 2

Where can I listen to Deep Dive 205 – AI Evals mit Martin Seeler?

Accepted Answer

You can listen to Deep Dive 205 – AI Evals mit Martin Seeler online on Radio and Podcast. Open the player on this page to stream the available audio.

Question 3

Which podcast is Deep Dive 205 – AI Evals mit Martin Seeler from?

Accepted Answer

Deep Dive 205 – AI Evals mit Martin Seeler is an episode from programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar.

Question 4

How long is this episode?

Accepted Answer

This episode is 63:01 long.

Question 5

When was this episode published?

Accepted Answer

This episode was published on Apr 14, 2026.

Question 6

Can I save Deep Dive 205 – AI Evals mit Martin Seeler for later?

Accepted Answer

Yes. Use the heart button on the episode page to add it to your favorite episodes list.

Question 7

Are there related episodes from programmier.bar – der Podcast für App- und Webentwicklung?

Accepted Answer

Yes. This page shows related episodes from programmier.bar – der Podcast für App- und Webentwicklung when more episodes are available from the podcast feed.

Deep Dive 205 – AI Evals mit Martin Seeler

About This Episode

Questions About This Episode

Quick Answers About This Episode

Where can I listen to Deep Dive 205 – AI Evals mit Martin Seeler?

Which podcast is this episode from?

What are the episode details?

Deep Dive 205 – AI Evals mit Martin Seeler

About This Episode

Related Episodes

Questions About This Episode

Quick Answers About This Episode

Where can I listen to Deep Dive 205 – AI Evals mit Martin Seeler?

Which podcast is this episode from?

What are the episode details?