
News AI 23/26: Antrophic Bewertung // Opus 4.8 // NVIDIA Chips // Papst & AI
Jun 4, 2026 - 48:28
Radio and PodcastLive Radio & Podcasts
Wie hat dir die Folge gefallen? Gut 👍 Schlecht 👎 (Keine Anmeldung erforderlich) Ein Modell-Update bei OpenAI oder Anthropic ist schnell gemacht. Aber wie stellt ihr sicher, dass eure Anwendung danach noch genau das tut...
Deep Dive 205 – AI Evals mit Martin Seeler is an episode from programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar. Wie hat dir die Folge gefallen? Gut 👍 Schlecht 👎 (Keine Anmeldung erforderlich) Ein Modell-Update...
This episode belongs to programmier.bar – der Podcast für App- und Webentwicklung.
Use the player on this page to stream the episode online.
Published Apr 14, 2026, 63:01 long, audio available.
Wie hat dir die Folge gefallen? Gut 👍 Schlecht 👎 (Keine Anmeldung erforderlich) Ein Modell-Update bei OpenAI oder Anthropic ist schnell gemacht. Aber wie stellt ihr sicher, dass eure Anwendung danach noch genau das tut, was sie soll? In dieser Folge, aufgenommen auf der DecompileD in Dresden, sprechen wir mit Martin Seeler, Senior Staff AI Engineer bei Blue Yonder , über die Welt der AI Evals und den Unterschied zwischen einem reinen „Vibe-Check“ und belastbarer Teststrategie für GenAI-Produkte. Im Fokus stehen die drei Säulen der Evaluation: Code-based Evals, LLM-as-a-Judge und Human-in-the-loop. Außerdem geht es um Error Analysis, Failure Modes und wie ihr aus Logs durch Clustering eine eigene Fehler-Taxonomie entwickelt. Wir besprechen, warum binäre Bewertungen (True/False) oft hilfreicher sind als Scores, wie ihr Kosten, Latenz und Qualität gegeneinander abwägt und wie Tools wie Langfuse , Phoenix , promptfoo oder Braintrust euch beim Monitoring und Testing unterstützen. Wenn ihr wissen möchtet, wie ihr eure KI-Anwendung vom Prototypen in einen stabilen Enterprise-Betrieb überführt und Evals gezielt für Fine-Tuning oder Reinforcement Learning nutzt, ist dieser Deep Dive genau richtig für euch. Vielen Dank an das Team der DecompileD für die Gastfreundschaft und an Vodafone für die Bereitstellung der Räumlichkeiten mit Blick auf die Trainingsfelder von Dynamo Dresden! Schreibt uns! Schickt uns eure Themenwünsche und euer Feedback: podcast@programmier.bar Folgt uns! Bleibt auf dem Laufenden über zukünftige Folgen und virtuelle Meetups und beteiligt euch an Community-Diskussionen. Bluesky Instagram LinkedIn Meetup YouTube Musik: Hanimo
You can listen to Deep Dive 205 – AI Evals mit Martin Seeler online on Radio and Podcast. Open the player on this page to stream the available audio.
Deep Dive 205 – AI Evals mit Martin Seeler is an episode from programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar.
This episode is 63:01 long.
This episode was published on Apr 14, 2026.
Yes. Use the heart button on the episode page to add it to your favorite episodes list.
Yes. This page shows related episodes from programmier.bar – der Podcast für App- und Webentwicklung when more episodes are available from the podcast feed.
You can listen to Deep Dive 205 – AI Evals mit Martin Seeler on this page when the episode audio is available from the podcast feed.
Deep Dive 205 – AI Evals mit Martin Seeler is from programmier.bar – der Podcast für App- und Webentwicklung by programmier.bar.
Published Apr 14, 2026 and 63:01 long