Suggested

Home

Topics

Contribute

Cookbook on GitHub

Evals

Improve your LLM integrations with evals.

Evals

All recipes16

SchemaFlow: Agentic Database Change Impact Analysis, SQL Generation, and Eval Guardrails

Agents SDKEvals

Moving from OpenAI Evals to Promptfoo

Macro Evals for Agentic Systems

Build an Agent Improvement Loop with Traces, Evals, and Codex

Agents SDKCodexEvals

Evaluating Grounded Spatial Reasoning with GPT-5.5

EvalsImagesReasoningVision

Build iterative repair loops with Codex

Migrate a Legacy Codebase with Sandbox Agents

Agents SDKEvals

Building Governed AI Agents - A Practical Guide to Agentic Scaffolding

EvalsGuardrails

Image Evals for Image Generation and Editing Use Cases

EvalsImagesVision

Realtime Eval Guide

AudioEvalsResponsesSpeech

Self-Evolving Agents - A Cookbook for Autonomous Agent Retraining

Build, deploy, and optimize agentic workflows with AgentKit

Building resilient prompts using an evaluation flywheel

Eval Driven System Design - From Prototype to Production

CompletionsEvalsFunctionsResponses

Reinforcement Fine-Tuning for Conversational Reasoning with the OpenAI API

EvalsFine-tuning

Evaluating Agents with Langfuse

Agents SDKEvals