Suggested

Home

Topics

Contribute

Cookbook on GitHub

Multimodal

Multimodality refers to a model's ability to understand and generate content using various input types—such as text, images, audio, and video.

VisionImagesSpeech

All recipes17

Evaluating Grounded Spatial Reasoning with GPT-5.5

EvalsImagesReasoningVision

Build Live Translation Apps with gpt-realtime-translate

GPT Image Generation Models Prompting Guide

Getting the Most out of GPT-5.4 for Vision and Document Understanding

Realtime Prompting Guide

AudioResponsesSpeech

Image Evals for Image Generation and Editing Use Cases

EvalsImagesVision

Realtime Eval Guide

AudioEvalsResponsesSpeech

Gpt-image-1.5 Prompting Guide

Transcribing User Audio with a Separate Realtime Request

Generate images with high input fidelity

MCP-Powered Agentic Voice Framework

Agents SDKFunctionsSpeech

Image Understanding with RAG

ImagesResponsesVision

Context Summarization with Realtime API

AudioSpeechTiktoken

Comparing Speech-to-Text Methods with the OpenAI API

Agents SDKAudioSpeech

Generate images with GPT Image

Multi-Language One-Way Translation with the Realtime API

Vision Fine-tuning on GPT-4o for Visual Question Answering

CompletionsFine-tuningVision