Performance

Tokens per Second

A benchmark measuring how many tokens an AI model generates each second during inference. Higher tokens-per-second means a more responsive coding assistant; typical consumer GPU setups achieve 30–120 t/s for 7B models.

← Full glossary