Construire une suite de tests (golden prompts, seuils, non-régression) pour stabiliser la qualité et la conformité V12.