Одновременно с разработкой промптов, мы протестировали различные LLM на задаче бинарной классификации, используя "Подробный"(prompt_b) и "Компромиссный" (prompt_c) промпты.
Для исследования использовались модели с разными принципами работы: i
nstruct модель (сразу даёт ответ на основе инструкции) и
reasoning модель ( перед финальным ответом строит цепочку рассуждений "думает вслух", что занимает больше времени и токенов, но потенциально даёт более точный результат).
Эксперименты проводились на следующих моделях LLM:
- Qwen3.5-9B (использованы instruct и reasoning конфигурации);
- Gemma-4-E4B (использованы instruct и reasoning конфигурации);
- YandexGPT-5-Lite-8B-instruct;
- Ministral-3-8B-Instruct-2512;
- Ministral-3-8B-Reasoning-2512.
Все модели были развёрнуты на локальном сервере с видеокартой Nvidia RTX 5090 c 32 ГБ видеопамяти.