LLM для Беларусь банка
Короткий вывод
Если нужен максимально «беспроблемный» open-source-LLM для локального развёртывания в банковском периметре, сегодня практический стандарт – семейство Mistral (Small 3 / Mixtral 8×22B). Оно распространяется под Apache 2.0 без ограничений по масштабу или виду использования, уже используется европейскими банками (например, BNP Paribas) и официально поддерживает self-hosted-режим на-premise.
Почему именно Mistral чаще всего ставят в банках
- Лицензия – полностью свободная Apache 2.0. Это снимает юридические риски (нужно лишь соблюдать экспортное регулирование).
- Опыт внедрений в финсекторе – публичное партнёрство Mistral ↔ BNP Paribas и пилоты в Abanca показывают, что регуляторы допускают модель к работе с чувствительными данными.
- Гибкая линейка
- Mistral Small 3.2 (~12–24 B dense) – держится в 24 GB GPU, покрывает 80 % задач «чат+RAG» с задержкой < 100 мс.
- Mixtral 8×22B (MoE, 39 B активных параметров) – даёт качество GPT-4-уровня при бюджете 8×80 GB (или 2× H100 в 8-битном кванте).
- Техподдержка и партнёры – уже есть готовые Helm-чарты, образы для k8s/NVIDIA Triton, reference-инфраструктура от Dell AI Factory.
Альтернативы и когда их имеет смысл ставить
Сценарий | Модель | Плюсы | Минусы / Ограничения |
---|---|---|---|
Сложные аналитические и код-задачи, есть GPU-кластер | DBRX Instruct | На открытых бенчмарках лидер среди open-source (выше Mixtral) и особенно силён в коде. Apache 2.0. | Тяжёлая – 132 B / 36 B active, минимум ~8×80 GB GPU; требует MoE-оркестратора. |
Нужен максимум качества на длинном контексте (32–128 k), в т. ч. на русском | Llama 3 70B Instruct | Очень высокое качество, широкий комьюнити-экосистем. | Лицензия Meta ограничивает пользователей с > 700 млн MAU; формально не «open-source» (нельзя fine-tune для конкурирующих моделей). |
Сильно SQL–ориентированные кейсы, уже пользуетесь Snowflake | Snowflake Arctic | Оптимизирована под SQL-генерацию и аналитические запросы; Apache 2.0. | Вес 480 B (17 B active) – нужна серьёзная инфраструктура; выгодна только если Snowflake уже core-платформа. |
Практическая дорожная карта внедрения
- Пилот (4–6 нед.)
- Запустите Mistral Small 3.2 на существующих A100 40 GB / L40S в 8-битном кванте (vLLM или Ollama).
- Обкатайте типовые сценарии — генерация отчётов, RAG по внутренним регламентам, начальный POC по коду.
- Оценка рисков и обогащение
- Проведите юридический аудит лицензии (Apache 2.0) + внутреннее DPIA.
- Настройте журналирование запросов, policy-роту для PII-фи-льтров.
- Масштабирование
- Для customer-facing чата → Mixtral 8×22B в кластер (8×H100/80 GB или 16×A100/40 GB).
- Для DevOps/код-ассистентов → DBRX (если приоритете скорость разработки).
- Финтюн/RAG
- Ограничьте обучение на приватных данных внутри VPC; use LoRA/QLoRA.
- Интеграция с векторным слоем (Qdrant/PGVector) для документ-QA.
Аппаратные ориентиры (8-бит квантизация)
- Mistral Small 3.2 ~24 B – 24 GB VRAM (fits 1×A10G or L40S).
- Mixtral 8×22B – 160-200 GB VRAM total; на практике 8×80 GB H100 или 2×H100 с GPU-parallel vLLM.
- DBRX Instruct – 8×80 GB H100 «впритык»; для резервирования возьмите 10–12 GPU.
- Llama 3 70B – 8×80 GB H100 (dense), либо ≥ 16×A100/40 GB в 4-bit-qLoRA-режиме.
Итог
Для типового банка (строго-регулируемая среда, умеренный трафик, акцент на приватности) Mistral Small 3 → Mixtral 8×22B даёт лучшее сочетание лицензии, зрелости и TCO. Остальные модели разумно подключать точечно, если требуется максимум качества (Llama 3) или продвинутый кодинг (DBRX).
Сколько стоит развернуть каждую из рекомендованных LLM-конфигураций
(все цифры даны «как есть» — публичные ценники на 6 июля 2025 г.; курсовая поправка 1 USD ≈ 0,92 EUR; без учёта НДС и таможни)
1. Пилот «поиграться и показать результат»
- 1 × NVIDIA A10G 24 GB — ≈ 1 540 USD за GPU
- 1U/2U сервер c двухсокетным Xeon/EPYC — ≈ 3 000 USD (рынок Refurb / Tier-2 бренды).
- Итого CAPEX ≈ 4 500 USD (≈ 4 100 EUR).
- Энергия: ~0,4 кВт × 8 760 ч × 0,08 €/кВт·ч (средняя промышленная ставка в Сербии) ≈ 280 EUR/год; плюс ~50 % на охлаждение → 420 EUR/год. Для чего хватает: небольшой чат-бот, RAG-прототипы, PoC по генерации SQL-запросов.
2. “Малый прод” (до 200 К запросов/сутки)
- NVIDIA L40S 48 GB — ≈ 12 900 USD за GPU
- 1×GPU Tower / 2U сервер — ≈ 4 000 USD
- CAPEX ≈ 17 000 USD (≈ 15 600 EUR).
- Энергия: ~0,65 кВт → ≈ 684 EUR/год вместе с охлаждением.
Покрывает: Mistral Small 3 (24 B) в режиме 8-бит INT, задержка менее 100 мс на 128 токенов; внутренняя служба поддержки, отчёты из документов.
3. Полноценный банк-асистент/чат для клиентов (уровень GPT-4-качества)
Вариант A — Mixtral 8 × 22B (MoE, ~GPT-4-класс)
- Dell XE9680 с 8 × H100 80 GB — ≈ 252 600 USD
- CAPEX ≈ 250–280 k USD (232–257 k EUR с учётом рельсов, кабелей, запасных БП).
- Энергия: ~6,4 кВт → ≈ 6 730 EUR/год.
- Колокация: GPU-стойка 6 кВт × ≈ 140 €/кВт/мес → ~10 k EUR/год (розница в CEE-DC).
Вариант B — DBRX Instruct / Llama 3 70B
- Supermicro AS-4124GO с 8 × A100 40 GB — ≈ 145 470 USD
- Энергия: ≈ 4 kВт → ~4 200 EUR/год; колокация ~ 6 k EUR/год.
- Когда выбирать: если главное — более сильный код-ассистент (DBRX) или длинный контекст (Llama 3), а максимальная точность важнее, чем 5–7 × ниже latency Mixtral-MoE.
4. «Облако вместо железа» (быстро запуститься / сгладить пик)
- AWS p5.48xlarge (8 × H100) — 31,5 USD/час → ≈ 22 900 USD/мес 24×7
- Самый дешёвый аренда A100 — 0,66 USD/GPU·ч на Thunder Compute → ≈ 4 700 USD/мес за 8 GPU 24×7
- При непрерывной нагрузке > 9–12 мес TCO облака догоняет «своё железо» (из-за тарифов и вывода данных).
Дополнительные статьи расходов
- Модели и лицензии – Mistral, Mixtral, DBRX, Snowflake Arctic и Llama 3 распространяются бесплатно (Apache 2.0 или эквивалент); платными остаются только проф-услуги (fine-tune ≈ 1–9 USD / 1 M токенов) .
- DevOps-обёртка (vLLM/Ollama, Helm-чарты, MLOps-логирование) — 10–15 % от CAPEX в первый год.
- Сетевые карты > 100 GbE, Infiniband, сторадж NVMe — ещё 15–20 k USD в «больших» сборках.
Итоговые диапазоны
Конфигурация | Стартовые вложения | Ежегодный OPEX* | Break-even vs облако** |
---|---|---|---|
A10G Pilot | ≈ 5 k USD | 0,4 кВт → ≈ 0,4 k EUR | нецелесообразно сравнивать |
L40S Mini-Prod | ≈ 17 k USD | 0,65 кВт → ≈ 0,7 k EUR | ~4–6 мес против аренды 1×A100 |
8×A100 (DBRX/Llama 3) | ≈ 145 k USD | ≈ 4 k EUR + колокация 6 k EUR | ~11 мес против 8×A100-облака |
8×H100 (Mixtral) | ≈ 255 k USD | ≈ 6,7 k EUR + колокация 10 k EUR | ~8–9 мес против AWS p5 |
- без учёта персонала, резервного питания, страховок
** при постоянной 24×7 загрузке; при 8-часовом рабочем дне срок окупаемости ~2,5–3 раза дольше.
Что дальше
- Уточните реальный сценарий (RAG-чат, KYC-автоматизация, код-ассистент, публичный клиент-чат).
- Сверьте текущий GPU-парк и требования регулятора по физическому размещению.
- Выберите один из трёх маршрутов:
- быстрый PoC (A10G),
- локальный прод без гигантских бюджетов (L40S),
- полный enterprise-кластер с Mixtral/DBRX.