LLM Training Resources
· 2 min read
Обзор ресурсов и методик для тренинга LLM
Введение
Современные мультимодальные LLM показывают впечатляющие на inference, поражая качеством чатов, deep thinking, поддержкой многопользовательского режима, генерацией кода, изображение, видео, голоса, а также строя разветвленные и коллективные агентские системы.
Но все эти результаты - итог не только лишь продвинутой алгоритмической работы, но и доказательство наличия огромных вычислительных мощностей или облачного доступа к оным, а также новаторского ПО, которое позволяет эффективно использовать огромные вычислительные парки в унисон.
LLM Training leaderboard
| LLM | Vendor | Params, B | Corpus size, tokens | Chip used | Chip count | Precision | Rate, USD/h | Hours | Total, USD | Year |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-2 | OpenAI | 1.5 | fp32 | 2019 | ||||||
| T5 | 11 | fp32 | 2019 | |||||||
| GPT-3 | OpenAI | 175 | 45 trillion | V100 | 100k GPU, 285k CPU | fp32 | 1.5 | 4.6M | 2020 | |
| PaLM | 540 | TPUv4 | 6144 | bf16 | 2022 | |||||
| Gopher | 280 | TPUv3 | 4096 | bf16 | ||||||
| Megatron-Turing NLG | 530 | A100 | 2240 | bf16 | ||||||
| DeepSeek v3 | DeepSeek | 671 | 14.8 trillion | H800 | 2048 | fp8 | 1362 | 5.58M | ||
Notes
- vLLM v0.6.6 Offers DeepSeek v3 inference for fp8 and bf16
- LightLLM v1.0.1 supports mixed mode fp8/bf16 deployment for DeepSeek v3
- TensorRT-LLM supports bf8 inference with int4/int8 quantization
- LMDeploy Enables efficient fp8 and bf16 inference for local and cloud deployment
Links
- GPT-3 training
- DeepSeek v3
- DeepSeek v3 weights
- DeepSeek v3 training details
- PaLM