Skip to main content

LLM Training Resources

· 2 min read
Boris V.Kuznetsov
Neurodyne Founder

Обзор ресурсов и методик для тренинга LLM

Введение

Современные мультимодальные LLM показывают впечатляющие на inference, поражая качеством чатов, deep thinking, поддержкой многопользовательского режима, генерацией кода, изображение, видео, голоса, а также строя разветвленные и коллективные агентские системы.

Но все эти результаты - итог не только лишь продвинутой алгоритмической работы, но и доказательство наличия огромных вычислительных мощностей или облачного доступа к оным, а также новаторского ПО, которое позволяет эффективно использовать огромные вычислительные парки в унисон.

LLM Training leaderboard

LLMVendorParams, BCorpus size, tokensChip usedChip countPrecisionRate, USD/hHoursTotal, USDYear
GPT-2OpenAI1.5fp322019
T5Google11fp322019
GPT-3OpenAI17545 trillionV100100k GPU, 285k CPUfp321.54.6M2020
PaLMGoogle540TPUv46144bf162022
GopherGoogle280TPUv34096bf16
Megatron-Turing NLGGoogle530A1002240bf16
DeepSeek v3DeepSeek67114.8 trillionH8002048fp813625.58M

Notes

  • vLLM v0.6.6 Offers DeepSeek v3 inference for fp8 and bf16
  • LightLLM v1.0.1 supports mixed mode fp8/bf16 deployment for DeepSeek v3
  • TensorRT-LLM supports bf8 inference with int4/int8 quantization
  • LMDeploy Enables efficient fp8 and bf16 inference for local and cloud deployment