Стратегии параллелизма как ключевой фактор развертывания Large Language Models на базе потребительских GPU

Курочка, К. С.; Башаримов, Ю. С.; Ёвженко, Ю. Д.

dc.contributor.author	Курочка, К. С.
dc.contributor.author	Башаримов, Ю. С.
dc.contributor.author	Ёвженко, Ю. Д.
dc.coverage.spatial	Минск	ru_RU
dc.date.accessioned	2026-04-27T12:30:08Z
dc.date.available	2026-04-27T12:30:08Z
dc.date.issued	2026
dc.identifier.citation	Курочка, К. С. Стратегии параллелизма как ключевой фактор развертывания Large Language Models на базе потребительских GPU / К. С. Курочка, Ю. С. Башаримов, Ю. Д. Ёвженко // Системный анализ и прикладная информатика. – 2026. – № 1. – С. 54–59.	ru_RU
dc.identifier.uri	https://elib.gstu.by/handle/220612/48307
dc.description.abstract	Экспоненциальный рост размеров больших языковых моделей (LLM) создает существенные барьеры для их локального развертывания, обусловленные нехваткой видеопамяти (VRAM) на одиночных устройствах. Целью работы является выявление и обоснование наиболее эффективной стратегии параллелизма для инференса LLM на кластерах из потребительских графических процессоров (GPU), объединенных медленной шиной PCIe. Методы исследования включали проведение серии вычислительных экспериментов для сравнения монолитной архитектуры (NVIDIA RTX A6000) и распределенной системы (2x NVIDIA RTX 3090) с использованием фреймворка vLLM. Анализировалось влияние тензорного (Tensor Parallelism) и конвейерного (Pipeline Parallelism) параллелизма на ключевые метрики: пропускную способность, задержку (TTFT, TPOT) и стабильность энергопотребления при запуске модели DeepSeek-R1-DistillLlama-14B. Результаты однозначно указывают на непригодность тензорного параллелизма для систем без NVLink из-за критических задержек синхронизации. Доказано, что конвейерный параллелизм является единственной жизнеспособной стратегией для PCIe-кластеров, обеспечивая высокую пропускную способность, несмотря на наличие периодов простоя («пузырей») и менее стабильный профиль энергопотребления по сравнению с монолитным решением. В заключении сформулированы рекомендации по использованию мульти-GPU конфигураций: они являются оптимальным экономическим выбором для задач, критичных к объему памяти, таких как Retrieval-Augmented Generation (RAG), позволяя масштабировать VRAM значительно дешевле профессиональных аналогов.	ru_RU
dc.description.abstract	The exponential growth in the size of Large Language Models (LLMs) creates significant barriers to their local deployment, primarily due to Video RAM (VRAM) shortages on single devices. The aim of this work is to identify and substantiate the most effective parallelism strategy for LLM inference on consumer Graphics Processing Unit (GPU) clusters connected via a slow PCIe bus. Research methods included a series of experiments comparing a monolithic architecture (NVIDIA RTX A6000) and a distributed system (2x NVIDIA RTX 3090) using the vLLM framework. The impact of Tensor Parallelism (TP) and Pipeline Parallelism (PP) on key metrics – throughput, latency (TTFT, TPOT), and power consumption stability – was analyzed while running the DeepSeek-R1-Distill-Llama-14B model. The results unequivocally indicate the unsuitability of Tensor Parallelism for systems without NVLink due to critical synchronization delays. It is proven that Pipeline Parallelism is the only viable strategy for PCIe clusters, ensuring high throughput despite the presence of idle periods («bubbles») and a less stable power consumption profile compared to the monolithic solution. In conclusion, recommendations for using multi-GPU configurations are formulated: they represent the optimal economic choice for memory-critical tasks, such as Retrieval-Augmented Generation (RAG), allowing VRAM scaling at a significantly lower cost than professional analogs.
dc.language.iso	ru	ru_RU
dc.publisher	БНТУ	ru_RU
dc.subject	Большие языковые модели	ru_RU
dc.subject	Инференс	ru_RU
dc.subject	Тензорный параллелизм	ru_RU
dc.subject	Конвейерный параллелизм	ru_RU
dc.subject	Large Language Models	ru_RU
dc.subject	Inference	ru_RU
dc.subject	Tensor Parallelism	ru_RU
dc.subject	Pipeline Parallelism	ru_RU
dc.title	Стратегии параллелизма как ключевой фактор развертывания Large Language Models на базе потребительских GPU	ru_RU
dc.title.alternative	Parallelism strategies as a key factor for deploying Large Language Models on consumer gpus	ru_RU
dc.type	Article	ru_RU
dc.identifier.udc	004.032.26
local.identifier.doi	10.21122/2309-4923-2026-1-54-59

Files in this item

Name:: 54-59.pdf
Size:: 1.682Mb
Format:: PDF

Download

This item appears in the following Collection(s)

Публикации в изданиях Республики Беларусь [4308]

Show simple item record