Show simple item record

dc.contributor.authorКурочка, К. С.
dc.contributor.authorБашаримов, Ю. С.
dc.contributor.authorЁвженко, Ю. Д.
dc.coverage.spatialМинскru_RU
dc.date.accessioned2026-04-27T12:30:08Z
dc.date.available2026-04-27T12:30:08Z
dc.date.issued2026
dc.identifier.citationКурочка, К. С. Стратегии параллелизма как ключевой фактор развертывания Large Language Models на базе потребительских GPU / К. С. Курочка, Ю. С. Башаримов, Ю. Д. Ёвженко // Системный анализ и прикладная информатика. – 2026. – № 1. – С. 54–59.ru_RU
dc.identifier.urihttps://elib.gstu.by/handle/220612/48307
dc.description.abstractЭкспоненциальный рост размеров больших языковых моделей (LLM) создает существенные барьеры для их локального развертывания, обусловленные нехваткой видеопамяти (VRAM) на одиночных устройствах. Целью работы является выявление и обоснование наиболее эффективной стратегии параллелизма для инференса LLM на кластерах из потребительских графических процессоров (GPU), объединенных медленной шиной PCIe. Методы исследования включали проведение серии вычислительных экспериментов для сравнения монолитной архитектуры (NVIDIA RTX A6000) и распределенной системы (2x NVIDIA RTX 3090) с использованием фреймворка vLLM. Анализировалось влияние тензорного (Tensor Parallelism) и конвейерного (Pipeline Parallelism) параллелизма на ключевые метрики: пропускную способность, задержку (TTFT, TPOT) и стабильность энергопотребления при запуске модели DeepSeek-R1-DistillLlama-14B. Результаты однозначно указывают на непригодность тензорного параллелизма для систем без NVLink из-за критических задержек синхронизации. Доказано, что конвейерный параллелизм является единственной жизнеспособной стратегией для PCIe-кластеров, обеспечивая высокую пропускную способность, несмотря на наличие периодов простоя («пузырей») и менее стабильный профиль энергопотребления по сравнению с монолитным решением. В заключении сформулированы рекомендации по использованию мульти-GPU конфигураций: они являются оптимальным экономическим выбором для задач, критичных к объему памяти, таких как Retrieval-Augmented Generation (RAG), позволяя масштабировать VRAM значительно дешевле профессиональных аналогов.ru_RU
dc.description.abstractThe exponential growth in the size of Large Language Models (LLMs) creates significant barriers to their local deployment, primarily due to Video RAM (VRAM) shortages on single devices. The aim of this work is to identify and substantiate the most effective parallelism strategy for LLM inference on consumer Graphics Processing Unit (GPU) clusters connected via a slow PCIe bus. Research methods included a series of experiments comparing a monolithic architecture (NVIDIA RTX A6000) and a distributed system (2x NVIDIA RTX 3090) using the vLLM framework. The impact of Tensor Parallelism (TP) and Pipeline Parallelism (PP) on key metrics – throughput, latency (TTFT, TPOT), and power consumption stability – was analyzed while running the DeepSeek-R1-Distill-Llama-14B model. The results unequivocally indicate the unsuitability of Tensor Parallelism for systems without NVLink due to critical synchronization delays. It is proven that Pipeline Parallelism is the only viable strategy for PCIe clusters, ensuring high throughput despite the presence of idle periods («bubbles») and a less stable power consumption profile compared to the monolithic solution. In conclusion, recommendations for using multi-GPU configurations are formulated: they represent the optimal economic choice for memory-critical tasks, such as Retrieval-Augmented Generation (RAG), allowing VRAM scaling at a significantly lower cost than professional analogs.
dc.language.isoruru_RU
dc.publisherБНТУru_RU
dc.subjectБольшие языковые моделиru_RU
dc.subjectИнференсru_RU
dc.subjectТензорный параллелизмru_RU
dc.subjectКонвейерный параллелизмru_RU
dc.subjectLarge Language Modelsru_RU
dc.subjectInferenceru_RU
dc.subjectTensor Parallelismru_RU
dc.subjectPipeline Parallelismru_RU
dc.titleСтратегии параллелизма как ключевой фактор развертывания Large Language Models на базе потребительских GPUru_RU
dc.title.alternativeParallelism strategies as a key factor for deploying Large Language Models on consumer gpusru_RU
dc.typeArticleru_RU
dc.identifier.udc004.032.26
local.identifier.doi10.21122/2309-4923-2026-1-54-59


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record