Google Tudós

Z Ye, W Gao, Q Hu, P Sun, X Wang, Y Luo… - ACM Computing …, 2024 - dl.acm.org

Deep learning (DL) has demonstrated its remarkable success in a wide variety of fields. The
development of a DL model is a time-consuming and resource-intensive procedure. Hence …

Mentés Hivatkozás Idézetek száma: 23 Kapcsolódó cikkek Mind a(z) 5 változat

[Free GPT-4]
[DeepSeek]

[PDF] acm.org

Efficient memory management for large language model serving with pagedattention

W Kwon, Z Li, S Zhuang, Y Sheng, L Zheng… - Proceedings of the 29th …, 2023 - dl.acm.org

High throughput serving of large language models (LLMs) requires batching sufficiently
many requests at a time. However, existing systems struggle because the key-value cache …

Mentés Hivatkozás Idézetek száma: 1351 Kapcsolódó cikkek Mind a(z) 9 változat

[Free GPT-4]
[DeepSeek]

[PDF] usenix.org

{AlpaServe}: Statistical multiplexing with model parallelism for deep learning serving

Z Li, L Zheng, Y Zhong, V Liu, Y Sheng, X **… - … USENIX Symposium on …, 2023 - usenix.org

Model parallelism is conventionally viewed as a method to scale a single large deep
learning model beyond the memory limits of a single device. In this paper, we demonstrate …

Mentés Hivatkozás Idézetek száma: 138 Kapcsolódó cikkek Mind a(z) 7 változat HTML-változat

[Free GPT-4]
[DeepSeek]

[PDF] usenix.org

{InfiniGen}: Efficient generative inference of large language models with dynamic {KV} cache management

W Lee, J Lee, J Seo, J Sim - 18th USENIX Symposium on Operating …, 2024 - usenix.org

Transformer-based large language models (LLMs) demonstrate impressive performance
across various natural language processing tasks. Serving LLM inference for generating …

Mentés Hivatkozás Idézetek száma: 50 Kapcsolódó cikkek Mind a(z) 7 változat HTML-változat

[Free GPT-4]
[DeepSeek]

[PDF] usenix.org

Llumnix: Dynamic scheduling for large language model serving

B Sun, Z Huang, H Zhao, W **ao, X Zhang… - … USENIX Symposium on …, 2024 - usenix.org

Inference serving for large language models (LLMs) is the key to unleashing their potential
in people's daily lives. However, efficient LLM serving remains challenging today because …

Mentés Hivatkozás Idézetek száma: 21 Kapcsolódó cikkek Mind a(z) 5 változat HTML-változat

[Free GPT-4]
[DeepSeek]

[PDF] acm.org

Spotserve: Serving generative large language models on preemptible instances

X Miao, C Shi, J Duan, X **, D Lin, B Cui… - Proceedings of the 29th …, 2024 - dl.acm.org

The high computational and memory requirements of generative large language models
(LLMs) make it challenging to serve them cheaply. This paper aims to reduce the monetary …

Mentés Hivatkozás Idézetek száma: 53 Kapcsolódó cikkek Mind a(z) 7 változat

[Free GPT-4]
[DeepSeek]

[PDF] usenix.org

{ServerlessLLM}:{Low-Latency} serverless inference for large language models

Y Fu, L Xue, Y Huang, AO Brabete, D Ustiugov… - … USENIX Symposium on …, 2024 - usenix.org

This paper presents ServerlessLLM, a distributed system designed to support low-latency
serverless inference for Large Language Models (LLMs). By harnessing the substantial near …

Mentés Hivatkozás Idézetek száma: 25 Kapcsolódó cikkek Mind a(z) 6 változat HTML-változat

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Fast distributed inference serving for large language models

B Wu, Y Zhong, Z Zhang, S Liu, F Liu, Y Sun… - arxiv preprint arxiv …, 2023 - arxiv.org

Large language models (LLMs) power a new generation of interactive AI applications
exemplified by ChatGPT. The interactive nature of these applications demands low latency …

Mentés Hivatkozás Idézetek száma: 85 Kapcsolódó cikkek Mind a(z) 3 változat HTML-változat

[Free GPT-4]
[DeepSeek]

[PDF] usenix.org

Characterization of large language model development in the datacenter

Q Hu, Z Ye, Z Wang, G Wang, M Zhang… - … USENIX Symposium on …, 2024 - usenix.org

Large Language Models (LLMs) have presented impressive performance across several
transformative tasks. However, it is non-trivial to efficiently utilize large-scale cluster …

Mentés Hivatkozás Idézetek száma: 39 Kapcsolódó cikkek Mind a(z) 9 változat HTML-változat

[Free GPT-4]
[DeepSeek]

[PDF] usenix.org

{dLoRA}: Dynamically orchestrating requests and adapters for {LoRA}{LLM} serving

B Wu, R Zhu, Z Zhang, P Sun, X Liu, X ** - 18th USENIX Symposium on …, 2024 - usenix.org

Low-rank adaptation (LoRA) is a popular approach to finetune pre-trained large language
models (LLMs) to specific domains. This paper introduces dLoRA, an inference serving …

Mentés Hivatkozás Idézetek száma: 14 Kapcsolódó cikkek Mind a(z) 5 változat HTML-változat

Értesítés létrehozása

Hivatkozás

Speciális keresés

Mentve a Saját könyvtárba

{SHEPHERD}: Serving {DNNs} in the wild

Deep learning workload scheduling in gpu datacenters: A survey

Efficient memory management for large language model serving with pagedattention

{AlpaServe}: Statistical multiplexing with model parallelism for deep learning serving

{InfiniGen}: Efficient generative inference of large language models with dynamic {KV} cache management

Llumnix: Dynamic scheduling for large language model serving

Spotserve: Serving generative large language models on preemptible instances

{ServerlessLLM}:{Low-Latency} serverless inference for large language models

Fast distributed inference serving for large language models

Characterization of large language model development in the datacenter

{dLoRA}: Dynamically orchestrating requests and adapters for {LoRA}{LLM} serving