- Academic Search

H Wang, J Li, H Wu, E Hovy, Y Sun - Engineering, 2023 - Elsevier

Pre-trained language models have achieved striking success in natural language
processing (NLP), leading to a paradigm shift from supervised learning to pre-training …

Spara Citera Citerat av 277 Relaterade artiklar Alla 4 versionerna

[Free GPT-4]
[DeepSeek]

[PDF] ieee.org

Efficient acceleration of deep learning inference on resource-constrained edge devices: A review

MMH Shuvo, SK Islam, J Cheng… - Proceedings of the …, 2022 - ieeexplore.ieee.org

Successful integration of deep neural networks (DNNs) or deep learning (DL) has resulted
in breakthroughs in many areas. However, deploying these highly accurate models for data …

Spara Citera Citerat av 147 Relaterade artiklar Alla 5 versionerna

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale

T Dettmers, M Lewis, Y Belkada… - Advances in neural …, 2022 - proceedings.neurips.cc

Large language models have been widely adopted but require significant GPU memory for
inference. We develop a procedure for Int8 matrix multiplication for feed-forward and …

Spara Citera Citerat av 995 Relaterade artiklar Alla 6 versionerna Se som HTML-version

[Free GPT-4]
[DeepSeek]

[PDF] usenix.org

{AlpaServe}: Statistical multiplexing with model parallelism for deep learning serving

Z Li, L Zheng, Y Zhong, V Liu, Y Sheng, X **… - … USENIX Symposium on …, 2023 - usenix.org

Model parallelism is conventionally viewed as a method to scale a single large deep
learning model beyond the memory limits of a single device. In this paper, we demonstrate …

Spara Citera Citerat av 138 Relaterade artiklar Alla 7 versionerna Se som HTML-version

[Free GPT-4]
[DeepSeek]

[PDF] jmlr.org

Palm: Scaling language modeling with pathways

A Chowdhery, S Narang, J Devlin, M Bosma… - Journal of Machine …, 2023 - jmlr.org

Large language models have been shown to achieve remarkable performance across a
variety of natural language tasks using few-shot learning, which drastically reduces the …

Spara Citera Citerat av 5605 Relaterade artiklar Alla 11 versionerna Se som HTML-version

[Free GPT-4]
[DeepSeek]

[PDF] usenix.org

Orca: A distributed serving system for {Transformer-Based} generative models

GI Yu, JS Jeong, GW Kim, S Kim, BG Chun - 16th USENIX Symposium …, 2022 - usenix.org

Large-scale Transformer-based models trained for generation tasks (eg, GPT-3) have
recently attracted huge interest, emphasizing the need for system support for serving models …

Spara Citera Citerat av 371 Relaterade artiklar Alla 9 versionerna Se som HTML-version

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

On the opportunities and risks of foundation models

R Bommasani, DA Hudson, E Adeli, R Altman… - ar** the amount of computation for a given token or a given …

Spara Citera Citerat av 280 Relaterade artiklar Alla 6 versionerna Se som HTML-version

[Free GPT-4]
[DeepSeek]

[PDF] mlsys.org

Reducing activation recomputation in large transformer models

VA Korthikanti, J Casper, S Lym… - Proceedings of …, 2023 - proceedings.mlsys.org

Training large transformer models is one of the most important computational challenges of
modern AI. In this paper, we show how to significantly accelerate the training of large …

Spara Citera Citerat av 228 Relaterade artiklar Alla 6 versionerna Se som HTML-version

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Efficient large-scale language model training on gpu clusters using megatron-lm

D Narayanan, M Shoeybi, J Casper… - Proceedings of the …, 2021 - dl.acm.org

Large language models have led to state-of-the-art accuracies across several tasks.
However, training these models efficiently is challenging because: a) GPU memory capacity …

Spara Citera Citerat av 736 Relaterade artiklar Alla 15 versionerna

Skapa alarm

Citera

Avancerad sökning

Har sparats i Mitt bibliotek

Mesh-tensorflow: Deep learning for supercomputers

[HTML][HTML] Pre-trained language models and their applications

Efficient acceleration of deep learning inference on resource-constrained edge devices: A review

Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale

{AlpaServe}: Statistical multiplexing with model parallelism for deep learning serving

Palm: Scaling language modeling with pathways

Orca: A distributed serving system for {Transformer-Based} generative models

On the opportunities and risks of foundation models

Reducing activation recomputation in large transformer models

Efficient large-scale language model training on gpu clusters using megatron-lm