- Academic Search

Z Wan, X Wang, C Liu, S Alam, Y Zheng, J Liu… - arxiv preprint arxiv …, 2023 - arxiv.org

Large Language Models (LLMs) have demonstrated remarkable capabilities in important
tasks such as natural language understanding and language generation, and thus have the …

Opslaan Citeren Geciteerd door 126 Verwante artikelen Alle 7 versies HTML-versie

[Free GPT-4]

[PDF] neurips.cc

Quip: 2-bit quantization of large language models with guarantees

J Chee, Y Cai, V Kuleshov… - Advances in Neural …, 2024 - proceedings.neurips.cc

This work studies post-training parameter quantization in large language models (LLMs).
We introduce quantization with incoherence processing (QuIP), a new method based on the …

Opslaan Citeren Geciteerd door 139 Verwante artikelen Alle 6 versies HTML-versie

[Free GPT-4]

[PDF] springer.com

A survey of safety and trustworthiness of large language models through the lens of verification and validation

X Huang, W Ruan, W Huang, G **, Y Dong… - Artificial Intelligence …, 2024 - Springer

Large language models (LLMs) have exploded a new heatwave of AI for their ability to
engage end-users in human-level conversations with detailed and articulate answers across …

Opslaan Citeren Geciteerd door 96 Verwante artikelen Alle 6 versies

[Free GPT-4]

[PDF] neurips.cc

Memory-efficient fine-tuning of compressed large language models via sub-4-bit integer quantization

J Kim, JH Lee, S Kim, J Park, KM Yoo… - Advances in Neural …, 2024 - proceedings.neurips.cc

Large language models (LLMs) face the challenges in fine-tuning and deployment due to
their high memory demands and computational costs. While parameter-efficient fine-tuning …

Opslaan Citeren Geciteerd door 90 Verwante artikelen Alle 6 versies HTML-versie

[Free GPT-4]

[PDF] arxiv.org

Llmlingua: Compressing prompts for accelerated inference of large language models

H Jiang, Q Wu, CY Lin, Y Yang, L Qiu - arxiv preprint arxiv:2310.05736, 2023 - arxiv.org

Large language models (LLMs) have been applied in various applications due to their
astonishing capabilities. With advancements in technologies such as chain-of-thought (CoT) …

Opslaan Citeren Geciteerd door 183 Verwante artikelen Alle 6 versies HTML-versie

[Free GPT-4]

[PDF] arxiv.org

SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification

X Miao, G Oliaro, Z Zhang, X Cheng, Z Wang… - arxiv preprint arxiv …, 2023 - arxiv.org

This paper introduces SpecInfer, a system that accelerates generative large language model
(LLM) serving with tree-based speculative inference and verification. The key idea behind …

Opslaan Citeren Geciteerd door 124 Verwante artikelen Alle 4 versies HTML-versie

[Free GPT-4]

[PDF] nsf.gov

[PDF][PDF] Efficiently Programming Large Language Models using SGLang.

L Zheng, L Yin, Z **e, J Huang, C Sun, CH Yu, S Cao… - 2023 - par.nsf.gov

Large language models (LLMs) are increasingly used for complex tasks that require multiple
generation calls, advanced prompting techniques, control flow, and structured …

Opslaan Citeren Geciteerd door 67 Verwante artikelen Alle 2 versies HTML-versie

[Free GPT-4]

[PDF] stanford.edu

Netllm: Adapting large language models for networking

D Wu, X Wang, Y Qiao, Z Wang, J Jiang, S Cui… - Proceedings of the …, 2024 - dl.acm.org

Many networking tasks now employ deep learning (DL) to solve complex prediction and
optimization problems. However, current design philosophy of DL-based algorithms entails …

Opslaan Citeren Geciteerd door 25 Verwante artikelen Alle 3 versies

[Free GPT-4]

[PDF] neurips.cc

Knowledge-augmented reasoning distillation for small language models in knowledge-intensive tasks

M Kang, S Lee, J Baek… - Advances in Neural …, 2024 - proceedings.neurips.cc

Abstract Large Language Models (LLMs) have shown promising performance in knowledge-
intensive reasoning tasks that require a compound understanding of knowledge. However …

Opslaan Citeren Geciteerd door 58 Verwante artikelen Alle 6 versies HTML-versie

[Free GPT-4]

[PDF] arxiv.org

Towards efficient generative large language model serving: A survey from algorithms to systems

X Miao, G Oliaro, Z Zhang, X Cheng, H **… - arxiv preprint arxiv …, 2023 - arxiv.org

In the rapidly evolving landscape of artificial intelligence (AI), generative large language
models (LLMs) stand at the forefront, revolutionizing how we interact with our data. However …

Opslaan Citeren Geciteerd door 71 Verwante artikelen Alle 2 versies HTML-versie

Melding maken

Citeren

Geavanceerd zoeken

Opgeslagen in Mijn bibliotheek

OPTQ: Accurate quantization for generative pre-trained transformers

Efficient large language models: A survey

Quip: 2-bit quantization of large language models with guarantees

A survey of safety and trustworthiness of large language models through the lens of verification and validation

Memory-efficient fine-tuning of compressed large language models via sub-4-bit integer quantization

Llmlingua: Compressing prompts for accelerated inference of large language models

SpecInfer: Accelerating Generative Large Language Model Serving with Tree-based Speculative Inference and Verification

[PDF][PDF] Efficiently Programming Large Language Models using SGLang.

Netllm: Adapting large language models for networking

Knowledge-augmented reasoning distillation for small language models in knowledge-intensive tasks

Towards efficient generative large language model serving: A survey from algorithms to systems