フォロー
Jiaming Tang
Jiaming Tang
Ph.D. student, MIT
確認したメール アドレス: mit.edu - ホームページ
タイトル
引用先
引用先
AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration
J Lin*, J Tang*, H Tang, S Yang, WM Chen, WC Wang, G Xiao, X Dang, ...
Proceedings of Machine Learning and Systems 6, 87-100, 2024
6582024
Olive: Accelerating large language models via hardware-friendly outlier-victim pair quantization
C Guo*, J Tang*, W Hu, J Leng, C Zhang, F Yang, Y Liu, M Guo, Y Zhu
Proceedings of the 50th Annual International Symposium on Computer …, 2023
872023
Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference
J Tang*, Y Zhao*, K Zhu, G Xiao, B Kasikci, S Han
ICML 2024, 2024
37*2024
Duoattention: Efficient long-context llm inference with retrieval and streaming heads
G Xiao, J Tang, J Zuo, J Guo, S Yang, H Tang, Y Fu, S Han
arXiv preprint arXiv:2410.10819, 2024
92024
Twilight: Adaptive Attention Sparsity with Hierarchical Top- Pruning
C Lin, J Tang, S Yang, H Wang, T Tang, B Tian, I Stoica, S Han, M Gao
arXiv preprint arXiv:2502.02770, 2025
2025
現在システムで処理を実行できません。しばらくしてからもう一度お試しください。
論文 1–5