Publications

36 results for Chen Wang

When to Reason: Semantic Router for vLLM
- - Chen Wang
  - Xunzhuo Liu
  - et al.
- 2025
- NeurIPS 2025
A Data-driven ML Approach for Maximizing Performance in LLM-Adapter Serving
- - Ferran Agullo Lopez
  - Joan Oliveras Torra
  - et al.
- 2025
- NeurIPS 2025
Networking for Stateful LLM Inference
- - Junchen Jiang
  - Yuhan Liu
  - et al.
- 2025
- SIGCOMM 2025
Towards Efficient Key-Value Cache Management for Prefix Prefilling in LLM Inference
- - Yue Zhu
  - Hao Yu
  - et al.
- 2025
- CLOUD 2025
Voice-based AI Agents: Filling the Economic Gaps in Digital Health Delivery
- - Bo Wen
  - Chen Wang
  - et al.
- 2025
- ICDH 2025
A Practical Guide To Benchmarking AI and GPU Workloads in Kubernetes
- - Chen Wang
  - Yuan Chen
- 2025
- KubeCon EU 2025
A House United Within Itself: SLO-Awareness for On-Premises Containerized ML Inference Clusters via Faro
- - Beomyeol Jeon
  - Chen Wang
  - et al.
- 2025
- EuroSys 2025
Cloud-native Workflow Scheduling using a Hybrid Priority Rule, Dynamic Resource Allocation, and Dynamic Task Partition
- - Jungeun Shin
  - Diana Arroyo
  - et al.
- 2024
- SoCC 2024
Dexter: A Performance-Cost Efficient Resource Allocation Manager for Serverless Data Analytics
- - Anna Maria Nestorov
  - Diego Marron
  - et al.
- 2024
- Middleware 2024
Optimizing GPU Multiplexing for Efficient and Cost-Effective Access to Diverse Large Language Models in GPU Clusters
- - Yue Zhu
  - Chen Wang
  - et al.
- 2024
- MASCOTS 2024