Publications

33 results for Olivier Tardieu

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference
- - Pol G. Recasens
  - Ferran Agullo
  - et al.
- 2025
- CLOUD 2025
Build, Operate, and Use a multi-tenant AI cluster based entirely on open source
- - Claudia Misale
  - Olivier Tardieu
  - et al.
- 2025
- KubeCon EU 2025
Incremental GPU Slicing in Action
- - Abhishek Malvankar
  - Olivier Tardieu
- 2024
- CNCF-hosted Co-located Events North America 2024
Caspian: A Carbon-aware Workload Scheduler in Multi-Cluster Kubernetes Environments
- - Tayebeh Bahreini
  - Asser Tantawi
  - et al.
- 2024
- MASCOTS 2024
GPU OPTIMIZATIONS FOR EFFICIENT AND COST-EFFECTIVE ACCESS TO DIVERSE LARGE LANGUAGE MODELS IN RESEARCH CLUSTER
- - Chen Wang
  - Yue Zhu
  - et al.
- 2024
- MLSys 2024
Towards Pareto Optimal Throughput in Small Language Model Serving
- - Pol G. Recasens
  - Yue Zhu
  - et al.
- 2024
- EuroSys 2024
Towards Pareto Optimal Throughput in Small Language Model Serving
- - Pol G. Recasens
  - Yue Zhu
  - et al.
- 2024
- EuroMLSys 2024
Unleashing the Power of DRA (Dynamic Resource Allocation) for Just-in-Time GPU Slicing
- - Abhishek Malvankar
  - Olivier Tardieu
- 2024
- KubeCon EU 2024
Training Foundation Model Workloads on Kubernetes at Scale With MCAD
- - Olivier Tardieu
  - Abhishek Malvankar
- 2023
- K8SAIHPCDAY 2023
Reliable Actors with Retry Orchestration
- - Olivier Tardieu
  - David Grove
  - et al.
- 2023
- PLDI 2023