Publications

14 results for Manish Nagireddy

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data
- - Yue Huang
  - Hang Hua
  - et al.
- 2026
- ICLR 2026
Conference paper
When in Doubt, Cascade: Towards Building Efficient and Capable Guardrails
- - Manish Nagireddy
  - Inkit Padhi
  - et al.
- 2025
- AIES 2025
Conference paper
Granite Guardian: Comprehensive LLM Safeguarding
- - Inkit Padhi
  - Manish Nagireddy
  - et al.
- 2025
- NAACL 2025
Conference paper
DAMAGeR: Deploying Automatic and Manual Approaches to GenAI Red-teaming
- - Manish Nagireddy
  - Michael Feffer
  - et al.
- 2025
- NAACL 2025
Tutorial
Programming Refusal with Conditional Activation Steering
- - Bruce Lee
  - Inkit Padhi
  - et al.
- 2025
- ICLR 2025
Conference paper
DAMAGeR: Deploying Automatic and Manual Approaches to GenAI Red-teaming
- - Manish Nagireddy
  - Michael Feffer
  - et al.
- 2025
- AAAI 2025
Tutorial
SocialStigmaQA Spanish and Japanese - Towards Multicultural Adaptation of Social Bias Benchmarks
- - Clara Higuera Cabañes
  - Ryo Iwaki
  - et al.
- 2024
- NeurIPS 2024
Workshop paper
Value Alignment from Unstructured Text
- - Inkit Padhi
  - Karthikeyan Natesan Ramamurthy
  - et al.
- 2024
- NeurIPS 2024
Workshop paper
Value Alignment from Unstructured Text
- - Inkit Padhi
  - Karthikeyan Natesan Ramamurthy
  - et al.
- 2024
- EMNLP 2024
Conference paper
Language Models in Dialogue: Conversational Maxims for Human-AI Interactions
- - Erik Miehling
  - Manish Nagireddy
  - et al.
- 2024
- EMNLP 2024
Paper