Publications

6768 results for AI

JuStRank: Benchmarking LLM Judges for System Ranking
- - Ariel Gera
  - Odellia Boni
  - et al.
- 2025
- ACL 2025
NGQA: A Nutritional Graph Question Answering Benchmark for Personalized Health-aware Nutritional Reasoning
- - Zheyuan Zhang
  - Yiyang Li
  - et al.
- 2025
- ACL 2025
ConCodeEval: Evaluating Large Language Models for Code Constraints in Domain-Specific Languages
- - Mehant Kammakomati
  - Sameer Pimparkhede
  - et al.
- 2025
- ACL 2025
BI-Bench : A Comprehensive Benchmark Dataset and Unsupervised Evaluation for BI Systems
- - Ankush Gupta
  - Aniya Aggarwal
  - et al.
- 2025
- ACL 2025
Multi-Level Explanations for Generative Language Models
- - Lucas Monteiro Paes
  - Dennis Wei
  - et al.
- 2025
- ACL 2025
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
- - George Kour
  - Itay Nakash
  - et al.
- 2025
- ACL 2025
EpMAN: Episodic Memory AttentioN for Generalizing to Longer Contexts
- - SUBHAJIT CHAUDHURY
  - Payel Das
  - et al.
- 2025
- ACL 2025
Multi-Sense Embeddings for Language Models and Knowledge Distillation
- - Qitong Wang
  - Mohammed Zaki
  - et al.
- 2025
- ACL 2025
Knowledge Base Construction for Knowledge-Augmented Text-to-SQL
- - Jinheon Baek
  - Horst Samulowitz
  - et al.
- 2025
- ACL 2025
Defensive Prompt Patch: A Robust and Generalizable Defense of Large Language Models against Jailbreak Attacks
- - Chen Xiong
  - Xiangyu Qi
  - et al.
- 2025
- ACL 2025