Best AI papers explained

Podcast autorstwa Enoch H. Kang

526 Odcinki

Data Selection for Empirical Risk Minimization
Opublikowany: 26.04.2025
LoRe: Low-Rank Reward Modeling for Personalized LLMs
Opublikowany: 26.04.2025
ParaPO: Reducing Language Model Verbatim Reproduction
Opublikowany: 26.04.2025
Test-Time RL: Self-Evolving LLMs via Majority Voting Rewards
Opublikowany: 25.04.2025
Tina: Tiny LoRA Reasoning Models
Opublikowany: 25.04.2025
Evaluating large language models in theory of mind tasks
Opublikowany: 25.04.2025
QUEST: Quality Sampling for Machine Translation
Opublikowany: 24.04.2025
Offline Preference Learning via Simulated Trajectory Feedback
Opublikowany: 24.04.2025
Reasoning Elicitation in Language Models via Counterfactual Feedback
Opublikowany: 24.04.2025
Eliciting Human Preferences with Language Models
Opublikowany: 24.04.2025
Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning
Opublikowany: 24.04.2025
γ-Bench: Evaluating LLMs in Multi-Agent Games
Opublikowany: 24.04.2025
DRAFT: Self-Driven LLM Tool Mastery via Documentation Refinement
Opublikowany: 24.04.2025
Optimal Prediction Sets for Enhanced Human-AI Accuracy
Opublikowany: 24.04.2025
Self-Correction via Reinforcement Learning for Language Models
Opublikowany: 24.04.2025
Tractable Multi-Agent Reinforcement Learning through Behavioral Economics
Opublikowany: 24.04.2025
Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement
Opublikowany: 24.04.2025
Iterative Nash Policy Optimization for Language Model Alignment
Opublikowany: 24.04.2025
SycEval: Benchmarking LLM Sycophancy in Mathematics and Medicine
Opublikowany: 23.04.2025
Stack AI: Democratizing Enterprise AI Development
Opublikowany: 22.04.2025

21 / 27

Cut through the noise. We curate and break down the most important AI papers so you don’t have to.

Visit the podcast's native language site

526 Odcinki

Data Selection for Empirical Risk Minimization

LoRe: Low-Rank Reward Modeling for Personalized LLMs

ParaPO: Reducing Language Model Verbatim Reproduction

Test-Time RL: Self-Evolving LLMs via Majority Voting Rewards

Tina: Tiny LoRA Reasoning Models

Evaluating large language models in theory of mind tasks

QUEST: Quality Sampling for Machine Translation

Offline Preference Learning via Simulated Trajectory Feedback

Reasoning Elicitation in Language Models via Counterfactual Feedback

Eliciting Human Preferences with Language Models

Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning

γ-Bench: Evaluating LLMs in Multi-Agent Games

DRAFT: Self-Driven LLM Tool Mastery via Documentation Refinement

Optimal Prediction Sets for Enhanced Human-AI Accuracy

Self-Correction via Reinforcement Learning for Language Models

Tractable Multi-Agent Reinforcement Learning through Behavioral Economics

Trust or Escalate: LLM Judges with Provable Guarantees for Human Agreement

Iterative Nash Policy Optimization for Language Model Alignment

SycEval: Benchmarking LLM Sycophancy in Mathematics and Medicine

Stack AI: Democratizing Enterprise AI Development