39 210 50

KABI

dongguanting

https://dongguanting.github.io/

AI & ML interests

Reasoning and Alignment for Large Language Models

Recent Activity

upvoted a paper 2 days ago

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

upvoted a paper 2 days ago

LawThinker: A Deep Research Legal Agent in Dynamic Environments

upvoted a paper 4 days ago

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

View all activity

Organizations

upvoted 2 papers 2 days ago

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Paper • 2602.12125 • Published 3 days ago • 55

LawThinker: A Deep Research Legal Agent in Dynamic Environments

Paper • 2602.12056 • Published 3 days ago • 31

upvoted a paper 4 days ago

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

Paper • 2602.05400 • Published 10 days ago • 309

upvoted a paper 5 days ago

GISA: A Benchmark for General Information-Seeking Assistant

Paper • 2602.08543 • Published 6 days ago • 26

upvoted a paper 10 days ago

ERNIE 5.0 Technical Report

Paper • 2602.04705 • Published 11 days ago • 250

upvoted a collection 10 days ago

Qwen3-Next

Collection

4 items • Updated Dec 31, 2025 • 181

upvoted a paper 24 days ago

Agentic Reasoning for Large Language Models

Paper • 2601.12538 • Published 28 days ago • 195

upvoted 4 papers 25 days ago

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Paper • 2601.09688 • Published Jan 14 • 126

upvoted 5 papers about 1 month ago

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

Paper • 2601.10156 • Published Jan 15 • 26

ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

Paper • 2601.06860 • Published Jan 11 • 16

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

Paper • 2601.05808 • Published Jan 9 • 36

Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

Paper • 2601.02151 • Published Jan 5 • 109

ROI-Reasoning: Rational Optimization for Inference via Pre-Computation Meta-Cognition

Paper • 2601.03822 • Published Jan 7 • 24

upvoted 2 papers about 2 months ago

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Paper • 2412.06559 • Published Dec 9, 2024 • 86

Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

Paper • 2512.17260 • Published Dec 19, 2025 • 52

upvoted 2 papers 2 months ago

Memory in the Age of AI Agents

Paper • 2512.13564 • Published Dec 15, 2025 • 151

Thinking with Images via Self-Calling Agent

Paper • 2512.08511 • Published Dec 9, 2025 • 23

KABI

AI & ML interests

Recent Activity

Organizations

dongguanting's activity