王欣怡's picture

王欣怡

lilym61

AI & ML interests

None yet

Recent Activity

liked a model 5 days ago

openai/gpt-oss-20b

upvoted a paper 5 days ago

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

liked a model 7 days ago

khaimook/uid95ctl0602

View all activity

Organizations

None yet

upvoted a paper 5 days ago

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

Paper • 2605.29156 • Published 13 days ago • 13

upvoted 2 papers 12 days ago

ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

Paper • 2605.26340 • Published 15 days ago • 35

DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

Paper • 2605.25604 • Published 15 days ago • 134

upvoted 2 papers 18 days ago

Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning

Paper • 2605.09640 • Published about 1 month ago • 8

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

Paper • 2605.14747 • Published 26 days ago • 145

upvoted a paper 19 days ago

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Paper • 2605.11609 • Published 28 days ago • 195

upvoted a paper 22 days ago

MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents

Paper • 2605.09530 • Published about 1 month ago • 147

upvoted 3 papers about 2 months ago

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Paper • 2604.20796 • Published Apr 22 • 243

PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

Paper • 2604.15411 • Published Apr 16 • 4

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Paper • 2604.11626 • Published Apr 13 • 102

upvoted 3 papers 2 months ago

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Paper • 2604.08546 • Published Apr 9 • 115

GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

Paper • 2604.02648 • Published Apr 3 • 47

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

Paper • 2603.24414 • Published Mar 25 • 183

upvoted 4 papers 3 months ago

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Paper • 2603.17051 • Published Mar 17 • 109

Efficient Reasoning with Balanced Thinking

Paper • 2603.12372 • Published Mar 12 • 151

Demystifing Video Reasoning

Paper • 2603.16870 • Published Mar 17 • 373

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Paper • 2603.16859 • Published Mar 17 • 249