Robo-Dopamine RoboRewardBench Evaluation

97.8%

Best Accuracy (Fine-tuned VLM)

96.3%

Process RM Accuracy

0.995

Process RM Consistency

+1.2%

Process vs Outcome (Assembly)

p<0.001

All Pairwise Tests

Model:

Comparison	p-value	Effect Size (d)	Significant
General VLM vs Fine-tuned VLM	<1e-100	1.04	Yes
General VLM vs Outcome RM	<1e-29	0.52	Yes
General VLM vs Process RM	<1e-54	0.72	Yes
Fine-tuned VLM vs Outcome RM	<1e-34	0.56	Yes
Fine-tuned VLM vs Process RM	<1e-20	0.42	Yes
Outcome RM vs Process RM	<1e-4	0.19	Yes

Evaluation of Robo-Dopamine on RoboRewardBench