General Reasoning vs Coding Specialization for SciCoQA

Which capability matters more for detecting paper-code discrepancies?

cs.CLBaumgartner et al. 2026arXiv: 2601.12910

Overview

Models

Ablation

Subtasks

Correlations

Optimal Mix

0.987

Reasoning Corr.

-0.355

Coding Corr.

2.4x

Reasoning Impact

60/20/20

Optimal R/C/I

Model Rankings

Model	Type	Score
Claude-3.5-Opus	hybrid	0.892
GPT-5	reasoning	0.890
GPT-5-Turbo	hybrid	0.882
Claude-3.5-Sonnet	reasoning	0.871
GPT-5-Mini	reasoning	0.846
Gemini-Ultra	reasoning	0.842
GPT-5-Codex	coding	0.794
DeepSeek-Coder-V3	coding	0.769
CodeLlama-70B	coding	0.702
StarCoder2-15B	coding	0.612

Model Comparison by Type

Capability Ablation (GPT-5-Mini)

Performance by Subtask

Reasoning vs Performance

Coding vs Performance

Optimal Reasoning/Coding Mix