head-to-head

StepFun: Step 3.7 Flash vs xAI: Grok 4.20

Side-by-side comparison of specs, pricing, benchmark scores, and task rankings. Updated 2026-06-23.

Who wins by task?

Task	StepFun: Step 3.7 Flash	xAI: Grok 4.20
SQL Generation	152	144
Code Review	145	150
Code Completion	129	122
Code Refactoring	143	153
Bug Fixing	154	154
Unit Test Generation	138	135
Code Documentation	132	141
Regex Writing	129	127
CI/CD Pipelines	131	131
Frontend Component Design	135	131
Data Analysis	149	136
CSV / Spreadsheet Cleanup	140	139
ETL Scripting	137	142
JSON Extraction	142	123
Bulk Data Labeling	133	120
OCR / Document Parsing	137	135
Table Extraction from PDFs	137	135
Long-Document Summarization	141	154
Short-Form Summarization	128	119
Blog Post Writing	129	132

Scores reflect capability match + benchmark data + pricing for each task. Methodology →