xiaomi

Xiaomi: MiMo-V2-Omni

MiMo-V2-Omni is a frontier omni-modal model that natively processes image, video, and audio inputs within a unified architecture. It combines strong multimodal perception with agentic capability - visual grounding, multi-step...

Try on OpenRouter → Estimate cost

Quality Score

100/100

composite of price, context, capability

Input Price

$0.40

per 1M tokens

Output Price

$2.00

per 1M tokens

Context Window

262,144

tokens

Model ID: xiaomi/mimo-v2-omni
Vendor: xiaomi
Tokenizer: Other
Input Modalities: text, audio, image, video
Output Modalities: text
Max Output: 65,536 tokens
Tool Calling: ✓ supported
Structured Output: ✓ supported
Reasoning Mode: ✓ supported
Vision: ✓ accepts images
Audio: ✓ accepts audio
Moderated: no

Strong choice for

Voice

Transcription

Speech-to-text accuracy and speed.

Voice

TTS Replacement

Models that produce natural-sounding speech.

Similar models

xiaomi

Xiaomi: MiMo-V2-Flash

$0.09 in / $0.29 out

262,144 ctx

99

xiaomi

Xiaomi: MiMo-V2-Pro

$1.00 in / $3.00 out

1,048,576 ctx

98