LLM Benchmark — cbrian.es

📥 Modelos Más Descargados

Top 20 de LM Studio — ordenados por descargas totales

Fuente: LM Studio Model Catalog · Actualizado: —

⚡ Velocidad de Generación (Q4_0)

Tokens por segundo en LLaMA 7B — la métrica que más importa para uso interactivo

Fuente: llama.cpp Discussion #4167 · 512 prompt / 128 gen tokens

M1 M2 M3 M4 M5

🚀 Velocidad de Procesado (Q4_0)

Tokens por segundo al procesar el prompt inicial — crucial para contextos largos

📊 Comparativa Generacional

Evolución del rendimiento M1 → M4 (GPU equivalente, Q4_0 TG)

🆚 Mac vs GPU — Comparativa Directa

Mismo modelo (Llama 2 7B Q4_0), mismas condiciones. Apple Silicon (Metal) vs NVIDIA (CUDA) vs AMD (ROCm)

Fuentes: Apple Silicon · NVIDIA CUDA · AMD ROCm

Apple Silicon NVIDIA CUDA AMD ROCm

💰 Relación Calidad/Precio

Tokens por segundo por dólar (MSRP). ¿Qué hardware da más rendimiento por tu dinero?

📐 Eficiencia por Ancho de Banda

Tokens/seg por cada GB/s de ancho de banda — ¿qué chip aprovecha mejor su memoria?

ℹ️ Sobre Este Proyecto

🎯 Objetivo

Proveer benchmarks reales y actualizados de rendimiento de inferencia LLM en hardware Apple Silicon. Datos verificables, comparables y visualmente claros para ayudar a decidir qué MacBook comprar para trabajar con IA local.

🔬 Metodología

Los datos provienen del repositorio oficial de llama.cpp y del catálogo público de LM Studio. Los benchmarks usan el mismo modelo (LLaMA 7B v2), mismos parámetros (512 prompt, 128 gen) y misma build para garantizar comparabilidad.

📅 Actualizaciones

Este sitio se actualiza periódicamente. Próximamente incluiremos benchmarks con modelos modernos (Gemma, Qwen, Mistral) y resultados enviados por la comunidad.

⚠️ Nota

Los resultados mostrados usan una build de llama.cpp de noviembre 2023. Con versiones recientes (+Flash Attention), el rendimiento mejora ~10-15%. Pronto añadiremos benchmarks con la última versión.