📥 Modelos Más Descargados
Top 20 de LM Studio — ordenados por descargas totales
Fuente: LM Studio Model Catalog · Actualizado: —
⚡ Velocidad de Generación (Q4_0)
Tokens por segundo en LLaMA 7B — la métrica que más importa para uso interactivo
Fuente: llama.cpp Discussion #4167 · 512 prompt / 128 gen tokens
🚀 Velocidad de Procesado (Q4_0)
Tokens por segundo al procesar el prompt inicial — crucial para contextos largos
📊 Comparativa Generacional
Evolución del rendimiento M1 → M4 (GPU equivalente, Q4_0 TG)
🆚 Mac vs GPU — Comparativa Directa
Mismo modelo (Llama 2 7B Q4_0), mismas condiciones. Apple Silicon (Metal) vs NVIDIA (CUDA) vs AMD (ROCm)
Fuentes: Apple Silicon · NVIDIA CUDA · AMD ROCm
💰 Relación Calidad/Precio
Tokens por segundo por dólar (MSRP). ¿Qué hardware da más rendimiento por tu dinero?
📐 Eficiencia por Ancho de Banda
Tokens/seg por cada GB/s de ancho de banda — ¿qué chip aprovecha mejor su memoria?
ℹ️ Sobre Este Proyecto
🎯 Objetivo
Proveer benchmarks reales y actualizados de rendimiento de inferencia LLM en hardware Apple Silicon. Datos verificables, comparables y visualmente claros para ayudar a decidir qué MacBook comprar para trabajar con IA local.
🔬 Metodología
Los datos provienen del repositorio oficial de llama.cpp y del catálogo público de LM Studio. Los benchmarks usan el mismo modelo (LLaMA 7B v2), mismos parámetros (512 prompt, 128 gen) y misma build para garantizar comparabilidad.
📅 Actualizaciones
Este sitio se actualiza periódicamente. Próximamente incluiremos benchmarks con modelos modernos (Gemma, Qwen, Mistral) y resultados enviados por la comunidad.
⚠️ Nota
Los resultados mostrados usan una build de llama.cpp de noviembre 2023. Con versiones recientes (+Flash Attention), el rendimiento mejora ~10-15%. Pronto añadiremos benchmarks con la última versión.