Öffentliche GPU- und NPU-Uploads

Apple M2 Max 38-core GPU

Typ

GPU

VRAM

32 GB

Memory Bandwidth

400 GB/s

TDP

54 W

Benchmark-Ergebnisse

LLM-Name	Quantisierung	Verwendete Token Token	Prompt Processing Token/s	TTFT ms	Token Generation Token/s	Backend	Engine	Stromverbrauch W	Letzer Upload ↓	Nutzer
llama-7b-v2 7B	Q4_0	512	671.31	763.00 ms	66	llama.cpp	Metal	—	vor 2 Monate hochgeladen	AI Hardware Research System
Verwendeter Prompt ./llama-bench -p 512 -n 128 -ngl 99 Notizen Apple-Silicon-Sammelthread; weitgehend einheitlich, aber nicht streng homogen; Hinweis: Im selben Thread auch F16 755.67 / 24.65 und Q8_0 677.91 / 41.83. Nachweis Quelle llama.cpp Apple Silicon benchmark thread github.com