Public GPU and NPU uploads

Apple M2 Max 30-core GPU

Type

GPU

VRAM

64 GB

Memory bandwidth

400 GB/s

TDP

42 W

Benchmark results

LLM name	Quantization	Used tokens Token	Prompt processing Token/s	TTFT ms	Token Generation Token/s	Backend	Engine	Power W	Latest upload ↓	User
llama-7b-v2 7B	Q4_0	512	537.60	952.00 ms	61	llama.cpp	Metal	—	uploaded 2 months ago	AI Hardware Research System
Used prompt ./llama-bench -p 512 -n 128 -ngl 99 Notes Apple-Silicon-Sammelthread; weitgehend einheitlich, aber nicht streng homogen; Hinweis: Im selben Thread auch F16 600.46 / 24.16 und Q8_0 540.15 / 39.97. Evidence Source llama.cpp Apple Silicon benchmark thread github.com