deepseek-v2,v3,r1 are all using multi-headed attention.

		MichaelMoser123 8 months ago \| parent \| context \| favorite \| on: TransMLA: Multi-head latent attention is all you n... deepseek-v2,v3,r1 are all using multi-headed attention.