GMP developers' X86-64 corner

X86-64 core pipeline overview

Conroe
Penryn Nehalem
Westmere Sandy bridge Ivy bridge Haswell Broadwell Skylake Kaby lake

issue width 3 3 3 3 4 4 4 4

SIMD exec width 128 128 128 128 256 256 256 256

	Conroe Penryn	Nehalem Westmere	Sandy bridge	Ivy bridge	Haswell	Broadwell	Skylake	Kaby lake
issue width	3	3	3	3	4	4	4	4
SIMD exec width	128	128	128	128	256	256	256	256

X86-64 optimisation background

GMP's performance on X86-64 chips is good. The main optimisation effort up until the 5.1 release was directed towards the AMD K8-K10 processors. Starting with GMP 6, the main effort was directed towards the Intel CPUs. With the release of AMD Zen, we optimise for both Intel and AMD CPUs.

Status

mul_basecase size method plan

Intel Atom (Diamondville, etc) generic

Intel Atom (Silvermont) generic

Intel Conroe/Wolfdale 2687 SW⁴(m1⁴/m2⁴; loop(am2⁴))

Intel Nehalem/Westmere → Conroe/Wolfdale

Intel Sandy bridge (SBR) 951 SW(m1⁴/m2²) loop(SW am2⁴) rewrite to use SW⁴

Intel Ivy bridge (IBR) → Sandy bridge

Intel Haswell (HWL) 1107 SW(m1⁴/m2⁴) loop(SW am2⁴) rewrite to use SW⁴

Intel Broadwell (BWL) 840 SW(m1⁸) loop(SW am1⁸)

Intel Skylake (SKY) → Broadwell

AMD K8-K10 1099 SW(m1⁴/m2⁴) loop(JP am2⁴)

AMD Bulldozer 950 SW(m1⁴/m2²) loop(SW am2⁴)

AMD Piledriver → Bulldozer

AMD Zen 1396 SW⁴(m1⁴) SW⁴(osploop(am1⁴))

AMD Bobcat 1263 m1⁴ SW(m1-tail; loop(am1⁴))

AMD Jaguar

sqr_basecase size method plan

Intel Atom (Diamondville, etc) generic

Intel Atom (Silvermont) generic

Intel Conroe/Wolfdale 2761 SW⁴(m2⁴ loop(am2⁴→am2⁴)) cor2x1

Intel Nehalem/Westmere → Conroe/Wolfdale

Intel Sandy bridge (SBR) 1168 SW(m2²) loop(SW(am2⁴)) cor2x1 rewrite to use SW⁴

Intel Ivy bridge (IBR) → Sandy bridge

Intel Haswell (HWL) 1304 SW(m2²) loop(SW(am2⁴)) cor2x1 rewrite to use SW⁴

Intel Broadwell (BWL) 2881 m1⁸ SW(loop(am1⁸→am1⁸→am1⁸→am1⁸→am1⁸→am1⁸→am1⁸→am1⁸→)) alg:OTF cor3x2

Intel Skylake (SKY) → Broadwell

AMD K8-K10 2189 SW(m1⁴/m2⁴) loop(am2⁴→am2⁴) cor2x1 rewrite w/o m1

AMD Bulldozer → K8 written, but slowdown for important operand range

AMD Piledriver → K8 make → Bulldozer

AMD Zen 1472 SW(m1⁴) SW⁴(loop (am1⁴→am1⁴→am1⁴→am1⁴→) alg:OTF

AMD Bobcat 1492 m1⁴ SW(m1-tail; loop(am1⁴→am1⁴→am1⁴→am1⁴)) cor2x1

AMD Jaguar

redc_1 size method plan

Intel Atom (Diamondville, etc) 1394 SW⁴(loop(am1⁴)) | pipelined q0 comp

Intel Atom (Silvermont) generic

Intel Conroe/Wolfdale 1074 SW²(loop(am1²)) | pipelined q0 comp

Intel Nehalem/Westmere 1602 SW⁴(loop(am1⁴)) | pipelined q0 comp

Intel Sandy bridge (SBR) 1553 SW⁴(loop(am1⁴)) | pipelined q0 comp

Intel Ivy bridge (IBR) → Sandy bridge

Intel Haswell (HWL) 1187 SW⁴(loop(am1⁴)) | pipelined q0 comp rewrite in new SBR code style

AMD K8-K10 1593 SW⁴(loop(am1⁴)) | pipelined q0 comp | inlined add_n rewrite in new SBR code style

AMD Bulldozer → K8

AMD Piledriver → K8

AMD Zen 827

AMD Bobcat 1346 SW⁴(loop(am1⁴)) | pipelined q0 comp

AMD Jaguar

mullo_basecase size method plan

Intel Atom (Diamondville, etc) generic

Intel Atom (Silvermont) generic

Intel Conroe/Wolfdale 996 SW(m2⁴) loop(SW(am2⁴)) cor2x1

Intel Nehalem/Westmere → Conroe/Wolfdale

Intel Sandy bridge (SBR) 916 SW(m2²) loop(SW(am2⁴)) cor2x1

Intel Ivy bridge (IBR) → Sandy bridge

Intel Haswell (HWL) 1049 SW(m2⁴) loop(SW(am2⁴)) cor2x1

AMD K8-K10 1002 m1/m2 -> am2 rewritten w/o m1, currently no speedup

AMD Bulldozer → K8

AMD Piledriver → K8

AMD Bobcat → K8

AMD Jaguar

mul_basecase	size	method	plan
Intel Atom (Diamondville, etc)		generic
Intel Atom (Silvermont)		generic
Intel Conroe/Wolfdale	2687	SW⁴(m1⁴/m2⁴; loop(am2⁴))
Intel Nehalem/Westmere		→ Conroe/Wolfdale
Intel Sandy bridge (SBR)	951	SW(m1⁴/m2²) loop(SW am2⁴)	rewrite to use SW⁴
Intel Ivy bridge (IBR)		→ Sandy bridge
Intel Haswell (HWL)	1107	SW(m1⁴/m2⁴) loop(SW am2⁴)	rewrite to use SW⁴
Intel Broadwell (BWL)	840	SW(m1⁸) loop(SW am1⁸)
Intel Skylake (SKY)		→ Broadwell
AMD K8-K10	1099	SW(m1⁴/m2⁴) loop(JP am2⁴)
AMD Bulldozer	950	SW(m1⁴/m2²) loop(SW am2⁴)
AMD Piledriver		→ Bulldozer
AMD Zen	1396	SW⁴(m1⁴) SW⁴(osploop(am1⁴))
AMD Bobcat	1263	m1⁴ SW(m1-tail; loop(am1⁴))
AMD Jaguar
sqr_basecase	size	method	plan
Intel Atom (Diamondville, etc)		generic
Intel Atom (Silvermont)		generic
Intel Conroe/Wolfdale	2761	SW⁴(m2⁴ loop(am2⁴→am2⁴)) cor2x1
Intel Nehalem/Westmere		→ Conroe/Wolfdale
Intel Sandy bridge (SBR)	1168	SW(m2²) loop(SW(am2⁴)) cor2x1	rewrite to use SW⁴
Intel Ivy bridge (IBR)		→ Sandy bridge
Intel Haswell (HWL)	1304	SW(m2²) loop(SW(am2⁴)) cor2x1	rewrite to use SW⁴
Intel Broadwell (BWL)	2881	m1⁸ SW(loop(am1⁸→am1⁸→am1⁸→am1⁸→am1⁸→am1⁸→am1⁸→am1⁸→)) alg:OTF cor3x2
Intel Skylake (SKY)		→ Broadwell
AMD K8-K10	2189	SW(m1⁴/m2⁴) loop(am2⁴→am2⁴) cor2x1	rewrite w/o m1
AMD Bulldozer		→ K8	written, but slowdown for important operand range
AMD Piledriver		→ K8	make → Bulldozer
AMD Zen	1472	SW(m1⁴) SW⁴(loop (am1⁴→am1⁴→am1⁴→am1⁴→) alg:OTF
AMD Bobcat	1492	m1⁴ SW(m1-tail; loop(am1⁴→am1⁴→am1⁴→am1⁴)) cor2x1
AMD Jaguar
redc_1	size	method	plan
Intel Atom (Diamondville, etc)	1394	SW⁴(loop(am1⁴)) \| pipelined q0 comp
Intel Atom (Silvermont)		generic
Intel Conroe/Wolfdale	1074	SW²(loop(am1²)) \| pipelined q0 comp
Intel Nehalem/Westmere	1602	SW⁴(loop(am1⁴)) \| pipelined q0 comp
Intel Sandy bridge (SBR)	1553	SW⁴(loop(am1⁴)) \| pipelined q0 comp
Intel Ivy bridge (IBR)		→ Sandy bridge
Intel Haswell (HWL)	1187	SW⁴(loop(am1⁴)) \| pipelined q0 comp	rewrite in new SBR code style
AMD K8-K10	1593	SW⁴(loop(am1⁴)) \| pipelined q0 comp \| inlined add_n	rewrite in new SBR code style
AMD Bulldozer		→ K8
AMD Piledriver		→ K8
AMD Zen	827
AMD Bobcat	1346	SW⁴(loop(am1⁴)) \| pipelined q0 comp
AMD Jaguar
mullo_basecase	size	method	plan
Intel Atom (Diamondville, etc)		generic
Intel Atom (Silvermont)		generic
Intel Conroe/Wolfdale	996	SW(m2⁴) loop(SW(am2⁴)) cor2x1
Intel Nehalem/Westmere		→ Conroe/Wolfdale
Intel Sandy bridge (SBR)	916	SW(m2²) loop(SW(am2⁴)) cor2x1
Intel Ivy bridge (IBR)		→ Sandy bridge
Intel Haswell (HWL)	1049	SW(m2⁴) loop(SW(am2⁴)) cor2x1
AMD K8-K10	1002	m1/m2 -> am2	rewritten w/o m1, currently no speedup
AMD Bulldozer		→ K8
AMD Piledriver		→ K8
AMD Bobcat		→ K8
AMD Jaguar