-
generell gut, falls der Anwendung Blockverfahren zugrundeliegen
stark abhängig von gewählter Blockgröße
-
möglichst klein, um gutes Load-Balancing zu erzielen
-
groß genug, damit skalare BLAS-Versionen schnell sind
-
guter Startpunkt auf vielen Systemen: NB = 64
abhängig von der Form des Prozessor-Gitters
-
P > 9 : möglichst quadratisch aufteilen
-
P <= 9 : linear (1 x P)
evtl. Umverteilung der Matrizen zwischen einzelnen Schritten