SzA57. A Skylake SP processzorok főbb innovációi Flashcards
AVX512
Multimédiás feldolgozás trendje (ábra)
Megvalósítás:
FMA (Fused Multiply Add)
- Port 0 és Port 1-en lévő FMA egységet összevonták, amiből lett egy 512bites VE.
- Port 5-n volt még egy FMA amit felbővítettek 512bitesre.
Mivel egy ilyen jelentős ráfordítású művelet végrehajtása növeli a disszipációt, ezért a frekvenciát csökkenteni szükséges (alap és turbo frekvenciák is csökkennek).
Mivel nagyobb komplexitású a lap, ezért az órafrekvencia szükségszerűen csökken.
L2/L3 cache hierarchia
Előző rendszerekben: L2 256KB privát + 2.5MB/C L3 shared
- Itt megemelte a privát L2 méretét 1MB-ra. (a mérések szerint ez optimálisabb).
- Szükségszerűen lecsökkentették az L3 méretét / core, mert a sok magra nem jutott elég hely.
- Az L3 cache szükségszerűen non-inclusive (kép) lett. (nem férne bele)
- Más cache koherencia algoritmusok kellenek, snooping
A non-inclusiv megoldásnál nem kell mindkét cache-be betölteni az adatot. A mérések alapján a cache miss változása nem jelentős.
Direkt csatolt memória
A korábbi nagy teljesítményű rendszerekben kis vezetékszámú csatlakoztatást használt az Intel. A Skylake SP-nél a nagy teljesítményű rendszereknél is visszatért a direkt csatolt memóriához (6 csatorna). Ennek az ára, hogy fizikailag megnőtt a lapka.
2Ds rács architektúra
Korábbi rendszerekben gyűrűs kapcsolatot használtak (Haswelltől kezdve kettőt).
Itt is valójában 2 irányú kapcsolat. A rács pontokban routerek vannak (azok küldik az adatot a megfelelő irányba).
- Nagyobb teljesítmény
- Kisebb elérés
Az Intel használta már korábban a 2D rácsot, de csak prototípus sokmagos rendszerekben.
A gyűrűs kapcsolat sok magnál hosszúra nyúlhat (nagy késleltetés), ha pedig több gyűrű van, akkor a kapcsolatot kell biztosítani, ami bonyolult.
UPI
Gyorsabb mint a QPI