SzA46. A Sandy Bridge család Flashcards
A Sandy Bridge család főbb jellemzői
Sandy Bridge (Haifa, 2011)
Általános alkalmazásra készült rendszer (mobil, desktop és szerverek). Nagy teljesítményű szerver rendszerek nincsenek megvalósítva
3 lényeges újítás:
- ISA bővítése 256 bites AVX-el
- Új mag mikroarchitektúra
- Gyűrűs adatkapcsolat
- Lapkára integrált grafika megjelenése (A grafikára nagy hangsúlyt helyeztek)
- Turbo Boost 2.0
Az AVX kiterjesztés
256 bites AVX kiterjesztés
Egy folyamat része - SIMD feldolgozás:
- Pentium 3 - 64bit (itt jelent meg)
- Pentium 3 - 128 bit
- Sandy - 256 bit
- Skylake SP - 512 bit
SIMD feldolgozáshoz helyi regiszter készlet és utasítás készlet kell.
Regiszterkészlet:
- P3-nál 8 multimedia regiszter (64bit), nem önálló regiszterek, FP regisztereket duplán hasznosították (vagy FP vagy SIMD)
- AMD 3D Now! technikával önálló regiszterkészletet hoztak be
- Erre válaszul az Intel is behozta az önálló regiszterkészletet 8db 128 bit (XMM néven)
- Pentium 4 - 16 regiszer
- Sandy Bridge - 16 regiszter 256bites, csak lebegőpontos! (ábra) - Haswellben bővül
- Skylake SP - 512 bit
Nem hoztak be új, 256 bites adat utat, hanem a már meglévő, 128 bites adatutak egyidejű használatával oldották meg.
Új mikroarchitektúra
A mikroarchitektúra bővítményei:
LOAD-STORE egységek bevezetése
Feljavították az elágazásbecslést
1,5k mikroutasítás cache
- Ez kb 5,2kB cache-nek felel meg kb.
- Előző rendszerekben ilyen nem volt, ott loop buffer volt, ami csak kis cikluson belül tárolt adatokat
- Mivel azokat az utasításokat, amelyek megtaláltahóak a mikroutasítás cache-ben, már nem kell sem lehívni, sem dekódolni, csökken a fogyasztás, nő a teljesítmény. Egy önáló elágazás becslő egység is van a mikroutasítás cache-ben (találtati aránya kb 80%).
Gyűrűs adatkapcsolat
4 mag + grafikánál már nehézkesebb a komunikáció megoldása.
A gyűrűs busz köti össze:
- 4 magot
- L3 szeleteket
- GPU-t
- System Agent-ket
2 irányú, kezeli a cache koherenciát
4 gyűrűből áll (data, request, acknowledge, snoop)
Ez az uralkodó megoldás a Skylake SP-ig (onnantól 2d háló).
Lapkán integrált grafika
Előzmény: Westmere-nél külön lapkán integrálták a grafikát
Sandy Bridge
- 6-12 EU
- Közös L3 cache a processzorral
- Közös fogyasztás vezérlés
- GT (Graphics Technology) bevezetése (megmutatja hány EU-t implementálnak)
- Még nem támogatja az OpenCL-t (tudományos számítások), mivel nem támogatja a dupla pontos FP utasításokat
Lapkán integrált grafika következményei:
A GPU a lapkára kerülésének hatása volt a teljesítménykezelésre is (integrált teljesítmény kezelés), mivel a TDP-n belül kell maradnia nem csak a magok disszipációjának, hanem a grafikáénak is.
Mivel a display portok nem közvetlen a processzorra csatlakoznak, ezért bevezették az FDI buszt, hogy az összeköttetést biztosítsa.
Dinamikus Turbo Boost technológia
A Turbo Boost 1-es technológia statikusan működik.
Turbo Boost 2.0
Mivel a processzorokon található hűtőbordának “hőtehetetlensége” van, ezért egy passzívabb állapot után az órajel a TDP-nél magasabbra is emelhető egy rövid időre (ábra).
Rolling Average - valamilyen időablakban figyeli a disszipáció átlagát.
Ha a rolling average bizonyos értékénél a PCU lekapcsolja a turbot.
Mivel a processzor árama 100A nagyságrendű, ezért 1,3 V → 1V-os feszültség módosításnál hatalmas áram ingadozás (ami nagy elektromos teret generál), ami hibát okoz. Egy processzor esetén a feszültség gyors, lényeges változtatása hibát okoz. Ezért lépésekben csökkentik a feszültséget (kb. 10mV-os lépésekben).
Turbo Boost 3.0 (Broadwell HED)
Gyártáskor megmérik az összes mag frekvenciáját, és abban az esetben, ha csak egy mag aktív, akkor a leggyorsabb legyen az. Működéséhez szükséges a BIOS és az OS támogatása.