13. „Netburst”, disszipáció, egyéb korlátok Flashcards
Szálkotextus váltás
1 cpu, 2 szál » a szálakat váltogatni kell, megoldás » Time Sharing (P4-en a Task váltás akár 2-3 ezer órajelciklusnyi időbe is telhet, szóval költséges.)
Váltáskor a következők a teendők: (Ezek a költséges műveletek)
A futó task megszakítása, állapota (kontextus) mentése
A másik szál vagy folyamat kiválasztása, majd annak az állapotának a betöltése.
A modern OS-ek laptáblákat használnak a folyamatok állapotainak a tárolására»_space; TLB buffer
(Translation lookaside buffer)
Jellemzők: (Pentium 4 „Willamette” – 2000. november)
1.7 GHz! Cél a gyorsításért a 10 GHz-es órajel elérése, ennek forrásai:
1. gyártási csíkszélesség csökkentése (kb. 0.7–szeresen)
o terület: 0.7 (mag szélessége)* 0.7(mag magassága) = 0.49 ← hasonló eredmény, mintha a tranziszorok számát duplázta volna
2. fútószalagfokozatok számának csökkentése
o 20 fokozatról indult, de a növelés során elérték az ajánlott határt, a 31-et.
o Hátrányok: több függőség, csökkenő fajlagos hatékonyság, nagyobb büntetés
hibás elágazás előrejelzés esetén
CISC architektúra (belül RISC mag)
1 - 17 bájtos utasítások (8 – 136 bit)
8 db. látható regiszter (EAX, EBX, ECX, EDX, ESP, EBP, EDI, ESI)
Újdonságok
- ETC: Execution Trace Cache (Nyomkövető Gyorsítótár)
o L1: 8 – 9 kB-os gyorsítótár, amely 12k utasítást használatát teszi lehetővé
o a decoder által átalakított RISC utasításokat tárolja (régen: utasítás gyorsítótár) - Hyper Pipeline (hosszú futószalag, 20 – 31 fokozat)
- dekódolás a futószalagon kívül » nagy sebesség, de hibás előrejelzések
esetén nagy a büntetés - Enhanced Branch Prediction: kb. 94 – 97%-os hatékonyság (+ 33% a Pentium 3-hoz képest)
- Quad Data Rate Bus: belső rendszerbuszhoz képest 4-szeres növekedés » gyorsabb adatelérés a memóriában
o 2 db. órajel, 90 fokos eltolással - Rapid Execution Engine (2 db.) » egy ciklus alatt elvégezhező műveletekhez
o egyszerű FX VE., de gyorsítva: kétszeres sebesség (felfutó és lefutó él is „aktív” !) - Replay System: megjósolja a végrehajtási időket (előbb indít el bizonyos utasításokat)
o Replay Queue: ha elrontja, vissza az ütemezőhöz (nincs leállás)
Kihívások
Statikus disszipáció (3 GHz felett) » a tranzisztoroknál jelentkező szivárgásiáram
Dinamukus disszipáció » „hőkatasztrófa” 3.8 - 4 GHz-nél, amikor az áram melegíti a
vezetéket » hűteni kell
A futószalag fokozatok száma nem növelhető tovább
Architektúra – Pentium 4
32 bit, x86
fejlesztés vége 2004, gyártás vége 2008
Thermal Monitor: órajelmoduláció » ha a CPU hőmérséklete magas, akkor leveszi a
frekvenciát, vagy akár leállítja a magot » előnyösebb hőkezelést biztosít
4 fő részből áll:
o memóri alarendszer (L1, L2, és az ezekhez szükséges logika)
o bemenet alrendszer
o sorrenden kívüliség vezérlése
o végrehajtás
- SSE 2.0 ← 144 db, új SIMD utasítás (3D)
- 8/16/32 bites Integer és 32/64 bites FP műveletek támogatása
A Netburst fő korlátai
hatékonysági (kimeríthető, vagy memóriasebesség álló párhuzamosság hiánya)
disszipációs (a frekvencia nem növelhető a végtelenségig)
párhuzamos buszok frekvenciakorlátja
Végrehajtási modell
kép31
Statikus disszipáció
a tranzisztorokon jelentkező szivárgási áram.
(exponenciálisan nő a frekvencia növelésével) » Ds = Is * V
Is = szivárgási áram
V = tápfeszültég
Dinamikus disszipáció
a tranzisztorok működéséből adódó hőmennyiség.
(lineárisan nő a frekvencia növelésével) » Dd = A * C * V2 * fc
A = aktív kapuk részaránya
C = kapuk összesített kapacitása
V = tápfeszültség
fc = órafrekvencia
Összegezve (disszipációk)
D = Ds + Dd
A statikus és dinamikus disszipáció részaránya
1995-ben 1:1000
2005-ben 1:1
Disszipáció kezelése
DVFS: (Dynamic Voltage and Frequency Scaling)
a) Meghatározzuk a szükséges teljesítményt
b) Hozzáillesztjük a frekvenciát a teljesítményhez
c) Beállítjuk az órafrekvencia fenntartásához szükséges minimális feszültséget.
A jel felfutási meredeksége többek között a feszültségtől is függ. Ez kiegészül az AVS-sel (Adaptive Voltage Scaling).
Egyéb korlátok, nehézségek - Data Valid Window
adott egy jelszint, amely szükséges, hogy bizonyos ideig állandó maradjon
referencia feszültségszintek használata:
o TTL:0V=„0”|5V=„1”
o RUS:1V=„0”|4.3V=„1”
o LVDS (Low Voltage Differential Scaling):
- 1 V = „0” | 2 V = „1”
- 2 vezeték, egyszerre változnak (ezzel működnek: PCIE, QPI, DMI…)
kép32
A buszok átviteli sebességét behatároló zavarok
-Skew-hatás: vezetékek között lévő időbeli eltolódás (eltérő vezetékhosszok esetében)
-Jelvisszaverődés (megoldás hullámimpedancia lezárással)
Jitter: a fázisbizonytalanság elmossa a felfutó és lefutó éleket. Okai:
a. áthallás: a szomszédos vezetékek által gerjesztett elektromágneses jelek zavarása
b. EMI: elektromágneses interferencia (külső, vagy belső forrású zavar)
Megoldás: soros buszok.