Ekzamen Flashcards

1
Q

Билет1
Известны три препятствия на пути развития современных ВС: ILP wall, Power wall и Memory wall. Какие технологии построения ВС наиболее чувствительны к указанным преградам?

A

Memory wall – ограничение пропускной способности памяти.
ILP wall – ограничение параллелизма уровня команд (трудно найти не зависимые инструкции в потоке).
Power wall – ограничение потребляемой энергии.
Технологии Multicore является наиболее чувствительной к указанным ограничениям. (Multicore – несколько продвинутых ядер).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Билет1
Опишите отличия в применении метода чередования (interleaving) для конвейеризации функциональных устройств процессора, банков оперативной памяти и модулей внешней памяти.

A

Чередование для конвейеризации банков ОП нужно для уменьшения задержек поступления данных в систему. После использования одного банка, ему необходимо время для дальнейшего использования, поэтому лучше обратиться к другому банку.
Чередование для конвейеризации Fu позволяет избавиться от простоев при выполнении команд. Если образуется кэш промах, то переход на команду, не зависящую от этого перехода.
Чередование для модулей внешней памяти – уменьшение времени на чтение данных.
Последние две нужны для минимизации задержек поступления данных в систему, в отличии от чередования для конвейеризации Fu.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Билет2
Опишите достоинства и недостатки архитектуры с длинным командным словом в сравнении с современными суперскалярными архитектурами.

A

Суперскалярные архитектуры: исполняется переменное число инструкций за такт, используя методы, как статического (развертка кода компилятором), так и динамического (алгоритм Томосула, неупорядоченная модель обработки) планирование.
VLIW – исполняют фиксированное число независимых инструкций за такт. Параллелизм уровня инструкций обеспечивается статически на этапе компиляции.
Достоинства:
+ Упрощение структуры микропроцессора (основная часть нагрузки ложится на компилятор).
+ Снижение энергопотребления.
+ Алгоритмы выбора порядка исполнения команд в компиляторах может быть существенно сложнее и эффективнее, чем алгоритмы аппаратного планирования инструкций.
Недостатки:
- Нет мобильности программного обеспечения (работа с определенным набором Fu).
- Зависимость от VLIW компилятора, их мало.
- Код для VLIW обладает невысокой плотностью. Из-за большого кол-ва пустых инструкций для простаивающих устройств программы для VLIW процессоров могут быть гораздо длиннее, чем аналогичные программы для суперскалярных архитектур.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Билет2

Опишите достоинства и недостатки схемы gshare в сравнении со схемами GAp.

A

Достоинства gshare:
+ более точные предсказания, коэффициент попадания выше;
+ более экономично, одна таблица второго уровня;
+ сравнительно невысокое время доступа;
Недостатки gshare:
- с коллизией предсказания ухудшаются;
- размер глобальной истории предсказателя gshare ограничен до логарифма от количества счетчиков.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Билет3
Какими факторами (в случае “идеальной” последовательности инструкций) ограничена степень ILP в процессорах различных архитектур?

A

ILP – параллелизм уровня инструкций – исполнение последовательности независимых инструкций параллельно.
Факторы:
- Ограничен размерами ББИ – базовый блок инструкций (линейная последовательность кода без перехода во внутрь или наружу). Меньше зависимостей –> больше возможностей для распараллеливания.
- Ограничен кол-вом регистров. Большое кол-во регистров в RISK предотвращает конфликты по имени регистров.
- Неэффективность компиляторов.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Билет3

Сравните реализации векторной обработки в виде конвейерного ALU и в виде массива ALU.

A

Реализация в виде конвейерного ALU намного производительнее т.к. за один такт ALU может выполнить несколько операций (нормализация, сложение мантисс, сдвиг мантиссы, сравнение порядков) и этим операциям не придется ждать выполнения предыдущих операций не причастных к ним в отличии от реализации векторной обработки в виде массива ALU.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Билет4

Каковы преимущества и недостатки символического разворачивания циклов против программной конвейеризации циклов?

A

Достоинства:
+ Исполняется меньше кол-во инструкций для поддержки циклов (связанные с командами перехода, изменение значения счетчика цикла).
+ При большом ББИ – больше комбинаторных возможностей для перепланирования инструкций (удаление простоев).
Недостатки:
- Нужно большое кол-во регистров для предотвращения конфликта по имени регистров.
- Независимость итераций необходима.
- Большой программный код.
- Не уменьшает время, когда цикл работает с неполной скоростью.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Билет4

Укажите факторы, сдерживающие распространение архитектуры EPIC.

A

1) При выпуске новой версии EPIC архитектуры все старое ПО можно потребовать полной перекомпиляции.
2) Оптимизированная для одного устройства программа может оказаться совершенно непригодной для работы на следующем поколение процессоров.
3) VLIW компилятором очень мало.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Билет №5
Какой процессор (скалярный, суперскалярный, суперскалярный с неупорядоченным исполнением, суперскалярный с неупорядоченным исполнением и переименованием) наиболее (наименее) чувствителен к размеру базового блока инструкций?

A

Скалярный самый не чувствительный к размеру ББИ, т. к. он выполняет только одну операцию за такт.
Далее суперскалярный с неупорядоченным исполнение и переименованием регистров, т. к. у него нет зависимостей по данным.
Суперскалярный более чувствителен к размеру ББИ, т. к. при большом размере ББИ будет меньше зависимостей, меньше простоев.
Суперскалярный с неупорядоченным исполнением самый чувствительный, т. к. при малом ILP он будет выполнять задачу намного быстрее.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Билет5

Недостатки MMX/XMM на фоне векторных процессоров других производителей.

A

Фиксированная длина вектора, зависящая от кода операции (длина кода привязана к длине вектора).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Билет №6

Охарактеризуйте сопряжение алгоритма Томасуло с различными ISA (ROSC, CISC, RISC)

A

Алгоритм Томасула позволяет последовательные инструкции выполнить не последовательно.
Не имеет смысла применять алгоритм Томасуло для архитектур ROSC и CISC, так как результат внедрения алгоритма Томасуло в данные архитектуры будет неэффективен.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Билет №7

Какое соотношение между скоростью выполнения арифметических операций и скоростью обмена с основной памятью характерно для современных SMP-компьютеров?

A

SMP – симметричное мультипроцессирование – архитектура многопроцессорных комп., в которой два или более одинаковых процессоров подключаются к общей памяти.
Выполнение арифметических операций на процессоре. SMP системы позволяют любому процессору работать над любой задачей независимо от того, где в памяти хранятся данные для этой задачи.
С поддержкой ОС, SMP системы могут легко перемещать задачи между процессорами эффективно распределяя нагрузку.
Память медленнее процессоров, которые к ней обращаются. Скорость выполнения арифметических операций больше, чем скорость обмена с основной памятью.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Билет7

Какие уровни параллелизма используются при суперскалярном процессировании?

A

ILP – параллелизм уровня инструкций. Исполнение последовательности независимых инструкций одновременно (параллельно).
LLP – параллелизм уровня циклов (разворачивание цикла увеличивает ББИ, позволяет уделять больше тактов простоя, т. к. больше инструкций могут быть переупорядочены) – параллелизм между итерациями цикла.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Билет7

Опишите достоинства и недостатки схемы gshare в сравнении со схемами GAp.

A

Достоинства gshare:
+ более точные предсказания, коэффициент попадания выше;
+ более экономично, одна таблица второго уровня;
+ сравнительно невысокое время доступа;
Недостатки gshare:
- с коллизией предсказания ухудшаются;
- размер глобальной истории предсказателя gshare ограничен до логарифма от количества счетчиков.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Билет №8
Сравните схемы классификации параллелизма по уровню и по гранулярности. Каковы области применения этих схем? Каковы их достоинства и недостатки?

A

Мелкозернистый: мелкоуровневый и на уровне команд.
Каждое параллельное вычисление достаточно мало и элементарно, составляется из десятков команд. Распараллеливаемые единицы – выражения или отдельные итерации цикла, имеющие небольшие зависимости по данным
Среднезернистый: на уровне команд и уровень потоков.
Распараллеливаемые единицы – вызываемые процедуры. Организуется программистом. Роль компилятора - выбор оптимальной последовательности инструкций.
Крупнозернистый: уровень потоков и уровень задач.
Каждое параллельное вычисление достаточно независимо от остальных, требуется относительно редкий обмен информацией между отдельными вычислениями. Распараллеливаемые единицы – большие и независимые программы. Обеспечивается ОС.
Гранулярность – отношение объема вычислений, выполненных в параллельной задаче, к объему коммуникаций.
Параллелизм по гранулярности – обеспечивается компилятором, программистом, ОС.
Параллелизм по уровню – усовершенствование архитектуры (увеличение ступеней конвейера, несколько конвейеров в одном CPU, многопоточность, мультипроцессоры).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Билет8
При переходе с однопроцессорной машины на четырёхпроцессорную возможно ли ускорение вычислений в два раза? При каких условиях?

A

Не всегда зависит от доли последовательной части f, при f>50% нельзя говорить о существенном ускорении. Только если доля f мала, имеет смысл многократное увеличение числа процессоров.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Билет №9
Законы Амдала и Густафсона в идентичных условиях дают различные значения ускорения. Каковы области применения этих законов?

A

Закон Амдала применяют, когда имеет значение скорость вычисления (имеет значение f – доля последовательной части.)
Закон Густафсона. Вместо того чтобы решать задачу быстрее, увеличивается точность вычисления.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Билет9

Охарактеризуйте эволюцию ISA с точки зрения проблемы семантического разрыва

A

Семантический разрыв - это мера различия принципов, лежащий в основе языков программирования высокого уровня, которые определяют архитектуру ЭВМ.
До появления языков высокого уровня, до появления СБИС, стремились удовлетворить растущие потребности развивающихся технологий программирования, включая в состав ISA новые, более развитые команды. Но угнаться не могли àобразовался семантический разрыв.
Переход на RISC и постоянное совершенствование языков программирования, закрепился семантический разрыв.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Билет №10

Сравните скалярные вычисления с плавающей точкой в SSE2 и в FPU (x86).

A

1) SSE2 – регистровая архитектура.
FPU – стековая архитектура.
SSE2 использует 8 128-битных регистров, включенных в архитектуру х86. С вводом расширений SSE, каждое из которых трактуется как 2 последовательных значения с плавающей точкой двойной точности.
FPU – математический сопроцессор – отдельный функциональный модуль во всех процессорах архитектуры х86. Его реализация обусловлена наличием специального набора команд для устройства вычислений с плавающей точкой.
SSE2 рациональнее использует ресурсы процессора, чем FPU.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Билет10

Каковы отличия между параллелизмом уровня команд и микроуровневым параллелизмом?

A

Микроуровневый параллелизм (ступени конвейера) уменьшает число тактов на инструкцию (много транзисторов простаивало при выполнении одной инструкции).
Параллелизм уровня команд (несколько конвейеров CPU) среднее количество инструкций за такт увеличивается…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Билет №11
Алгоритм Томасуло. Может ли ограниченность аппаратного РФ привести к структурному конфликту? Целесообразно ли многократное увеличение размера аппаратного РФ?

A

Переименование регистров заключается в том, что одно и то же обозначение может означать разные данные. Так как в РФ малое количество логических файлов ->структурный конфликт.
При отображении регистров происходит преобразование программных ссылок на аппаратные регистры ссылки на большой набор физических регистров. По существу процессор «размножает» клонированием, ограниченно число программируемых аппаратных регистров, тем самым в нем находится много теневых регистров, которых больше, чем систем команд, поэтому многократное увеличение размера аппаратного РФ не имеет смысла.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Билет11

Почему передовые ядра с высоким ILP стали уступать простым малым ядрам?

A
Малые ядра
	Ненамного медленнее больших
	Имеют меньшее энергопотребление
	Легче тестировать на работоспособность
	На чипе можно разместить существенно больше.
23
Q

Билет №12
Алгоритм Томасуло. Может ли ограниченность окна команд привести к структурному конфликту? Целесообразно ли многократное увеличение размера окна команд?

A

Окно команд влечет за собой структурный конфликт. Выдача команд на исполнение определяется только готовностью операндов и свободностью соответствующих FU. ROB и станции резервации получают в одно и тоже время те же микрокоманды из дешифратора (следит за последовательностью микрокоманд), поэтому не целесообразно многократное увеличение размера окна команд.

24
Q

Билет12

Почему именно энергопотребление стало ключевым сдерживающим фактором традиционного развития вычислительных систем?

A

Экономически невыгодно. На содержание мощных компьютерных систем необходимо очень много электроэнергии.

25
Q

Билет №13

Алгоритм Томасуло. По какой причине размер буфера RS не более 1÷5 команд?

A

В ROB может хранится до 20 микрокоманд. Он может пересылать максимум по 5 команд, но при работе с типичными командными последовательностями более вероятен непрерывный поток пересылок с интенсивностью 3 команды за такт. Поэтому больше 5 делать не имеет смысла.

26
Q

Билет13

На каких задачах эффективнее двухпоточный процессор, а на каких двухъядерный?

A

Двухпоточный эффективнее использовать для выполнения нескольких задач параллельно на заметно высоких скоростях.
Многоядерные процессоры эффективнее для работы с большим по объему задачами, которые работают не с одним ядром, а с несколькими одновременно.

27
Q

Билет №14

Алгоритм Томасуло. К чему приведёт многократное увеличение числа FU?

A

Многократное увеличение числа FU приведет к их простою (более 10 делать бессмысленно).

28
Q

Билет14

В чём суть закона Амдала?

A

При неограниченном числе процессоров ускорение составит 1/f, где f – доля последовательно части (ввод/вывод).
(из ответов)
T(n) – время исполнения программы на n процессорах
T(n)T(1), если накладные расходы (издержки) реализации параллельной версии
алгоритма чрезмерно велики
Ускорение за счёт параллельного выполнения. S(n) = T(1) / T(n)
Случай S(n)=n – линейное ускорение – масштабируемость алгоритма (возможность ускорения вычислений пропорционально числу процессоров)
Случай S(n) > n – суперлинейное ускорение (например, из-за большего коэффициента кеш-попаданий)
f – доля последовательной части программы
1-f – доля распараллеливаемой части программы

29
Q

Билет №15
Охарактеризуйте сопряжение алгоритма Томасуло с техникой предикатного исполнения
???????????????????????????????????
Почему ветви ROSC и CISC безжизненны?

A

Ветвь ROSK безжизненна т.к. извлечение данных при работе со стеками достаточно сложно. Для этого нужно все, что находится выше необходимого переместить в другой стек. Поэтому данная архитектура мало производительна.
Ветвь CISC безжизненна, т.к. главной особенностью архитектуры являются сложные машинные команды, которые разбиваются на микрокоманды. Эта дополнительная операция снижает скорость работы машины.

30
Q

Билет №16
Какими свойствами должен обладать алгоритм, ориентированный на использование вычислительной системы с распределённой памятью, в качестве узлов которой выступают SMP-компьютеры?

A

Задача должна быть достаточно больших объемов. Если задача слишком мала, то система будут дольше заниматься распределением работы и т.п. чем непосредственно задачей. Задача должна иметь маленькую последовательную часть и большую параллельную.

31
Q

Билет16

В каких случаях при статической конвейеризации межитерационные зависимости не препятствуют распараллеливанию циклов?

A

В случаях, когда межитерационные зависимости можно заменить на внутриитерационные.

32
Q

Билет №17
Есть две системы. У одной быстрые процессоры и медленные каналы связи, а у другой – медленные процессоры и быстрые каналы связи. В чём преимущества и недостатки каждой системы? Какая система имеет лучшую масштабируемость?

A

Первая будет иметь хорошую производительность, если не требуется больших пересылок между процессорами. Вторая система имеет хорошую производительность, если нагрузка на любой из процессоров невелика, а число пересылок большое.
Исходя из этого, первая система будет хуже работать, при условиях хорошей работы второй и наоборот. Имеют одинаковую масштабируемость.

33
Q

Билет17
Почему для наибольшего увеличения ILP необходимо одновременное применение статической конвейеризации и динамического планирования?

A

Статическое планирование позволяет убирать зависимость типа RAW and WAR, это делается программно. Оно выполняется, если на машине много памяти. Динамическое планирование убирает конфликты типа RAR и WAW, оно выполняется при недостатке ресурсов компьютера.

34
Q

Билет №18

На каком этапе эволюции отказались от принципов фон-неймановской архитектуры?

A

Переход от дискретных полупроводниковых элементов к интегральным схемам. Зарождение конвейеризации и суперскалярности (мелкозернистый параллелизм).

35
Q

Билет18

Алгоритм Томасуло. Каково типичное состояние (полное/пустое) окна команд?

A

Основная задача декодера – окно команд всегда полное.

36
Q

Билет №19

Охарактеризуйте роль эволюции ISA в развитии архитектур параллельных систем.

A

Развитие архитектуры системы команд привело к появлению более развитых команд, которые помогли обеспечить более высокие уровни параллелизма. Это в настоящее время привело к мультипроцессорным и мультикомпьютерным системам.

37
Q

Билет19

Что произошло с механизмом переименования регистров в IA-64?

A

Вращение регистров является в некотором роде частным случаем переименования регистров. Вращение регистров в IA-64 выполняется программно.

38
Q

Билет №20

Какова роль техники Code Morphing в эволюции ISA?

A

Программное обеспечение Code Morphing представляет собой динамическую систему трансляции: программу, которая компилирует команды набора одной архитектуры в собственную систему команд (преобразование кодовой последовательности из одного вида в другой).
Благодаря Code Morphing, все программы х86 и BIOS и ОС изолированы от аппаратного набора инструкций, поэтому изначальный набор инструкций процессора может быть изменен без всякого воздействия на ПО.

39
Q

билет20

При каких значениях Tc, Tl, Tb в целочисленной программе и FSB и конвейер Itanium 2 будут загружены на 100%?

A

Тс>Tl+Tb
Il=Tc Psd=1
Tc- время, тратящий процессор на вычисления.
Tl- задержка доступа к памяти.
Tb- время пересылки данных между памятью и процессором.
Il- длительность инструкции
Psd- вычисление оптимальной нагрузки на FSB.
Front Side Bus (FSB) — шина, обеспечивающая соединение между x86-совместимым центральным процессором и внутренними устройствами.

40
Q

Билет №21

Основное предназначение арифметики с насыщением вовсе не борьба с переполнениями?

A

В режиме насыщения результат операции, который выходит за границу размера данных насыщается до предельно возможного значения для используемого типа данных.

41
Q

Билет21

Сравните основные технологии распараллеливания операций высокого уровня: CMP, SMT и VLIW. Оцените масштабируемость.

A

SMT и CMP привели к аппаратной поддержке крупнозернистого параллелизма.
VLIW использует ILP. SMT использует TLP. CMP – параллелизм уровня заданий.
Масштабируемость – способность системы увеличивать свою производительность при добавлении ресурсов. CMP и SMT обладают большей масштабируемостью.

42
Q

Билет №22
Сопоставьте IA-32 и IA-64.???
Каковы преимущества и недостатки двух систем: 16-процессорной системы с общей памятью и 16-процессорного вычислительного кластера, построенных на базе одних и тех же процессоров?

A

SMP масштабируемость, т. к. при добавление новых процессоров они будут соперничать за память, что приведет к насыщению.
Очень удобно для программирования
Кластерные системы - распределение памяти между процессорами
Параллельное обращение к начальной памяти
Уменьшить задержку обращений к памяти

43
Q

Билет №23
Сопоставьте встроенный в IA-64 механизм предвыборки данных с механизмом предвыборки, используемым контроллером RAM (северным мостом).

A

Предвыборка исп. контроллером RAM блок предвыборки данных (Prefetch) - встроенная схема анализа доступа к данным решает, что к некому участку памяти, ещё не загруженному в неё, скоро будет осуществлён доступ - он даёт команду на загрузку данного участка ещё до того, как он понадобится в исполняемой программе. При ошибке загружаемые ненужные данные могут вытеснить нужные. А механизм предвыборки в IA-64 выполняет спекуляцию по данным - т.е. загрузку всего что может понадобиться программе до начала её выполнения. При этом загружается больше ненужных данных, чем в первом случае.

44
Q

Билет23

В каких случаях целесообразнее использовать однопоточный режим многопоточного суперскалярного процессора?

A

В случае экономии энергии. Когда программа старая и плохо распараллеливается нет никакого смысла тратить на это время с многопоточным режимом. Когда выполняется очень маленькое кол-во программ, которые быстрее выполняются в одиночном режиме.

45
Q

Билет №24

Какие преимущества имеет классическая многопоточность над конвейерной многопоточностью?

A

Классическая многопоточность скрывает все источники вертикальных потерь. Более простая аппаратная реализация т.к. в конвейерной каждый поток конкурирует за каждый слот выдачи каждый такт, в классической только один поток выдает инструкции каждый такт.

46
Q

Билет25

Почему XMM регистров (x86) ровно восемь?

A

Используются 3 бита в байте MOD R/M (микропроцессор использует байт MODR/M для адресации почти всех операндов). Последние 3 бита в байте MOD R/M определяют форму адресации операнда, при адресации используется 8 различных комбинаций регистров, поэтому в XMM регистров ровно 8.

47
Q

Билет №25

В чём отличие конвейерной многопоточности с политикой выборки Round Robin от классической тонкой многопоточности?

A

Классическая тонкая многопоточность: только один поток выдает инструкции каждый такт
RR – выборка по регулярному графику;
RR 1.8 каждый такт из одного потока выбирается до восьми инструкций.

48
Q

Билет25

Чем отличается архитектура EPIC от классической архитектуры VLIW?

A

Концепция реализации параллелизма на уровне команд (Explicitly Parallel Instruction Computing) определяет новый тип архитектуры, способной конкурировать по масштабам влияния с RISC. Эта идеология направлена на то, чтобы упростить аппаратное обеспечение и, в то же время, извлечь как можно больше «скрытого параллелизма» на уровне команд, используя большую ширину «выдачи» команд (WIW - Wide Issue-Width) и длинные (глубокие) конвейеры с большой задержкой (DPL — Deep Pipeline-Latency), чем это можно сделать при реализации VLIW или суперскалярных стратегий. EPIC упрощает два ключевых момента, реализуемых во время выполнения:
Во-первых, его принципы позволяют во время исполнения отказаться от проверки зависимостей между операциями, которые компилятор уже объявил, как независимые.
Во-вторых, данная архитектура позволяет отказаться от сложной логики внеочередного исполнения операций, полагаясь на порядок выдачи команд, определенный компилятором.
Более того, EPIC совершенствует возможность компилятора статически генерировать планы выполнения за счет поддержки разного рода перемещений кода во время компиляции, которые были бы некорректными в последовательной архитектуре.
EPIC разработан именно для того, чтобы обеспечить более высокую степень параллелизма на уровне команд, поддерживая при этом приемлемую сложность аппаратного обеспечения. Более высокая производительность достигается как за счет увеличения скорости передачи сигналов, так и благодаря увеличению плотности расположения функциональных устройств на кристалле.

49
Q

Билет №26

Какие штрафы наиболее тяжело скрываются в конвейерной многопоточности?

A

Производительность ограничена ILP в каждом отдельном потоке.

50
Q

Билет 26

Почему MMX регистров (x86) ровно восемь?

A

MMX-команды являются естественным дополнением основной системы команд микропроцессора. Основным принципом их работы является одновременная обработка нескольких единиц однотипных данных одной командой. Основа аппаратной компоненты – 8 MMX регистров, каждый размером в 64 бита = 8 байт. MMX работает только с целыми числами; поддерживаются данные размером в 1, 2, 4 или 8 байт. То есть, один MMX регистр может содержать 8, 4, 2 или 1 операнд соответственно.

51
Q

Билет26

Опишите достоинства и недостатки схемы gshare в сравнении со схемами GAp

A

Достоинства gshare:
+ более точные предсказания, коэффициент попадания выше;
+ более экономично, одна таблица второго уровня;
+ сравнительно невысокое время доступа;
Недостатки gshare:
- с коллизией предсказания ухудшаются;
- размер глобальной истории предсказателя gshare ограничен до логарифма от количества счетчиков.

52
Q

Билет №27
Разные процессоры IA-64 могут содержать разное количество функциональных устройств, оставаясь при этом совместимыми по коду. Укажите недостатки такой масштабируемости IA-64.

A

При увеличении кол-ва функциональный устройств, превышающих кол-во выполняемых команд за один такт процессора, производительность не станет увеличиваться т.к. некоторые функциональные устройства не будут использоваться.
Потому что именно циклы в развертке имеют наибольший БПИ (базовый поток инструкций).

53
Q

Билет27

Почему превалирующее внимание при проведении статической конвейеризации сосредоточено на оптимизации циклов?

A

Потому что именно циклы в развертке имеют наибольший БПИ (базовый поток инструкций).

54
Q

Билет27

Какое соотношение между объёмами памяти на различных уровнях иерархии характерно для современных SMP-компьютеров?

A

Иерархия отсутствует. Все процессоры в SMP идентичны с точки зрения доступа к памяти.