архитектура параллельных вычислений. АПВ УМКД+++. Учебнометодический комплекс дисциплины csse 43057 Паралелльные и облачные вычисления
Скачать 1 Mb.
|
Контрольные вопросы: Сети межсоединений могут состоять? Топология сети межсоединений определяет? Каналы связи? Коммутаторы? Литература: Кудин А.В., Линёв А.В., Архитектура и операционные системы параллельных вычислительных систем. Нижний Новогород, 2007. 73с. El-Rewini H. Abd-El-Barr M. Advanced Computer Architecture and Parallel Proccesing. Wiley-Interscience, 2005. Dubois M., Annavaram M., Stenstrom P. Parallel Computer Organization and Design, Cambridge University Press, UK, 2010. Xingfu Wu, Performance Evaluation, Prediction and Visualization of Parallel Systems, Springer Science & Business Media, 2012. 319 c. Лекция №3 Анализ и метрики производительности сетей межсоединения. Производительность. Ускорение, меры эффективности и контрольные показатели План лекции: Анализ и метрики производительности сетей межсоединения Ускорение, меры эффективности и контрольные показатели Метрика аппаратного обеспечения Мультипроцессоры Все процессоры (P) системы разделяют общую физическую память, поэтому мультипроцессор называют еще системой с совместно используемой памятью. Все работающие процессы могут разделять одно виртуальное адресное пространство, отображенное в общую память. Любой процесс может считывать слово из памяти или записывать слово в память (LOAD и STORE). Два процесса могут обмениваться информацией: один записывает данные в память, а другой – считывает эти данные. Каждый из 16 процессоров запускает один процесс, который обрабатывает одну из 16 секций. Некоторые объекты могут обрабатываться несколькими процессами, поэтому в конце потребуется некоторая координация. Примеры мультипроцессоров: Sun Enterprise 10000, HP/Convex Exemplar. Мультикомпьютеры В мультикомпьютере каждый процессор (P) имеет свою собственную память (M), доступную только этому процессору, поэтому такая модель обработки называется еще системой с распределенной памятью. Мультикомпьютеры обычно (но не всегда!) являются системами со слабой связью. Каждый процессор в мультикомпьютере может обращаться только к своей локальной памяти, т.е. имеется отдельное физическое адресное пространство для каждого центрального процессора. Для организации взаимодействия процессоры посылают друг другу сообщения, используя сеть межсоединений. Примеры мультикомпьютеров: IBM Sequoia, Titan, COW. Программное обеспечение мультикомпьютера имеет более сложную структуру, чем ПО мультипроцессора. Основная проблема – правильное разделение данных и удачное их размещение. В мультипроцессоре размещение частей данных не влияет на правильность выполнения задачи, хотя может повлиять на производительность. Мультикомпьютеры по сравнению с мультипроцессорами очень сложно программировать, однако, гораздо проще строить. Это привело к тому, что практически все исследования в области архитектур с параллельной обработкой направлены на создание гибридных форм, которые сочетают в себе преимущества обеих архитектур Основные факторы, влияющие на скорость работы ВС со стороны аппаратного обеспечения – скорости работы процессоров, устройств ввода-вывода и сети межсоединений. Т.к. скорости работы процессоров и УВВ такие же, как и в однопроцессорной машине, для параллельной системы важнейшим звеном является производительность межсоединений. Основные параметры, рассматриваемые при этом: 1) время ожидания; 2) пропускная способность. Полное время ожидания – это время, которое требуется на то, чтобы процессор отправил пакет и получил ответ. Если пакет посылается в память, то время ожидания – это время, которое требуется на чтение и запись слова или блока слов. Если пакет посылается другому процессору, то время ожидания – это время, которое требуется на межпроцессорную связь для пакетов данного размера (обычно передача ведется пакетами минимального размера – по одному слову или по одной строке кэш-памяти). Минимально возможное время ожидания для передачи пакета размером в р бит в одну сторонув секундах составляет: T = Ts + 2p/b где b – пропускная способность сети; Ts – время установки (высылаются пробные пакеты, резервируются ресурсы и т.д.). Для пропускной способности принято различать: 1) Пропускную способность между двумя секциями (см. выше бисекционная пропускная способность). 2) Суммарную пропускную способность (сумма пропускных способностей всех каналов связи. Показывает максимальное число битов, которое можно передать сразу. 3) Среднюю пропускную способность каждого процессора. На практике приходится искать компромисс: достижение маленького времени ожидания обеспечивается передачей маленьких пакетов (большие надолго блокируют линии и коммутаторы). Однако, использование малых пакетов сильно увеличивает количество передаваемой служебной информации. Обычно вначале стараются уменьшить время ожидания, а после этого пытаются увеличить пропускную способность. Один из важнейших параметров при создании параллельных архитектур – расширяемость. Расширяемой называют систему, к которой можно добавлять процессорные элементы, получая при этом повышение производительности. Однако, простое увеличение количества ПЭ не всегда дает прирост вычислительной мощности. Пусть, например, есть система с шинной топологией: Если общая пропускная способность шины составляет b Mb/s, то для каждого из процессоров обмен будет возможен со скоростью b/4. При увеличении количества процессоров в 4 раза: пропускная способность каждого процессора составит b/16, т.е. такая система не является расширяемой. Если воспользоваться, например топологией решетка, то добавление новых процессоров сопровождается добавлением новых каналов связи. Поэтому пропускная способность для каждого процессора увеличивается. Отношение количества каналов к количеству процессоров для случая а составляет 4/4 = 1. Для случая б, соответственно: 24/16 = 1,5. Однако, добавление процессоров к шине не увеличивает диаметр сети или время ожидания приотсутствии трафика, а добавление процессоров к решетке – увеличивает. Диаметр решетки nхn равен 2(n –1), поэтому в худшем случае время ожидания растет примерно как квадратный корень от числа процессоров. Для 400 процессоров диаметр равен 38, а для 1600 процессоров – 78, поэтому если увеличить число процессоров в 4 раза, то диаметр, а следовательно, и среднее время ожидания вырастут приблизительно вдвое. Контрольные вопросы: Мультипроцессор? Мультикомпьютер? Полное время ожидания ? Минимально возможное время ожидания ? Литература: Кудин А.В., Линёв А.В., Архитектура и операционные системы параллельных вычислительных систем. Нижний Новогород, 2007. 73с. El-Rewini H. Abd-El-Barr M. Advanced Computer Architecture and Parallel Proccesing. Wiley-Interscience, 2005. Dubois M., Annavaram M., Stenstrom P. Parallel Computer Organization and Design, Cambridge University Press, UK, 2010. Xingfu Wu, Performance Evaluation, Prediction and Visualization of Parallel Systems, Springer Science & Business Media, 2012. 319 c. Лекция №4. Вычислительные модели для мультипроцессорных систем. Высокопроизводительные процессоры. Векторные процессоры. Кэширование. VLIW процессоры. План лекции: Вычислительные системы для мультипроцессорных систем. Векторные процессоры. Способность выполнения нескольких машинных инструкций за один такт процессора путем увеличения числа исполнительных устройств. Появление этой технологии привело к существенному увеличению производительности, в то же время существует определенный предел роста числа исполнительных устройств, при превышении которого производительность практически перестает расти, а исполнительные устройства простаивают. Частичным решением этой проблемы являются, например, технология Hyper-threading. |