Главная страница
Навигация по странице:

  • Массивно-параллельные системы (MPP) Архите ктура

  • Приме ры IBM RS/6000 SP2, Intel PARAGON/ASCI Red, SGI/CRAY T3E, Hitachi SR8000, транспьютерные системы ParsytecМасшт абируемос

  • Модел ь программ ирования Программирование в рамках модели передачи сообщений

  • Системы с неоднородным доступом к памяти (NUMA) Архите ктура

  • Опера ционная система

  • Модел ь программ ирования Аналогично SMPПараллельные векторные системы (PVP) Архите ктура

  • Приме ры NEC SX-4/SX-5, линия векторно-конвейерных компьютеров CRAY: от CRAY-1, CRAY J90/T90, CRAY SV1, серия Fujitsu VPPМодел ь

  • Кластерные системы Архит ектура

  • Приме ры NT-кластер в NCSA, Beowulf-кластеры. Опера ционная система

  • Модел ь программ ирования

  • Denelcor HEP (Heterogeneous Element Processor)

  • C.mpp Содержит до 16 машин типа DEC PDP-11, связанных с 16 модулями памяти через перекрестный переключатель размерности 16x16. PASM (Partitioned SIMD/MIMD computer)

  • PEPE (Parallel Element Processor Ensemble)

  • Архитектура ЭВМ и систем (конспект лекций). Архитектура эвм и систем


    Скачать 1.88 Mb.
    НазваниеАрхитектура эвм и систем
    Дата09.09.2022
    Размер1.88 Mb.
    Формат файлаpdf
    Имя файлаАрхитектура ЭВМ и систем (конспект лекций).pdf
    ТипЛекция
    #669002
    страница11 из 11
    1   2   3   4   5   6   7   8   9   10   11
    Основные классы современных параллельных компьютеров
    MPP, SMP, NUMA, PVP, кластеры.
    Введение. Основным параметром классификации параллельных компьютеров является наличие общей (SMP) или распределенной памяти (MPP). Нечто среднее между SMP и MPP представляют собой NUMA-архитектуры, где память физически распределена, но логически общедоступна. Кластерные системы являются более дешевым вариантом MPP. При поддержке команд обработки векторных данных говорят о векторно-конвейерных процессорах, которые, в свою очередь могут объединяться в PVP-системы с использованием общей или распределенной памяти. Все большую популярность приобретают идеи комбинирования различных архитектур в одной системе и построения неоднородных систем.
    При организациях распределенных вычислений в глобальных сетях (Интернет) говорят о мета-компьютерах, которые, строго говоря, не представляют из себя параллельных архитектур.
    Подробно рассмотрим особенности всех перечисленных архитектур, а также в описаниях конкретных компьютеров - представителей этих классов. Для каждого класса приводится следующая информация:

    краткое описание особенностей архитектуры,

    примеры конкретных компьютеров,

    перспективы масштабируемости,

    типичные особенности построения операционных систем,

    наиболее характерная модель программирования (хотя возможны и другие).
    Рассмотрим наиболее типичные классы архитектур современных параллельных компьютеров и супер-ЭВМ.

    66
    Массивно-параллельные системы (MPP)
    Архите
    ктура
    Система состоит из однородных вычислительных узлов, включающих:

    один или несколько центральных процессоров (обычно RISC),

    локальную память (прямой доступ к памяти других узлов невозможен),

    коммуникационный процессор или сетевой адаптер

    иногда - жесткие диски (как в SP) и/или другие устройства В/В
    К системе могут быть добавлены специальные узлы ввода-вывода и управляющие узлы. Узлы связаны через некоторую коммуникационную среду (высокоскоростная сеть, коммутатор и т.п.)
    Приме
    ры
    IBM RS/6000
    SP2
    , Intel PARAGON/ASCI Red, SGI/CRAY
    T3E
    , Hitachi
    SR8000
    , транспьютерные системы
    Parsytec
    Масшт
    абируемос
    ть
    Общее число процессоров в реальных системах достигает нескольких тысяч (ASCI Red, Blue Mountain).
    Операц
    ионная
    система
    Существуют два основных варианта:
    6. Полноценная ОС работает только на управляющей машине (front-end), на каждом узле работает сильно урезанный вариант ОС, обеспечивающие только работу расположенной в нем ветви параллельного приложения. Пример: Cray T3E.
    7. На каждом узле работает полноценная UNIX-подобная ОС (вариант, близкий к кластерному подходу). Пример: IBM RS/6000 SP + ОС AIX, устанавливаемая отдельно на каждом узле.
    Модел
    ь
    программ
    ирования
    Программирование в рамках модели передачи сообщений (
    MPI
    ,
    PVM
    ,
    BSPlib
    )
    Симметричные мультипроцессорные системы (SMP)
    Архите ктура
    Система состоит из нескольких однородных процессоров и массива общей памяти (обычно из нескольких независимых блоков). Все процессоры имеют доступ к любой точке памяти с одинаковой скоростью. Процессоры подключены к памяти либо с помощью общей шины (базовые 2-4 процессорные SMP-сервера), либо с помощью crossbar-коммутатора (HP
    9000). Аппаратно поддерживается когерентность кэшей.
    Пример ы
    HP 9000 V-class, N-class; SMP-cервера и рабочие станции на базе процессоров Intel (IBM, HP, Compaq, Dell, ALR, Unisys, DG, Fujitsu и др.).
    Масшта бируемост ь
    Наличие общей памяти сильно упрощает взаимодействие процессоров между собой, однако накладывает сильные ограничения на их число - не более 32 в реальных системах. Для построения масштабируемых систем на базе SMP используются кластерные или NUMA-архитектуры.
    Операц ионная система
    Вся система работает под управлением единой ОС (обычно UNIX- подобной, но для Intel-платформ поддерживается Windows NT). ОС автоматически (в процессе работы) распределяет процессы/нити по процессорам (scheduling), но иногда возможна и явная привязка.
    Модель программи рования
    Программирование в модели общей памяти. (POSIX threads, OpenMP).
    Для SMP-систем существуют сравнительно эффективные средства автоматического распараллеливания.

    67
    Системы с неоднородным доступом к памяти (NUMA)
    Архите
    ктура
    Система состоит из однородных базовых модулей (плат), состоящих из небольшого числа процессоров и блока памяти. Модули объединены с помощью высокоскоростного коммутатора. Поддерживается единое адресное пространство, аппаратно поддерживается доступ к удаленной памяти, т.е. к памяти других модулей. При этом доступ к локальной памяти в несколько раз быстрее, чем к удаленной.
    В случае, если аппаратно поддерживается когерентность кэшей во всей системе (обычно это так), говорят об архитектуре cc-NUMA (cache-coherent
    NUMA)
    Приме
    ры
    HP
    HP 9000 V-class в SCA-конфигурациях, SGI
    Origin2000
    , Sun
    HPC
    10000
    , IBM/Sequent
    NUMA-Q 2000
    , SNI
    RM600
    Масшт
    абируемос
    ть
    Масштабируемость NUMA-систем ограничивается объемом адресного пространства, возможностями аппаратуры поддежки когерентности кэшей и возможностями операционной системы по управлению большим числом процессоров. На настоящий момент, максимальное число процессоров в
    NUMA-системах составляет 256 (Origin2000).
    Опера
    ционная
    система
    Обычно вся система работает под управлением единой ОС, как в
    SMP
    . Но возможны также варианты динамического "подразделения" системы, когда отдельные "разделы" системы работают под управлением разных ОС
    (например, Windows NT и UNIX в NUMA-Q 2000).
    Модел
    ь
    программ
    ирования
    Аналогично
    SMP
    Параллельные векторные системы (PVP)
    Архите
    ктура
    Основным признаком PVP-систем является наличие специальных векторно-конвейерных процессоров, в которых предусмотрены команды однотипной обработки векторов независимых данных, эффективно выполняющиеся на конвейерных функциональных устройствах.
    Как правило, несколько таких процессоров (1-16) работают одновременно над общей памятью (аналогично
    SMP
    ) в рамках многопроцессорных конфигураций. Несколько таких узлов могут быть объединены с помощью коммутатора (аналогично
    MPP
    ).
    Приме_ры_NEC_SX-4/SX-5,_линия_векторно-конвейерных_компьютеров_CRAY:_от_CRAY-1,_CRAY_J90/T90,_CRAY_SV1,_серия_Fujitsu_VPPМодел_ь'>Приме
    ры
    NEC SX-4/
    SX-5
    , линия векторно-конвейерных компьютеров CRAY: от
    CRAY-1, CRAY J90/
    T90
    ,
    CRAY SV1
    , серия Fujitsu
    VPP
    Модел
    ь
    программ
    ирования
    Эффективное программирование подразумевает векторизацию циклов
    (для достижения разумной производительности одного процессора) и их распараллеливание (для одновременной загрузки нескольких процессоров одним приложением).
    Кластерные системы
    Архит
    ектура
    Набор рабочих станций (или даже ПК) общего назначения, используется в качестве дешевого варианта массивно-параллельного компьютера. Для связи узлов используется одна из стандартных сетевых технологий (Fast/Gigabit

    68
    Ethernet, Myrinet) на базе шинной архитектуры или коммутатора.
    При объединении в кластер компьютеров разной мощности или разной архитектуры, говорят о гетерогенных (неоднородных) кластерах.
    Узлы кластера могут одновременно использоваться в качестве пользовательских рабочих станций. В случае, когда это не нужно, узлы могут быть существенно облегчены и/или установлены в стойку.
    Приме
    ры
    NT-кластер в NCSA,
    Beowulf
    -кластеры.
    Опера
    ционная
    система
    Используются стандартные для рабочих станций ОС, чаще всего, свободно распространяемые - Linux/FreeBSD, вместе со специальными средствами поддержки параллельного программирования и распределения нагрузки.
    Модел
    ь
    программ
    ирования
    Программирование, как правило, в рамках модели передачи сообщений
    (чаще всего -
    MPI
    ). Дешевизна подобных систем оборачивается большими накладными расходами на взаимодействие параллельных процессов между собой, что сильно сужает потенциальный класс решаемых задач.
    Рассмотрим устаревшие и проектируемые архитектуры.
    Denelcor HEP (Heterogeneous Element Processor)
    Данный компьютер считается первой коммерчески доступной вычислительной системой с множественным потоком команд. В своей полной конфигурации Denelcor HEP содержит 16 процессорных модулей (Process Execution Module - PEM), через многокаскадный переключатель связанных со 128 модулями памяти данных (Data Memory Module - DMM). Все процессорные модули могут работать независимо друг от друга со своими потоками команд. В свою очередь каждый процессорный модуль может поддерживать до 50 потоков команд пользователей. На уровне процессорного модуля множественность потоков команд обеспечивается одним восьмиуровневым конвейерным устройством для обработки команд. На каждой ступени конвейера должны находиться команды из разных потоков. Следовательно, скорость вычислений увеличивается с увеличением количества потоков команд, пока конвейер не будет заполнен. После заполнения конвейера эта величина остается постоянной.
    C.mpp
    Содержит до 16 машин типа DEC PDP-11, связанных с 16 модулями памяти через перекрестный переключатель размерности 16x16.
    PASM (Partitioned SIMD/MIMD computer)
    Содержит до N=2
    n процессорных элементов, каждый из которых содержит свое устройство обработки данных и модуль памяти из двух блоков. Все процессорные элементы между собой связываются через многокаскадный переключатель. Отличительной особенностью этой архитектуры является возможность динамически менять свою конфигурацию в зависимости от прикладных задач. Система может быть сконфигурирована либо как SIMD, либо как MIMD компьютер. Кроме локальной памяти, каждый процессорный элемент имеет доступ к общей памяти.
    PRINGLE
    Это вычислительная система типа MIMD с распределенной памятью, состоящая из 64 процессорных элементов (ПЭ). Каждый ПЭ содержит 8-разряд\-ный микропроцессор Intel 8031 с 32--разрядным сопроцессором Intel 8231 и локальную память объемом 2 Кбайта. В качестве контроллера используется 16-разрядный микропроцессор Intel 8086. Связь процессорных элементов осуществляется через общую шину.
    lCAP (loosely Coupled Array Processors
    Данная система состоит из нескольких машин FPS 164, которые контролируются одной управляющей машиной. В демонстрационных образцах было использовано семь FPS 164, каждая из которых имела по 4 Мбайта основной памяти. Управляющей машиной служила IBM
    4381.

    69
    Cm*
    Основной компонентой этой системы является "вычислительный модуль", состоящий из микропроцессора DEC LSI-11 с 64Мбайтами dynamic MOS memory. Данный модуль может работать как отдельный компьютер. В то же время до 14 таких модулей могут быть подключены к шине (intracluster bus), формируя таким образом сильносвязанную систему
    (кластер - tightly-coupled cluster). Внутри этого кластера передача данных происходит путем прямого доступа к памяти. Построенные таким образом кластеры можно связать в более сложную систему через две соединяющие кластеры шины (intercluster buses). При этом получается слабо связанная сеть (loosely-coupled network), в которой обмен данными происходит путем коммутации пакетов (packet switching techniques).
    CEDAR
    В состав системы входит шестнадцать кластеров по восемь процессорных элементов (ПЭ) в каждом. Кластеры связаны через расширенную сеть типа Omega (extended Omega global switching network) с 256 модулями глобальной памяти. Каждый модуль памяти имеет объем от
    4 до 16 мегаслов. Процессорные элементы, составляющие кластер, имеют по 16 мегаслов локальной памяти. Все процессорные элементы конвейерного типа и связаны между собой через локальную коммутационную сеть (local switching network).
    STARAN
    В ее состав входят четыре матричных модуля, управляемых последовательной машиной
    PDP-11. Каждый модуль содержит 256 ПЭ и общую память емкостью от 64 Кбит до 64 Мбит.
    Связь между ПЭ и памятью осуществляется через гибкую коммутационную сеть.
    PEPE (Parallel Element Processor Ensemble)
    Это система из 288 ПЭ с низкой степенью связности. Каждый процессорный элемент содержит по три процессора (каждый процессор предназначался для выполнения определенной функции, связанной с задачей радиолокации), управляемых в синхронном режиме тремя устройствами управления (по одному на каждый тип процессора в ПЭ). Эти три устройства управления подключались к трем стандартным каналам ввода-вывода машины CDC 7600, которая была главной для всей системы. Связь между ПЭ осуществлялась через блоки памяти устройств управления.
    PRIME
    Система состоит из пяти процессоров. Каждый процессор через матричный коммутатор имеет доступ к блокам памяти (количество блоков варьируется от одного и более). Через сеть внешнего доступа процессоры соединяются с памятью на внешних носителях и устройствами ввода--вывода. В каждый момент времени некоторый процессор с памятью работает как управляющий процессор (монитор), регулируя активность остальных рабочих процессоров.
    1   2   3   4   5   6   7   8   9   10   11


    написать администратору сайта