решетки виртуальных процессоров.

6.2.5. Асинхронная спецификация независимых ссылок типа SHADOW

Обновление значений в теневых гранях, описанное в разделе 6.2.2, является неделимой (синхронной) операцией обмена для неименованной группы распределенных массивов. Эту операцию можно разделить на две операции:

·  запуск обмена,

·  ожидание значений.

На фоне ожидания значений теневых граней можно выполнять вычисления, в частности, вычисления на внутренней области локальной секции массива.

Асинхронное обновление теневых граней для именованной группы распределенных массивов описывается следующими директивами.

Определение группы.

shadow-group-directive

is SHADOW_GROUP shadow-group-name ( renewee-list )

Запуск обновления теневых граней.

shadow-start-directive

is SHADOW_START shadow-group-name

Ожидание значений теневых граней.

shadow-wait-directive

is SHADOW_WAIT shadow-group-name

Директива SHADOW_START должна выполняться после директивы SHADOW_GROUP. После выполнения директивы SHADOW_GROUP директивы SHADOW_START и SHADOW_WAIT могут выполняться многократно. Новые значения в теневых гранях могут использоваться только после выполнения директивы SHADOW_WAIT.

Особым вариантом является использование директив SHADOW_START и SHADOW_WAIT в спецификации shadow-renew-clause параллельного цикла.

Синтаксис спецификации shadow-renew-clause расширен следующим образом:

shadow-renew-clause

is. . .

or shadow-start-directive

or shadow-wait-directive

Если в спецификации указана директива SHADOW_START, то на каждом процессоре производится опережающее вычисление значений, пересылаемых в теневые грани других процессоров. После этого производится обновление теневых граней и вычисление на внутренней области локальной секции массива (см. рис.6.2.).

НЕ нашли? Не то? Что вы ищете?

Если в спецификации указана директива SHADOW_WAIT, то производится опережающее вычисление значений во внутренней области локальной секции массива. После завершения ожидания новых значений своих теневых граней выполняются вычисления, использующие эти значения.

Пример 6.8. Совмещение счета и обновления теневых граней.

REAL A(100,100), B(100,100), C(100,100), D(100,100)

CDVM$ ALIGN ( I, J ) WITH C( I, J ) :: A, B, D

CDVM$ DISTRIBUTE ( BLOCK, BLOCK ) :: C

. . .

CDVM$ SHADOW_GROUP AB ( A, B )

. . .

CDVM$ SHADOW_START AB

. . .

CDVM$ PARALLEL ( I, J ) ON C ( I, J ), SHADOW_WAIT AB

DO 10 I = 2, 99

DO 10 J = 2, 99

C(I, J) = (A(I-1,J) + A(I+1,J) + A(I, J-1) + A(I, J+1) ) / 4

D(I, J) = (B(I-1,J) + B(I+1,J) + B(I, J-1) + B(I, J+1) ) / 4

10 CONTINUE

Распределенные массивы по умолчанию имеют теневые грани в 1 элемент по каждому измерению. Т. к. в спецификации параллельного цикла указана директива SHADOW_WAIT, то изменяется порядок выполнения витков цикла. Сначала будут выполняться вычисления на внутренней области каждой локальной секции массива, затем выполнится директива ожидания новых значений теневых граней. Выполнение цикла завершается вычислением значений пересылаемых в теневые грани.

6.3. Удаленные ссылки типа REMOTE

6.3.1. Директива REMOTE_ACCESS

Удаленные ссылки типа REMOTE специфицируются директивой REMOTE_ACCESS.

remote-access-directive

is REMOTE_ACCESS

( [ remote-group-name : ] regular-reference-list )

regular-reference

is dist-array-name [( regular-subscript-list )]

regular-subscript

is int-expr

or do-variable-use

or :

remote-access-clause

is remote-access-directive

Директива REMOTE_ACCESS может быть отдельной директивой (область действия - следующий оператор) или дополнительной спецификацией в директиве PARALLEL (область действия – тело параллельного цикла).

Если удаленная ссылка задается как имя массива без списка индексов, то все ссылки на этот массив в параллельном цикле (операторе) являются удаленными ссылками типа REMOTE.

Рассмотрим удаленную ссылку на многомерный распределенный массив

A( ind1, ind2,…,indk )

Пусть indj – индексное выражение по j-ому измерению.

В директиве REMOTE_ACCESS индексное выражение указывается без изменений, если

·  j-ое измерение является распределенным измерением,

·  indj = a * i + b, где a и b не изменяются в процессе выполнения цикла (инварианты).

Во всех остальных случаях в директиве REMOTE_ACCESS вместо indj указывается “:” (все измерение).

6.3.2. Синхронная спецификация удаленных ссылок типа REMOTE

Если в директиве REMOTE_ACCESS не указано имя группы (remote-group-name), то выполнение такой директивы происходит в синхронном режиме. В пределах нижестоящего оператора или параллельного цикла компилятор заменяет все вхождения удаленной ссылки ссылкой на буфер. Пересылка удаленных данных производится перед выполнением оператора или цикла.

Пример 6.9. Синхронная спецификация удаленных ссылок типа REMOTE.

DIMENSION A(100,100), B(100,100)

CDVM$ DISTRIBUTE (*,BLOCK) :: A

CDVM$ ALIGN B( I, J ) WITH A( I, J )

. . .

CDVM$ REMOTE_ACCESS ( A(50,50) )

С замена ссылки A(50,50) ссылкой на буфер

С рассылка значения A(50,50) по всем процессорам

1 X = A(50,50)

. . .

CDVM$ REMOTE_ACCESS ( B(100,100) )

С пересылка значения В(100,100) в буфер процессора own(A(1,1)

2 A(1,1) = B(100,100)

. . .

CDVM$ PARALLEL (I, J) ON A(I, J) , REMOTE_ACCESS ( B(:,N) )

С рассылка значений B(:,N) по процессорам own(A(:,J))

3 DO 10 I = 1, 100

DO 10 J = 1, 100

10 A(I, J) = B(I, J) + B(I, N)

Первые две директивы REMOTE_ACCESS специфицируют удаленные ссылки для отдельных операторов. REMOTE_ACCESS в параллельном цикле специфицирует удаленные данные (столбец матрицы) для всех процессоров, на которые распределен массив А.

6.3.3. Асинхронная спецификация удаленных ссылок типа REMOTE

Если в директиве REMOTE_ACCESS указано имя группы (remote-group-name), то выполнение директивы происходит в асинхронном режиме. Для спецификации этого режима необходимы следующие дополнительные директивы.

Описание имени группы.

remote-group-directive

is REMOTE_GROUP remote-group-name-list

Идентификатор, определенный этой директивой, может использоваться только в директивах REMOTE_ACCESS, PREFETCH и RESET. Группа remote-group представляет собой глобальный объект, областью действия которого является вся программа.

prefetch-directive

is PREFETCH remote-group-name

reset-directive

is RESET remote-group-name

Рассмотрим следующую типовую последовательность асинхронной спецификации удаленных ссылок типа REMOTE.

CDVM$ REMOTE_GROUP RS

10 . . .

CDVM$ PREFETCH RS

. . .

C вычисления, в которых не участвуют удаленные ссылки r1 , …,rn

. . .

CDVM$ PARALLEL . . . , REMOTE_ACCESS (RS : r1)

. . .

CDVM$ REMOTE_ACCESS (RS : ri)

. . .

CDVM$ PARALLEL . . . , REMOTE_ACCESS (RS : rn)

. . .

IF( P ) GO TO 10

При первом прохождении указанной последовательности операторов директива PREFETCH не выполняется. Директивы REMOTE_ACCESS выполняется в обычном синхронном режиме. При этом происходит накопление ссылок в переменной RS. После выполнения всей последовательности директив REMOTE_ACCESS значение переменной RS равно объединению подгрупп удаленных ссылок ri È ...È rn.

При втором и последующих прохождениях директива PREFETCH осуществляет упреждающую пересылку удаленных данных для всех ссылок, составляющих значение переменной RS. После директивы PREFETCH и до первой директивы REMOTE_ACCESS с тем же именем группы можно выполнять другие вычисления, которые перекрывают ожидание обработки удаленных ссылок. При этом директивы REMOTE_ACCESS никакой пересылки данных уже не вызывают.

Ограничения.

·  Повторное выполнение директивы PREFETCH является корректным только в том случае, когда характеристики группы удаленных ссылок (параметры циклов, распределения массивов и значения индексных выражений в удаленных ссылках) не меняются.

·  Директиву PREFETCH можно выполнять для нескольких циклов (нескольких директив REMOTE_ACCESS), если между этими циклами не существует зависимости по данным для распределенных массивов, указанных в директивах REMOTE_ACCESS .

Если характеристики группы удаленных ссылок изменились, то необходимо присвоить неопределенное значение группе удаленных ссылок с помощью директивы RESET, после чего будет происходить новое накопление группы удаленных ссылок.

Рассмотрим следующий фрагмент многообластной задачи. Область моделирования разделена на 3 подобласти, как показано на рис.6.6.

M

N1

A1

D

N2

A2

A3

M1

M2

Рис.6.6. Разделение области моделирования.

Пример 6.10. Использование группы регулярных удаленных ссылок.

REAL A1(M, N1+1), A2(M1+1,N2+1), A3(M2+1,N2+1)

CDVM$ DISTRIBUTE ( BLOCK, BLOCK) :: A1, A2, A3

CDVM$ REMOTE_GROUP RS

DO 1 ITER = 1, MIT

. . .

C обмен границами по линии раздела D

CDVM$ PREFETCH RS

. . .

CDVM$ PARALLEL ( I ) ON A1 ( I, N1+1 ), REMOTE_ACCESS ( RS: A2(I,2))

DO 10 I = 1, M1

10 A1(I, N1+1) = A2(I,2)

CDVM$ PARALLEL ( I ) ON A1 ( I, N1+1 ), REMOTE_ACCESS ( RS: A3(I-M1,2))

DO 20 I = M1+1, M

20 A1(I, N1+1) = A3(I-M1,2)

CDVM$ PARALLEL ( I ) ON A2 ( I, 1 ), REMOTE_ACCESS ( RS: A1(I, N1))

DO 30 I = 1, M1

30 A2(I,1) = A1(I, N1)

CDVM$ PARALLEL ( I ) ON A3 ( I, 1 ), REMOTE_ACCESS ( RS: A1(I+M1,N1))

DO 40 I = 1, M2

40 A3(I,1) = A1(I+M1,N1)

. . .

IF (NOBLN) THEN

C перераспределение массивов с целью балансировки загрузки

. . .

CDVM$ RESET RS

END IF

. . .

1 CONTINUE

6.3.4. Асинхронное копирование по ссылкам типа REMOTE

Если в параллельном цикле содержатся только операторы присваивания без вычислений, то доступ по ссылкам типа REMOTE можно выполнять более эффективно с помощью асинхронного копирования распределенных массивов.

6.3.4.1. Цикл и операторы копирования

Рассмотрим следующий цикл

DO 10 I1 = L1,H1,S1

. . .

DO 10 In = Ln, Hn, Sn

10 A(f1,…,fk) = B (g1,…,gm)

где A, B - идентификаторы разных распределенных массивов.

Li, Hi, Si – инварианты цикла

fi = ai *Ii + bi

gj = cj *Ij + dj

ai, bi, cj, dj – целые выражения, инварианты цикла (выражения, значения которых не изменяются в процессе выполнения цикла).

Каждая переменная цикла Il может быть использована не более чем в одном выражении fi и не более чем в одном выражении gj.

Цикл может содержать несколько операторов, удовлетворяющих вышеуказанным ограничениям. Такой цикл будем называть циклом копирования (copy-loop).

Цикл копирования может быть описан одним или несколькими операторами копирования (copy-statement) следующего вида

A(a1,…,ak) = B(b1,…,bm)

где

ai = li : hi : si

bj = lj : hj : sj

ai, bj - являются триплетами языка Фортран 90.

Оператор копирования является аналогом оператора присваивания секций массивов Фортран 90.

Для триплетов существуют правила сокращенной записи. Определим эти правила на примере триплета ai.

1)  Если в копировании участвует все измерение массива, то

ai = :

2)  Если si = 1, то

ai = li : hi

3)  Если Li = hi, то

ai = li

Для цикла копирования 10 выражения триплетов определяются следующим образом

Для ai Для bj

li = ai *Li + bi lj = cj *Lj + dj

hi = ai *Hi + bi hj = cj *Hj + dj

si = ai *Si sj = cj *Sj

Рассмотрим следующий цикл копирования

REAL A(N1,N2,N3), B(N1,N3)

DO 10 I1 = 1, N1

DO 10 I2 = 2, N3-1

10 A(I1, 5, I2+1) = B(I1, I2-1)

Этому циклу соответствует следующий оператор копирования

A( :, 5, 3:N3 ) = B( :, 1:N3-2 )

6.3.4.2. Директивы асинхронного копирования

Асинхронное копирование позволяет совместить передачу данных между процессорами с выполнением других операторов.

Асинхронное копирование определяется комбинацией директивы начала копирования (ASYNCHRONOUS ID) и директивой ожидания окончания копирования (ASYNCWAIT ID). Соответствие директив определяется одним идентификатором ID.

6.3.4.2.1. Директива ASYNCID

Директива ASYNCID описывает отдельный идентификатор для каждой пары директив асинхронного копирования.

Синтаксис директивы:

asyncid-directive

is ASYNCID async-name-list

6.3.4.2.2. Директива F90

Директива F90 является префиксом для каждого оператора копирования.

Синтаксис.

f90-directive

is F90 copy-statement

copy-statement

is array-section = array-section

array-section

is array-name [( section-subscript-list )]

section-subscript

is subscript

or subscript-triplet

subscript-triplet

is [ subscript ] : [ subscript ] [ : stride]

subscript

is int-expr

stride

is int-expr

6.3.4.2.3. Директивы ASYNCHRONOUS и END ASYNCHRONOUS

Директивы ASYNCHRONOUS и END ASYNCHRONOUS задают блочную конструкцию.

Синтаксис.

asynchronous-construct

is asynchronous-directive

f90-directive

[ f90-directive ] …

copy-loop

[ copy-loop ] …

end-asynchronous-directive

asynchronous-directive

is ASYNCHRONOUS async-name

end-asynchronous-directive

is END ASYNCHRONOUS

Все операторы присваивания в циклах копирования (copy-loop) должны быть описаны директивами F90 с соответствующим оператором копирования.

6.3.4.2.4. Директива ASYNCWAIT

Синтаксис.

asyncwait-directive

is ASYNCWAIT async-name

Пример из раздела 6.3.4.1 можно специфицировать как асинхронное копирование следующим образом.

CDVM$ ASYNCID TR

REAL A(N1,N2,N3), B(N1,N3)

. . .

CDVM$ ASYNCHRONOUS TR

CDVM$ F90 A( :, 5, 3:N3 ) = B( :, 1:N3-2 )

DO 10 I1 = 1, N1

DO 10 I2 = 2, N3-1

10 A(I1, 5, I2+1) = B(I1, I2-1)

CDVM$ END ASYNCHRONOUS

. . .

последовательность операторов,

которая выполняется на фоне передачи данных

. . .

CDVM$ ASYNCWAIT TR

6.4. Удаленные ссылки типа REDUCTION

6.4.1. Синхронная спецификация удаленных ссылок типа REDUCTION

Если спецификация REDUCTION в параллельном цикле указана без имени группы, то она является синхронной спецификацией и выполняется следующим образом.

1)  Вычисление локальной редукции. В процессе выполнения цикла на каждом процессоре вычисляется локальное значение редукции для той части данных, которые распределены на процессоре.

2)  Вычисление глобальной редукции. После окончания выполнения цикла автоматически вычисляется межпроцессорная редукция локальных значений. Полученное значение присваивается редукционной переменной на каждом процессоре.

6.4.2. Асинхронная спецификация удаленных ссылок типа REDUCTION

Асинхронная спецификация позволяет:

·  объединять в одну группу редукционные переменные, вычисляемые в разных циклах;

·  совмещать выполнение глобальной групповой редукции с другими вычислениями.

Для асинхронной спецификации, кроме директивы REDUCTION (с именем группы), необходимы следующие дополнительные директивы.

reduction-group-directive

is REDUCTION_GROUP reduction-group-name-list

reduction-start-directive

is REDUCTION_START reduction-group-name

reduction-wait-directive

is REDUCTION_WAIT reduction-group-name

Типовая последовательность директив асинхронной спецификации типа REDUCTION выглядит следующим образом.

CDVM$ REDUCTION_GROUP RD

. . .

CDVM$ PARALLEL . . . , REDUCTION (RD : d1)

C локальная редукция d1

. . .

CDVM$ PARALLEL . . . , REDUCTION (RD : dn)

C локальная редукция dn

. . .

CDVM$ REDUCTION_START RD

C начало глобальной редукции di È ...È dn

. . .

CDVM$ REDUCTION_WAIT RD

C конец глобальной редукции di È ...È dn

Ограничения.

·  До выполнения директивы REDUCTION_START включенные в группу редукционные переменные могут использоваться только в редукционных операторах параллельных циклов.

·  Директива REDUCTION_START и REDUCTION_WAIT должны выполняться после окончания цикла (циклов), где вычислялись локальные значения редукционных переменных. Между этими операторами могут выполняться только те операторы, в которых не используются значения редукционных переменных.

·  Директива REDUCTION_WAIT уничтожает группу редукционных операций.

Пример 6.11. Асинхронная спецификация типа REDUCTION.

CDVM$ DISTRIBUTE A ( BLOCK )

CDVM$ ALIGN B( I ) WITH A( I )

CDVM$ REDUCTION_GROUP RD

. . .

S = 0.

CDVM$ PARALLEL ( I ) ON A( I ),

CDVM$* REDUCTION ( RD : SUM(S))

DO 10 I = 1, N

10 S = S + A(I)

X = 0.

CDVM$ PARALLEL ( I ) ON B( I ),

CDVM$* REDUCTION ( RD : MAX(X))

DO 20 I = 1, N

20 X = MAX(X, ABS( B(I) ) )

CDVM$ REDUCTION_START RD

C начало глобальной редукции SUM(S) и MAX(X)

CDVM$ PARALLEL ( I ) ON A( I )

DO 30 I = 1, N

30 A(I) = A(I) + B(I)

CDVM$ REDUCTION_WAIT RD

C конец глобальной редукции

PRINT *, S, X

На фоне выполнения групповой редукции будут вычисляться значения элементов массива А.

7. Параллелизм задач

Модель параллелизма DVM объединяет параллелизм по данным и параллелизм задач.

Параллелизм по данным реализуется распределением массивов и витков цикла на подсистему виртуальных процессоров. Подсистема виртуальных процессоров может включать весь массив или секцию массива виртуальных процессоров.

Параллелизм задач реализуется независимыми вычислениями на секциях массива процессоров.

Определим множество виртуальных процессоров, на которых выполняется процедура, как текущую систему виртуальных процессоров. Для главной процедуры текущая система состоит из полного множества виртуальных процессоров.

Отдельная группа задач определяется следующими директивами:

1)  Описание массива задач (директива TASK).

2)  Отображение массива задач на секции массива процессоров (директива MAP).

3)  Распределение массивов по задачам (директива REDISTRIBUTE).

4)  Распределение вычислений (блоков операторов или витков параллельного цикла) по задачам (конструкция TASK_REGION).

В процедуре может быть описано несколько массивов задач. Вложенность задач не разрешается.

7.1. Описание массива задач

Массив задач описывается следующей директивой:

task-directive

is TASK task-list

task

is task-name ( max-task )

Описание задач определяет одномерный массив задач, которые затем будут отображены на секции массива процессоров.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10