Parallelization the FPMD code in VPP (2)

ＶＰＰでの並列化２ [Top][VPP]

目次: 手続きのみの分割（UNIFY文）; サンプラ（ｋ点並列）; サンプラ（バンド並列）; バンド並列化のチューンアップ; 並列化雑感

さて、筆者のＶＰＰ上での並列化作業の続きを述べていきたいと思います。大分長くなったので、２つに分割しました（６／２、１９９７）。

手続き分割（UNIFY文）（５／１４）

昨日（５／１３、１９９７）、物性研のＶＰＰ講習会に参加しました。「ＶＰＰＦＯＲＴＲＡＮプログラミング」マニュアルも最初の頃と比べて、大変良く（有用に）なっています。（入手は、物性研のＶＰＰの共同利用の権限を持っているユーザー〔そうでなくても、どこかのＶＰＰを使用する権限を持っているユーザーなら可〕なら、物性研か富士通に問い合わせれば、可能と思います。）

ここで新たに認識した手法（別に今回初めて出てきた訳ではなく、以前からありましたが、筆者が十分に認識していなかった）について説明したいと思います。

これは手続きのみ分割する手です。この時、手続き分割の対象となるデータ（配列）の分割を行ないません。つまり、重複ローカル配列のままで、手続き部分（ＤＯループ）を分割してしまいます。
これは、データ部分（配列定義部分）は何ら、グローバル宣言もローカル宣言もせず、そのままで、ＤＯループをSPREAD DO文で分割します。重複ローカル配列Ａ（１０００）は４つのＰＥそれぞれで定義され、それぞれのＰＥで配列Ａの１から２５０まで、２５１から５００まで、５０１から７５０まで、７５１から１０００までが演算（計算）されます。例えば、２５１から５００まで演算されるＰＥ上では、配列Ａの１から２５０までと、５０１から１０００までのデータはなにもされずに、そのままです。演算によって内容が変わるのは２５１から５００までのみです。

では、各ＰＥに細切れにある重複ローカル配列Ａのデータをどうやってまとめるのでしょうか（このままでは、並列化されたＤＯループを抜けると、（多分）どれか一つのＰＥ上の配列Ａのデータしか参照されません）？

解決方法としては二つあり、一つはUNIFY文を使う方法、もう一つはグローバル和を使う方法です。以下に簡単な例を示します。

方法１


!XOCL PARALLEL REGION
      ----- 
!XOCL SPREAD DO /IP
      DO 1000 I=1,1000
      A(I) = A(I) + 1.0D0*I
 1000 CONTINUE
!XOCL END SPREAD
!XOCL UNIFY(A(/IP))(ID)
!XOCL MOVE WAIT(ID)
      -----
!XOCL END PARALLEL

UNIFY文で、各ＰＥ毎での重複ローカル配列Ａの細切れのデータを集めてまとめます。
IPはINDEX PARTITION文で定義されるものです。IDはUNIFY文による動作による各ＰＥ間の通信終了を待つためのフラグです。

方法２


!XOCL PARALLEL REGION
      ----- 
      DO 500 I=1,1000
      A(I) = 0.0D0
  500 CONTINUE
!XOCL SPREAD DO /IP
      DO 1000 I=1,1000
      A(I) = A(I) + 1.0D0*I
 1000 CONTINUE
!XOCL END SPREAD SUM(A)
      -----
!XOCL END PARALLEL

この場合、グローバル和を使うので、最終的にまとめられる重複ローカル配列Ａは、並列化されたＤＯループに入る前に初期化しておく必要があります。また、サブルーチン内で、整合配列や、擬寸法配列になっている重複ローカル配列には、UNIFY文が使用できないので、このグローバル和による方法のみが使用できます。

速度的には、方法１のUNIFY文による方法の方が少し速い場合が多いとのことです。

この方法を使用する利点は、面倒なデータ分割をしなくてすむことと、そのため、並列化するためのリコーディング作業が楽になることが挙げられます。但し、データ分割しないので、各ＰＥ毎に重複ローカル配列が定義されてしまうため、メモリーに関しては損をしていることになります。特に、大規模なシステムを扱う場合には不向きな方法と言えます。

取り敢えず、既存のプログラムを並列化するための、第一段階としてなら十分使える方法と考えられます。データ分割は第二段階以降に行ないます。

サンプラ（ｋ点並列）（５／１９）

ここでは、ＶＰＰ上での並列化効率を調べる、サンプラ（性能測定）の話しをしたいと思います。完全ではありませんが、並列化したプログラムがどの程度の効率（性能）で、実際に動いているかを調べることができます。

筆者は、原研のＶＰＰ３００上で、サンプラを動かし、評価（性能測定）結果を得ました。これらの結果を以下に示します。
尚、この時のコンパイル条件は、（frt -Aad -Wx -Ps -Oe -Zo.vs revpe_d.f -o W10p.exe）です。

まず、ＰＥ数が９の場合

 
real      1:51:37.37
user     15:54:22.64
sys         15:07.88
vu-user  13:16:25.56
vu-sys          0.00
TOTAL     7.83634329  1.00000000  8.84488499  0.11607806  0.00077543

次に、ＰＥ数が１０の場合


real      1:38:02.97
user     15:31:15.42
sys         14:46.16
vu-user  13:17:29.26
vu-sys          0.00
TOTAL     8.92556668  1.00000000  9.79855149  0.09204035  0.00086677

次に、ＰＥ数が１０の場合（NOBARRIER使用時）


real      1:24:36.03
user     13:22:49.90
sys         12:53.84
vu-user  11:22:48.73
vu-sys          0.00
TOTAL     8.90907242  1.00000000  9.79128870  0.09293171  0.00086156

ＰＥ数が１５の場合


real      1:11:09.26
user     16:52:45.34
sys         16:26.48
vu-user  13:23:33.23
vu-sys          0.00
TOTAL    12.32816583  1.00000000 14.54248744  0.15541730  0.00142550

ＰＥ数が１５の場合（NOBARRIER使用時）


real      1:01:28.36
user     14:34:07.25
sys         14:18.47
vu-user  11:28:10.38
vu-sys          0.00
TOTAL    12.29195125  1.00000000 14.53042299  0.15687644  0.00161193

各リストの最初の５行目まではtimexコマンドで出てくる結果で、プログラムの実行時間を表しています。
各場合のTOTAL欄の値（これがサンプラとしての結果で、沢山出力された情報から切り取ってきたもの）は、左側から、並列効果（上限は使用ＰＥ数、値が大きいほど効果が高い）、並列化率（範囲０から１まで、大きいほど並列化していることを示しているが、あまりあてにならない）、並列加速率（上限は使用ＰＥ数、値が小さいほど、冗長実行部分が多い）、負荷バランス（範囲０から１まで、値が小さいほど、効率良く各ＰＥに仕事が割り振られている）、非同期転送待ち発生率（範囲０から１まで、値が小さいほどデータ転送待ち状態が少ない）を意味しています。

計算条件は、プログラムrevpe_d.fにおいて、平面波数３８５５、ｋ点数６４で、ｋ点並列で、５００回（２０回毎にストレスによるユニットセルの最適化あり）のイタレーションを行なった場合のものを使用しました。

筆者としては、いまのところこれが並列化効率として良い方なのか、そうでないのか判断できていません。ただ、やはり並列計算における使用ＰＥ数が多くなると並列化効率は落ちていくことが分かります（９ＰＥと１０ＰＥではほとんど差はありませんが、１０ＰＥと１５ＰＥでは明らかに、１５ＰＥの方が効率が落ちています〔計算時間が１．５倍速くなっていない〕）。
また、荻津さんの情報公開（←既にアクセス不能）にあるように、SPREAD DO文にNOBARRIERを付加すると、計算時間が幾分短縮（この場合１０％程、荻津さんの場合では最大３０％短縮が可能とのこと）されます。自分のプログラムでは、SPREAD DO、END SPREADの前者のみに NOBARRIERを付けています。単純に全てのSPREAD文（両方）に付けると正しい結果を得られませんでした（各DOループ毎に調べれば、両方〔SPREAD DO、END SPREAD〕に付けられるものもあるはずで、そこまでやればもっと速くできると思われます）。

原研のＶＰＰ３００でのサンプラの使用するためのqsub用のsh（samp.shとする）ファイルは以下のようになります。
cdで、実行ファイルW10p.exeがあるディレクトリへ移る場合、~/は使用せず、フルネーム（この場合、/user_directory/full_name/mat/Gaと仮定）で指定して下さい。



#@$-s /bin/sh
#@$-q fu010dh

cd /user_directory/full_name/mat/Ga
FJSAMP=file:./samp.dat,type:rtime,interval:10
export FJSAMP

timex W10p.exe > g.g
fjsamp W10p.exe

samp.datがサンプラ（上のシェルスクリプトでは１０ミリ秒毎に割り込みが入る設定になっている）が解析するためのデータを格納します。大変大きなファイル（この場合１００ＭＢ程度）になります。W10p.exeは測定すべき実行ファイル（１０ＰＥ用）です。そして、ジョブが終了すれば、並列化性能測定結果がファイル（samp.shならsamp.sh.o????〔????は４桁の数字〕というファイル名でシステムが出力するものです。これはサンプラ使用時のみに出力されるものではありません。原研のＶＰＰを使っているユーザーは分かると思います）として出力されます。

尚、これらの実行に関しては、物性研で行なわれたＶＰＰ講習会及び、配布資料「ＶＰＰＦＯＲＴＲＡＮプログラミング」を参考にしています。

サンプラ（バンド並列）（５／２６）

ここでは、バンド（バンドレベル、バンドインデックス、エネルギーレベルなどとも言う）毎の並列化のサンプラ結果を示してみます。各並列化（ｋ点並列、バンド並列）のまとめで書かれているように、バンド並列の方が、並列化効率が良くないです。

特に、計算条件は上記ｋ点の場合と同じですが、イタレーション回数は５００から３００に減っています。そして更に、サンプラの結果をみると、ｋ点並列と比べて、著しく良くないと言えます。

もともとｋ点並列と比べて、バンド並列はグラム・シュミットの部分のように、並列化効率を十分発揮できない部分もありますが、全体としての並列効率はｋ点による場合とほとんど変わりません。事実、ＪＲＣＡＴ（現富士通）の山崎さんのレポート（アトムテクノロジー研究体によるＶＰＰ５００の応用事例。８／２６、２０１１、既に [http://www.fujitsu.co.jp/hypertext/Develop/magazine/vol47-6/index.html] はアクセス不能を確認）によれば、バンド並列での並列効果は非常に高いものになっています。

ＰＥ数が１０の場合


real      1:37:00.62
user     15:20:11.79
sys         14:36.60
vu-user   8:20:18.05
vu-sys          0.00
TOTAL     5.72961764  1.00000000  8.74195274  0.29056272  0.07206081

ＰＥ数が１０の場合（別バージョン）


real      1:26:28.81
user     13:40:06.70
sys         13:04.41
vu-user   7:59:13.96
vu-sys          0.00
TOTAL     5.42428914  1.00000000  7.79841089  0.27184931  0.03504373

ＰＥ数が１０の場合（NOBARRIER使用時）


real      1:26:13.23
user     13:37:40.97
sys         13:07.47
vu-user   7:09:24.30
vu-sys          0.00
TOTAL     5.57812850  1.00000000  8.70883595  0.29232582  0.07953678

ＰＥ数が１０の場合（別バージョン、NOBARRIER使用時）


real      1:25:44.23
user     13:33:22.27
sys         13:04.69
vu-user   7:59:15.47
vu-sys          0.00
TOTAL     5.48381464  1.00000000  7.88285496  0.26625146  0.03515316

ＰＥ数が１０の場合（別バージョン、NOBARRIER使用時、Ofオプション）


real      1:35:40.73
user     15:07:37.91
sys         14:26.81
vu-user   9:10:11.47
vu-sys          0.00
TOTAL     5.66097793  1.00000000  8.05437490  0.26207811  0.03327758

ＰＥ数が１５の場合


real      1:20:44.95
user     19:08:07.08
sys         18:51.61
vu-user   8:36:11.38
vu-sys          0.00
TOTAL     7.09841156  1.00000000  12.27205116  0.35313408  0.09508146

ＰＥ数が１５の場合（NOBARRIER使用時）


real      1:12:46.44
user     17:14:44.19
sys         17:01.39
vu-user   7:24:59.21
vu-sys          0.00
TOTAL     6.88781217  1.00000000  12.28946853  0.34805725  0.10550688

以上の結果を見ても分かるように、Ofオプション（これ以外では-Oe）では、むしろ遅くなっています（本当は最適化のレベルを上げている）。ｋ点並列と比べてあまりにも効率が悪いので、更なるチューンアップが必要です。

バンド並列化のチューンアップ

昨日（６／１０）、物性研の短期研究会「物性研究における計算物理学――― 並列計算の現状と今後の展望」に参加しました。特に、並列化に関しては認識を新たにしました。

この研究会に参加して新たに認識したこととは、ＶＰＰにおいて並列化効率を上げて、計算を高速化するためには、徹底した並列化とチューンアップが必要だということです（当然のことなのですが、並列化を行なっている研究者の皆さんの貴重な話を改めて聞くと、なるほどと再認識することが多いです）。

特に、気付いたこととして、バンド計算に関して、いまのところバンド並列が主に行なわれています。ｋ点に関する並列化は、バンド並列より簡単、効率も良いのですが、系が大きくなると、相対的にｋ点数は少なくなるため、並列化できなくなることが致命的です。

そして、ＶＰＰ上での並列化では、UNIFYによる並列化が有効であることがわかりました。本ページの最初が、そのUNIFY文の説明であるように、事柄としては認識していましたが、この方法は自分がこれまで考えた以上に有用です。
本ページ、サンプラ（バンド並列）についてのところを見れば分かるように、筆者のプログラムのバンド並列に関しての並列化効率はあまり良くありません。
効率を下げている原因としては、グラムシュミットの部分の並列化に関しての扱いが良くないことと、個々のルーチンのチューンアップが不十分であることなどが考えられます。ここでは、後者のチューンアップについて述べていきたいと思います。

チューンアップと言っても、いろいろな方法、手法が考えられます。ここでは前述のようにUNIFYについて、特にどこらへんのルーチンが可能かについて検討します。

UNIFY可能なルーチンとして、（１）ｋ点並列では並列化できたが、バンド並列では並列化できないルーチンとしてKBINT などがあります。このサブルーチンにはバンドに関してのループが存在しないので、バンド並列できません。このルーチンは動径方向のメッシュに関しての並列化は可能なので、それで分割する手があります。一方、UNIFY文を使って、ｋ点に関しての並列化をすることも可能です。この場合、配列SNLはメッシュ数での定義はされていないので、もともと各ＰＥで定義されています。従って UNIFYによるｋ点に関する並列化を行なったとしても、メモリーとしてはほとんど損になりません（メッシュ関係の配列は大きくない）。またバンド並列を行なうような系では、ｋ点数が非常に少ない場合（と考えられる）なので、その点からもこれは許容できます。

同様に、サブルーチンDIAGON もチューンアップ可能です。ｋ点並列では、DIAGONの大部分を（非常に大きなループとして）並列分割することができますが、バンド並列ではあまり大きなループ（対角化用サブルーチンを呼び出した後にバンドに関してのループがありますが、全体としては大きくありません）としての分割ができません。
従って、バンド並列をやめ、このルーチンは再びｋ点並列に戻すことが考えられます。問題はこの場合、他のサブルーチンではバンド並列用のグローバル配列であるものを、このDIAGONではｋ点並列として考えなければならないことです。つまり分割軸が変わってしまいます。

この場合、作業用の分割軸の異なるグローバル配列を用意し、SPREAD MOVE文を使って、分割軸の変更を行なう必要が出てきます。そして、この場合どうしてもグローバル配列を直接扱う必要が出てきます（ＰＥ間のデータの転送が伴う）。また、作業用のグローバル配列も必要になるので、メモリーもその分損をします。従って、分割軸を変えて本当に高速化できるかは試してみないと分かりません（まだ試してない）。

この他にも、原子数に関して、UNIFYを使った分割が可能なサブルーチンがあります。例えば、エバルト和をとるもの、力の計算（ローカル部分）、フォームファクターの計算、分子動力学部分などがあります。
もともと、これらのルーチンは冗長で実行されているので、UNIFY文を使った並列化を行なっても、あまりメモリーとしての損はありません。

並列化雑感

現在、筆者が並列化を行なうことができたシステムは、富士通のＶＰＰ上でのみです（自動並列化による実行は除く）。よいしょするわけではないですが、ＶＰＰはおそらく国内で一番多く出回っている、ベクトル並列（分散メモリー）型マシンだと思われます。サポートするＳＥ等の質も高く（と言うより、他のメーカーのＳＥが酷過ぎる？、これはあくまで並列化とスパコンに限定してのものです。）、システム（ＯＳ、コンパイラ、稼働率等）もまあ信用できます。

（５／２０）富士通ではスカラー並列計算機であるＡＰ１０００、ＡＰ３０００上でも、ＶＰＰＦＯＲＴＲＡＮが動く（それもちゃんと、ＶＰＰ用の並列化指示行を解釈して、並列実行する）ようにしています。つまりベクトル並列型スパコンＶＰＰ上で開発した（並列化指示行形式で並列化を実現した）プログラムが、ＡＰシリーズでも並列で動いてしまう訳です。
ＡＰ上のＶＰＰＦＯＲＴＲＡＮも完全なフルセット仕様なので、互換性は非常に高いようですが、筆者も試したことはありません。とにかく並列で動作させられるアーキテクチャが１つでも増えることは、（筆者にとって）大変良いことだと思います。

特に、並列化指示行形式（他のマシンでは注釈として解釈される）での並列化方法には賛否の分れるとこかもしれませんが、バンド計算の分野ではｋ点やバンドの並列化を施したプログラムは、効率を無視すれば大抵そのままプログラムが、他のスカラーマシンでも動きます。これは、デバッグやバージョン管理が比較的やり易いことを意味し、並列化に関してエンドユーザー的な立場の者にとっては決して悪い話しではありません。この点で富士通には頑張って欲しいところです。（当然、クレイ、ＮＥＣ、ＩＢＭ、日立等スパコン屋、その他の並列計算機屋さんも同じように頑張って欲しいです。）

但し、この世界の時間の流れは大変速く、今日の最新鋭マシンが明日には中古品になってしまいます。従って、どのようなシステムやＯＳやコンパイラーやマシンが本当に生き残るのかは、おそらく誰にもはっきりとは分からないと思います。そういう意味ではＶＰＰに頼り切ることには、若干の危険が伴います。

筆者が次に目指すのは、（イ）ＶＰＰ上でのプログラムの一層の最適化、（ロ）他のシステム上での並列化への移行（移植）、が考えられます。特に（ロ）について、おそらく将来生き残る並列化用の言語仕様はＭＰＩ、ＰＶＭ、（ひょっとしたらＨＰＦの次のバージョン〔物性研の荻津先生談〕）、又はこれらの拡大、改良版と思われます。今後、筆者としてはこれらの言語、コンパイラー仕様に挑戦しようと考えています。

尚、再四（？）に渡り恐縮ですが、特に並列化に関しては筆者は素人に毛の生えたレベルなので、記述内容や、考え方、捉え方の間違いや誤解を指摘してもらえると大変有難いです。（メイルアドレス、 kobayashi.kazuaki-@-nims.go.jp、 "-@-"は変なメイル対策）

[先頭][総目次 ][最初に戻る][ＶＰＰ３００、５００での並列化][ＳＸ４並列化][OpenMPによる並列化][並列化情報]