Parallelization FPMD code on OpenMP

OpenMPによる並列化 [Top]

目次: はじめに（謝辞）; OpenMPとは; OpenMP導入に関するメモ; 古い情報

はじめに（謝辞）

本ページではＳＭＰ環境（共有メモリ）で並列化を実現できる共有仕様 OpenMPによる第一原理電子状態計算プログラムの並列化について話ていきたいと思います。
今回のOpenMPによる並列化は、基本的に本研究所の共通計算機導入過程におけるベンチマークテストにおいて、ＳＧＩ（日本シリコングフィックスクレイ ←当時）社によって提出された資料（その他に一部ＣＯＭＰＡＱ〔旧ＤＥＣ〕社〔←当時↓〕によるものも参考にしている）を元にしています。ここに、ＳＧＩ及びＣＯＭＰＡＱ（旧ＤＥＣ）の関係各位（営業、技術者の方々）に深く感謝します。また、ＳＧＩ社には本ウェブページへのベンチマークテスト結果に関して快く掲載許諾してくれたことにも深く感謝する次第です。

OpenMPとは [先頭]

まず、OpenMPに関してのウェブページとして、www.openmp.orgサイトがあります。

そのものずばりという感じで、OpenMPに関しての詳細で豊富な情報が入手出来ます。

動作環境

（ＳＧＩ）
２００９年４月から物質・材料研究機構のスーパーコンピュータが更新され、新たにＳＧＩのマシンが導入された。これを機に、筆者の持つバンド計算プログラムコードを本格的に並列化対応させることを決めた（並列化に関してスパコン担当のSGIの方々の助言に深く感謝）。並列化は、ずっと以前に富士通のＶＰＰで行なった経験があるが、今回のマシンにこれを適用すことは出来ない（ＶＰＰ用の並列化指示注釈行は解釈出来ない）。今回は、OepnMPによる並列化を行なうことにした。OpenMPによる並列化は、並列化を指示する注釈行を、FORTRANのソースコードの当該箇所に挿入することによって実現される。このため並列化出来ない環境下での流用も可能であるし、デバッグもし易い（並列計算、非並列計算の比較がし易い）。
既にサブルーチン、FORCE, FORZFB, KBINT, DIAGON, CHAVER, MSDについて、 OepnMPによる並列化指示行を加え、並列化をほぼ完了させた。OpenMP化において、使用した並列化指示注釈行（例）は、


!$OMP THREADPRIVATE( /PSSNL/ )

（中略）

!$OMP PARALLEL DEFAULT(NONE)
!$OMP& COPYIN( SNL )
C!$OMP& FIRSTPRIVATE(  )
!$OMP& PRIVATE( CS,CP,CD, I1,I2, L1,L2,L3, MM, IIBA, IIKB,
!$OMP&  AKX,AKY,AKZ, LNUM,NNN, II, PPMT, 
!$OMP&  ZVN, ZZZ, ZAAA, PPM, IJG, EG,
!$OMP&  ZAWORK,WWW,ZWW,ICON, KBAS,KGB,IOPT,EPS )   
!$OMP& SHARED( KV3, WS,WP,WD, PAI4, GR, IG1,IG2,IG3, IGPO,
!$OMP&  VX,VY,VZ,IBA,IBA2,NBASE,NBMAT,NBD1,NBD2,
!$OMP&  ZCHGO, ZVXC, ZPSCC, ZFM3,  ZZ2,EKK,
!$OMP&  UNIVOL, KX1,KY1,KZ1, GX,GY,GZ, NLSPD )
!$OMP DO

（中略）並列化対象部分（ｋ点に関するループ）

!$OMP END DO
!$OMP END PARALLEL

のようになる。FIRSTPRIVATEは、サブルーチンによって使う場合と使わない場合がある。また上記以外に、CHAVERでは、!$OMP CRITICALと、!$OMP END CRITICALを使用する箇所があった。FORCEサブルーチンでは、 REDUCTION(+:ZFORC2)を使用。CRITICAL, REDUCTIONは、ｋ点に関しての和を正しく計算するために必要な並列化指示。
PARALLEL DEFAULT(NONE)にしておくと、並列化対象部分内の全ての変数を、 PRIVATEかSHAREDに定義しておく必要があるが、定義洩れを探すには便利（コンパイル時に未定義エラーが出る）である。DO 100 I=1,100（DOループ）における変数、"I"などはDEFAULT(NONE)でもPRIVATEとして解釈されるので、書いてなくてもコンパイルは通る。
バンド計算においては、ｋ点のループが最も独立性が高く、並列化もし易いので、今回もｋ点に関するループで並列化を行なった。OpenMPでは、並列化によってそれぞれ並列で動く部分をスレッドと呼んでいる。筆者が使用する環境では、その各スレッドが各ＣＰＵに相当している。既に述べたように、並列化したサブルーチンは、FORCE, FORZFB, KBINT, DIAGON, CHAVER, MSDである（４／２７、２００９現在）。いずれも、ｋ点に関してのループがあり、それが計算の大部分を占める。これは、ＶＰＰでも同様に並列化している。

今回（５／１、２００９）OpenMPで並列化したサブルーチンの内容はそれぞれ、FORCE, FORZFB, KBINT, DIAGON, CHAVER, MSDとなります。
↑これらのプログラムソースは、無保証です（自己の責任において参照、使用、利用して下さい）。筆者は、これらソースコードの使用、利用、流用等によって生じる不利益、損害等に一切の責任を負いません。
"!$OMP"が、OpenMP並列化指示行。"C!$OMP"は、それに対する注釈（コメント）になっていて、これは並列化に関与しません。筆者による並列化は場当り的な部分がまだあり、必ずしも並列化が効率的、効果的でない部分（特にメモリに関して→データ分割が不十分、或いはデータ分割になっていない）があります。

OpenMP導入に関するメモ [先頭]

（メモ１）新たに問題発生（解決）。
↑まだ確定的ではないが、おそらく問題点はｋ点に関する和の扱いの部分と考えられる。力や電荷密度は、ｋ点に関しての足し上げが必要。今回、電荷密度は問題ない。問題となっているのは力の値。並列化計算によって得られる力が微妙におかしい。正し結果との数値的な差は小さいが、有意に問題がある。更に、更に問題を厄介にしているのは、テスト段階の計算では、力の値に問題が生じない（ように見える。←並列、非並列で結果に差がない）。結果がおかしい場合に対し、ある対処法を試行の結果、解決（力の計算←"REDUCTION"）。
（メモ２）並列化によって顕在化する問題あり。
（メモ３）ＶＰＰ用に作成したコード部分が、今回は使えない（←コードの修正が必要）。並列化処方そのものは、ＶＰＰの場合とそう変わらない。
（メモ４）フォートランコンパイラは、Intel FORTRANコンパイラ＋Intel MKL(Math Kernel Library)を使用。
（メモ５）コンパイルオプション： -r8 -O3 -mcmodel=medium -i-dynamic -lsvml -openmp -lmkl - lguide -lpthread ← "-mcmodel"は大きな配列変数を扱う場合に必要。
↑"-openmp"が、OpenMP用のコンパイルオプション。
↑並列化とは直接関係ないが、-xSSE4.2というオプションを付けると速くなる場合あり（使用する機種〔CPU〕等に依存）。
（メモ６）残念ながら自動並列化（-parallelオプション）、並列化支援ソフト（コードを解析して、OpenMP用並列化指示行を挿入してくれるもの）は、ほとんど役に立たないか、効果がなかった。強制的な指示を与えても並列化指示行挿入しなかった（出来なかった）。
（メモ７）OpenMP化は、正直試行錯誤による”場当り”的な対処による部分あり。
（メモ８）スタックの設定が必要な場合あり。←計算規模（PRIVATEで使用する変数）を大きくしていくと既定値では足りなくなる。スタックが足りないと、計算が途中で止まる（これは使っている計算環境、種類に依存すると思われる）。止まった場合はスタックのサイズの設定をより大きくする（← PRIVATEで使用する変数から見積り可能）。
（メモ９）そもそも、OpenMPによる並列化は、少なくとも筆者のコードでは大変メモリを浪費する。並列化の利点は、高速化（←これはそこそこ達成している）以外により大きなメモリを使用可能にすることだが、現時点で筆者の並列化コードはそうなっていない。
（メモＡ）↑ｋ点数を大きくしていくと、１ＣＰＵだけの計算では流れる計算が、並列でメモリオーバーで止まる。
（メモＢ）並列化でのＣＰＵ数（スレッド数）を増やしていくと、ある程度以上数でむしろ遅くなる。←メモリ（本当の意味での共有ではない？）のアクセスが足を引っ張る？。←並列計算するＣＰＵ数（スレッド数）を大きくすると、むしろ遅くなる。
（メモＣ）サブルーチンMSDのみを並列化させて実行させると、実行結果としての数値がおかしくなる（１ＣＰＵのみの実行〔非並列〕にすると正しい値になる）。サブルーチンFORZFBも同時に並列化すると、値は正しくなる。原因は現在調査中（６／３、２００９）。
↑原因となる部分は判明。解決方法も存在。但し、何故この方法で正しい結果を与えるのか判然としない。更にこの方法では、よりメモリを消費することとなり、あまり良い解決策とは言い難い。解決方法：MSD以外に、FORZFBも並列化させて実行させると正しい結果となる。どうもSNL配列を、THREADPRIVATE にしておくことが必須な模様（←SHAREDにしたら正しい結果を与えない。更に、 THREADPRIVATEにしておけば、そのルーチンを実行しなくても正しい結果となる〔←非並列で等価なルーチンで実行〕）。
（追記：２／２、２０１６）新しい版のプログラムをOpenMPによって並列化することを試みたところ、上記と同じ状況に遭遇した。サブルーチンMSD単独で並列化を試みようとしたが、一向に数値が正しいものにならなかった（sequentialでコンパイルした実行結果は正しい）。結局、サブルーチン FORZFBで、SNL配列をTHREADPRIVATE指定すると、正しく動くようになった。この時、FORZFBはこのTHREADPRIVATE指定だけでループの並列化は行なっていない。
（追追記：３／１４、２０１６）電子状態計算のみでは、上記の THREADPRIVATE指定だけで正しい結果を与えていたが、構造最適化を行なう段階で全エネルギーが一致しなくなることが判明した。THREADPRIVATE指定以外で、サブルーチンFORZFB部分を並列化対応させると正しい全エネルギーを与えるようになった（どうしてこれでうまくゆくのかはまだ判然としていない。← ひょっとしたらEQUIVALENCE関連〔配列〕かもしれない。←EQUIVALENCEは関係なかった〔３／１６、２０１６〕）。
（メモＤ）どうも並列化した個々のサブルーチンは、相互に関係してるように見える。並列化したサブルーチンMSDを単独で導入して動かすと、数値が一致しない部分が生じる（収束値は一致する）。
そもそも積木を積むようにサブルーチン毎に並列化を行なったが、これには” 場当り”的な部分があった。更に、段階的に並列化した結果、全体としては正しい結果を与えるが、個々の並列化されたサブルーチン単独では正しく動作しない可能性があることが判明した。各サブルーチンの並列化は独立に行なわれているはずだが、互いに影響している可能性がある（←本当は”おかしい”）。現段階では”だましだまし”使っていくしかない（←これで正しい結果を与えていることは確認）。更なる調査、検証が必要。
（メモＥ）DIAGON,MSDサブルーチンにおいて、並列ｋ点ループ内でZAJに直接代入を行なうと、結果が正しくなくなる。PRIVATE,SHARED,THREADPRIVATE、その他どのような設定でも正しい結果にならない。１CPUのみの実行では正しい結果となる。ZAJと等価な配列を別途定義（COMMONでも、ローカルな定義でもいずれでもＯＫ）して、並列ｋ点ルーチン内で、その別の配列に代入等を行ない、並列ルーチンの外で、”ZAJ = 別の配列”で代入すると問題なく正しい結果となる。但しこれは大変メモリーの無駄となる。今回（１０／１５、２００９）新たに改良ルーチンを考え試してみるも、現時点で失敗続き。うまく動かない。
↑テスト段階では、うまく動くようになる。変更点は、FIRSTPRIVATEを使用したこと。これで一気に解決した。MSD,DIAGONに関して改良を施したプログラムでより実践的な場合の計算テストを開始。ZAJの変わりに、ZT1（但し、ZAJ よりずっと小さい配列←並列数分）で並列計算を行なう（１０／１５、２００９）。
↑実践段階でも正しいことを確認（１０／１６、２００９）。
↑残念ながら、省メモリとしては失敗だった。当該部分は省メモリになっているが、実際にメモリ不足で問題となっている部分は全く別の箇所だった（１０／１９、２００９）。←勉強が足りない。 ↑結局、並列化とは関係ないところで、省メモリ化出来た（←最初に用意する初期固有ベクトル生成のための対角化の行列を、平面波基底数の１／２から１／４にした）。THREADPRIVATEは必須なのか？。更なる検討が必要（１０／３０、２００９）。
（メモＦ）スパコン以外のPC上でも、KMP_STACKSIZEの指定が必要。OSやシェルによって指定の仕方は異なる。筆者の場合は、setenv KMP_STACKSIZE ' 128m'としている（Linux、tcsh）。unlimitだけでは動かなかった（セグメントエラーで止まる）。
（メモＧ）少しメモリに関して進展あり。まだ検証中ながらプログラムの版によっては、更なる省メモリ化が可能であることが判明。ZAJ、ZZZを EQUIVALENCEにしても正しく計算出来ることが分かった（サブルーチンMSD上）。実は、これによって大幅な省メモリ化となる（４／５、２０１０）。←検証中（何故、版によってEQUIVALENCEが有効なのかもよく分かっていない）。
（メモＨ）OpenMPとは直接関係はないが、最近HP社のZ400という機種を導入、それにIntel FORTRAN ver. 11を導入した（大変苦労、消耗した）ので、これをここに記しておきたい。
1. 機種： Z400(HP)、ソフトウェア： Intel FORTRANコンパイラー 11.1 Linux版。
2. 試したOS：Vine Linux 5 (32 bit, 64 bit)、SUSE Linux (64 bit)、 Fedora Core 12 (32 bit, 64 bit)など。目的は、Z400にIntel FORTRANコンパイラー（64 bit版、EMT-64用）を導入（インストールして正しく動作させる）ことである。従って、32 bit版のOSは、テスト用などの目的で試用した。結局、最終的に目的を達成したのは（筆者の場合）、Fedora Core 12 (64 bit)のみであった。他は、Intel FORTRANコンパイラーが導入出来なかったり、OSの導入（インストール段階）で失敗したりした。
3. 各OSは、それぞれの配布サイトからisoイメージをダウンロード、DVD 等に書き込んだ（書き込みの種類に注意。単なるデータ、ファイルとしてのコピーではない）。この時、当然書き込み可能な、DVD/CD装置が存在、使用出来ないといけない。
4. Intel FORTRANコンパイラー導入時のエラーは、libstdc++, libstdc++5, glibc, libgcc（ライブラリ）の32 bit版が無いというものだった。これらのライブラリの導入は、（筆者にとって）本当に大変だった。
5. Fedoraでは、yumと言うコマンドで導入が出来た。yum install compat-libstdc++-33。yum.conf(/etc)の設定し直しが必要。他に、yum install libstdc++、yum install libstdc++.so.5を実行（この二つがいずれも必要かどうかは未確認。少なくとも筆者野場合、後者は必要だった）。
6. オンライン上の情報は大変有用かつ、決定的だったが、類似した情報が多く、最終的な目的情報に辿り着く（気が付く）までかなり苦労した。
  他のOSでは、apt-getというコマンドが使えるが、筆者の場合ではうまく動かなかった（途中で挫折）。
7. Intel FORTRANは以前の版（バージョン）と、ライセンスの認証の仕方が異なる。
8. Fedora Core 9 （64 bit版）でも、Intel FORTRAN 11.1のインストールに成功した（導入可能）。事前に、yumで必要なライブラリをインストールしておいた（３／８、２０１０）。
9. Fedora 22 （64 bit版）でも、Intel FORTRAN 11.1のインストールに成功。CDの場所は、/mediaではなく、/run/mediaだった。他は、これまでの手順とほぼ同じ要領でできた（２／４、２０１６）。
10. ネットワーク設定も重要。画面が狭くて、"OK"ボタンが出てこない時、 tabキーで移動させてリターン。
11. SElinuxの設定（Fedoraの場合、"permissive"）。←（備忘）後で元に戻す。
12. ディスプレイ設定がうまくいかず、800x600で作業。Fedoraではこれで最初、インストール途中で画面が真っ暗になり、にっちもさっちもいかなくなった。何か最初のブート時の選択で２番目（basicな画面設定？）を選ぶとＯＫとなる。
13. ケーブル（特にディスプレイ関連）の問題（ピン数）。
14. 参考文献は、日経Linux（日経BP社、付録DVD等も含む）など。
15. オンライン等を含め有用な情報などに深く感謝（３／４、２０１０）。
16. MKLへのリンクに失敗する。ld: cannot find -lmklと言われる。勿論、 LD_LIBRARY_PATHなどはちゃんと設定してある（はず）。一応、これはオンライン上の情報から１ＣＰＵ動作（非並列）では正しく動かすことに成功。しかし、-openmpオプションではどうなるか？（規模が小さな系ではＯＫ）。
17. ↑参考サイト（インテルのMKL link line advisorのページ）を発見。このページにある、各選択肢を選んでいくと、必要なライブラリを表示して（書き出して）くれる（有用）。一応、書き出された内容でMakefileを作成、コンパイル＋リンクは通った。現在、実行検証中（３／５、２０１０）。
18. ↑必要なライブラリの設定で、intergers lengthは、32 bitを選択する。64 bitだと筆者の環境では、正しく動かない（３／８、２０１０）。
（メモＩ）[msd版]２４ＧＢメモリ、８ＣＰＵ並列で、８０回／２４時間、[omp版]４８ＧＢメモリ、８ＣＰＵ並列で、４０１回／８時間半。→およそ１４倍の速度差がある。msd版は、省メモリ版のプログラムで並列化率は低い。omp版は、メモリを浪費するが並列化率は高い（１０／１８、２０１０）。
（メモＪ）新しいバージョンでは、REDUCTIONで配列変数が指定出来る模様。オンライン上の資料等を調べてみると、確かに”スカラー変数”のみという記述も散見されるが、１０年以上前の資料（にあるバージョン）でも配列変数が使用可能という記述があり、相当古いバージョン（版）以外は問題なさそう（１０／２０、２０１１）。
（メモＫ）（共用）機種更新により、Intel FORTRANコンパイラや、MKLのバージョンが更新された。途端に、OpenMPの並列計算の結果が合わなくなった。第１回目の全エネルギーは一致するが、２回目以降一致しなくなる。十分に収束させた値は、十分（？）に一致する。コンパイラのオプションをいろいろ変えて試してみたが症状は変わらなかった。で、"$OMP"の部分を見て、註釈化（"C$OMP"）されていた部分の１行に注目し、その註釈を外して計算したところ、値が一致するようになった（この時の一致の基準は、1CPUのみでの単一実行の結果）。外した、$OMP文は、COPYINだった。因に、この註釈は、以前の機種、バージョンでは、註釈があっても、なくても同じ結果となること（勿論、単一実行結果と一致の意味）も確認した（３／１７、２０２０）。
（追記）Intel FORTRANコンパイラとは異なるコンパイラで、コンパイルすると、当該するCOPYINの註釈を外すとエラーとなる（３／２５、２０２０）。
↑ただ、他のコンパイラで、コンパイルすると、並列計算では正しい結果を与えない（１ＣＰＵのみでも、openmpオプションでコンパイルしてあると駄目）。openmpオプションなしの単一ＣＰＵ動作では正しい結果を与える。更に検証を継続中（３／３０、２０２０）。
（メモＬ）新しいプログラムの並列化を試みた。規模の大きなサブルーチンに、２つ並列化可能なループが存在し、両方に並列化を試みた。結果として、より規模の大きいループの、OpenMPによる並列化に成功した（５／１５、２０２０）。
計算条件に依存するが、あるテスト計算全体（当該並列化部分以外の計算時間も含む）での高速化は、3.5倍計算時間を短くできた。更に、当該並列化部分のみで考えれば、４８並列でおよそ28.5倍の高速化（概算値）が達成された（５／２０、２０２０）。
並列化させるループの規模は、全原子数×全ｋ点数×全バンド数×平面波数×原子メッシュ数とかなり大きなループ。これのｋ点ループに関して並列化を施した（５／２１、２０２０）。
（メモ：無保証）並列化されるループ内で代入される変数→PRIVATE
（メモ：無保証）上記以外で、並列化されるループ内で（初期値が）不定になると困る変数→SHARED
↑全てがそうという訳ではない（５／２６、２０２０）。
（メモ：無保証）REDUCTION対象が複数の場合："DO REDUCTION(+:A),REDUCTION(+:B)"でＯＫ（６／４、２０２０）。
（メモ∞）↑以上、メモＣ、Ｄより、これら各サブルーチンで使用されている並列化指示注釈行部分に関して、（FORTRANソースコード部分も含めて）全くの無保証です。

（参考サイト）
[Club-HPC]（Club-HPCのページ。大変参考になる）←現在、アクセス不能（１０／２４、２０１２）

（↓古い情報↓） [先頭]

（ＣＯＭＰＡＱ）
ＣＯＭＰＡＱマシン上でのコンパイルは、オプションで-ompと指定すると OpenMP用の並列化指示行を加えたソースプログラムを解釈して並列実行させることが可能です。

動作環境は、本所ＣＯＭＰＡＱのalphaチップマシン（ＳＭＰマシン）です。それは最新のFORTRAN90コンパイラが備わっており、それはOpenMPに対応しています（ＣＯＭＰＡＱ〔旧ＤＥＣ〕のDigital FORTRAN90コンパイラでは、 ver5.1以降から、-ompオプションに対応しています。また、このバージョンのコンパイラが動作するためにはver4.0以上のDigital UNIX OSが必要です）。

このオプション-ompが使用できるのは（ここでは）f90（つまりFORTRAN90対応コンパイラのみ）で、f77（FORTRAN77コンパイラ）ではOpenMPとして並列化実行ファイルは作成できません。コードそのものは７７仕様でも、それに OpenMP用並列化指示行を挿入してf90でコンパイルすることは可能で（f90は７７仕様のコードも通す）、それによって生成された実行形式ファイルは、並列で実行可能です。

（↓古い情報２↓〔SGI関連〕：今後大幅改訂予定）
ベンチマークテストにおける計算環境は、ＳＧＩのOrigin2000システムで、ＣＰＵはMIPS R10000で、全プロセッサ数は３２です。

筆者のプログラムrevpe_d.fにOpenMPによる並列化指示行を加えたコードをどのようにコンパイル、実行させたかは、以下のmakefileの内容を参照して下さい。


SHELL= /bin/csh
#
# makefile - Generated Jun 01, 1998 by fmaker V1.3 BMTOOLS (C)1992
#
BIN	= a.scs
MP	= -mp -mpio
FFLAGS	= -c -O3 -r8 -OPT:IEEE_arith=3:ro=3 
LFLAGS	= -w -O3 -r8 $(MP) -Wl,-Xlocal,work8_,-Xlocal,div_,-Xlocal,nonlc_,-Xlocal,recip_
CF77	= f77
LIB     = -lscs_mp -lfastm

SRC= \
apbo2.f   basnum.f  bccm.f    c2fft.f   c3fft.f   chaver.f  chgavr.f  chobsd.f \
clockm.f  conv2.f   dffctr.f  diagon.f  dlgama.f  dsj0.f    dsj1.f    dsjn.f \
dsjnv.f   energy.f  erf.f     evin.f    evou2.f   evout.f   ewvec.f   ewvmd.f \
fccm.f    fermi.f   force.f   forces.f  forloc.f  form.f    forzfb.f  gsfsca.f \
gstep1.f  gstepf.f  gstsca.f  hexm.f    hpsort.f  infout.f  input1.f  intchg.f \
kbint.f   kbmat.f   kpmsf.f   kpmwbz.f  kstep.f   latsca.f  lattic.f  main.f \
md.f      mffta4.f  mffta5.f  mffta6.f  mffta7.f  mffta8.f  mffta9.f  mfftb4.f \
mfftb5.f  mfftb6.f  mfftb7.f  mfftb8.f  mfftb9.f  mfftc4.f  mfftc5.f  mfftc6.f \
mfftc7.f  mfftc8.f  mfftc9.f  mfftdm.f  mfftds.f  mfftdv.f  mfftim.f  mfftis.f \
mfftiv.f  mfftom.f  mfftov.f  mfftp.f   mfftp1.f  mfftp2.f  mfftp3.f  mfftp4.f \
mfftrd.f  mfftri.f  mfftrp.f  mfftz0.f  msd.f     opgr.f    opmtrx.f  pcc.f \
pselmd.f  pseudo.f  r2fft.f   r3fft.f   sccm.f    simp.f    stress.f  strnl.f \
symm.f    symsca.f  tetrah.f  time.f    width2.f  xcfft.f   xstpc.f
 
OBJ= \
apbo2.o   basnum.o  bccm.o    c2fft.o   c3fft.o   chaver.o  chgavr.o  chobsd.o \
clockm.o  conv2.o   dffctr.o  diagon.o  dlgama.o  dsj0.o    dsj1.o    dsjn.o \
dsjnv.o   energy.o  erf.o     evin.o    evou2.o   evout.o   ewvec.o   ewvmd.o \
fccm.o    fermi.o   force.o   forces.o  forloc.o  form.o    forzfb.o  gsfsca.o \
gstep1.o  gstepf.o  gstsca.o  hexm.o    hpsort.o  infout.o  input1.o  intchg.o \
kbint.o   kbmat.o   kpmsf.o   kpmwbz.o  kstep.o   latsca.o  lattic.o  main.o \
md.o      mffta4.o  mffta5.o  mffta6.o  mffta7.o  mffta8.o  mffta9.o  mfftb4.o \
mfftb5.o  mfftb6.o  mfftb7.o  mfftb8.o  mfftb9.o  mfftc4.o  mfftc5.o  mfftc6.o \
mfftc7.o  mfftc8.o  mfftc9.o  mfftdm.o  mfftds.o  mfftdv.o  mfftim.o  mfftis.o \
mfftiv.o  mfftom.o  mfftov.o  mfftp.o   mfftp1.o  mfftp2.o  mfftp3.o  mfftp4.o \
mfftrd.o  mfftri.o  mfftrp.o  mfftz0.o  msd.o     opgr.o    opmtrx.o  pcc.o \
pselmd.o  pseudo.o  r2fft.o   r3fft.o   sccm.o    simp.o    stress.o  strnl.o \
symm.o    symsca.o  tetrah.o  time.o    width2.o  xcfft.o   xstpc.o

$(BIN): $(OBJ)
	f77 $(LFLAGS) -o $(BIN) $(OBJ) $(LIB)

.f.o:
	$(CF77) $(FFLAGS) $*.f
msd.o:	msd.f
	$(CF77) $(FFLAGS) $(MP) msd.f
diagon.o:	diagon.f
	$(CF77) $(FFLAGS)  $(MP) diagon.f
kbint.o:	kbint.f
	$(CF77) $(FFLAGS)  $(MP) kbint.f
kbmat.o:	kbmat.f
	$(CF77) $(FFLAGS)  $(MP) kbmat.f
force.o:	force.f
	$(CF77) $(FFLAGS)  $(MP) force.f
forzfb.o:	forzfb.f
	$(CF77) $(FFLAGS)  $(MP) forzfb.f
chaver.o:	chaver.f
	$(CF77) $(FFLAGS)  $(MP) chaver.f

clean:
	-rm -f core

clobber: clean
	-rm -f $(BIN) $(OBJ)

void:
	-rm -f makefile $(SRC)

残念ながら以上は、ＳＧＩ社内におけるベンチマークテスト用のものであり、筆者はＳＧＩ製のＳＭＰマシンを利用できないので、これを実際に自分で検証することはできていません。

（オプションの簡単な説明）
-r8：倍精度化オプション、REAL、COMPLEXをREAL*8、COMPLEX*16として扱う。
-mp,-mpio：並列化指示文（行）による並列化を指示
-Wl,-Xlocal,COMMON名：並列実行において指示したCOMMON変数をローカル変数として扱う。
-lscs_mp -lfastm：科学計算ライブラリのリンク

並列化したプログラム

既に、全節で示してある通り、revpe_d.fが並列化の対象となっています。これは筆者ウェブページで既に公開しているものとほぼ同じものです。既に、ＶＰＰ用に並列化が施されています。ベンチマークテストでは、ＳＧＩ、ＣＯＭＰＡＱ（旧DEC）とも、このソースコードにOpenMP用の並列化指示行を挿入していきました。

ＶＰＰ（富士通のベクトル並列型スパコン）では、富士通による講習会、講習会資料を元にほぼ自力でＶＰＰ用並列化コードを作成しました（[参照１][参照２ ]）。一方、ＳＸ（ＮＥＣのベクトル並列型スパコン）では、原研との共同研究により並列化の支援を受け、最初はrevpe_d.fコードの一部のルーチンを並列化してもらい、それを元にして、こちらで並列化を進めました（未完結、 [参照]）。

今回は、先にも述べたようにベンチマークテストによって、ＳＧＩ、ＣＯＭＰＡＱ側にOpenMPによる並列化コードを作成するという形になりました（ベンチマークの条件として、OpenMPによる並列化と、その実行テストを課した）。従って、（３／３、１９９９段階）筆者はこれらOpenMPによって並列化されたコードについてはほとんど手を付けていません。OpenMPに対しての知識もＶＰＰ、ＳＸそれぞれ独自の並列化指示行と比べれば非常に貧弱です。これから筆者もOpenMPによる並列化指示行を加えられたソースコード（revpe_d.f）を解析しながら、勉強していくことになります（３／４、１９９９）。
（３／５、１９９９）、具体的なOpenMP化されたコードの部分を提示しながら、説明していきたいと思います。OpenMP化されたコードはＳＧＩによるものと、ＣＯＭＰＡＱ（旧ＤＥＣ）によるものと２種類あるのですが、まず最初は、当然すんなり動いたＣＯＭＰＡＱによるものから説明を行ないたいと思います。ＳＧＩのコードは並列化以前に、Digital UNIX上のFORTRANコンパイラでは通らない数値演算用のライブラリなどを使っていて、それらの問題に対処する必要があるため後で詳しく話すことにします。
実際のOpenMPの並列化指示行によって並列化されたルーチンを示してみます。
以下は、サブルーチンDIAGON （ここのものとはバージョンは若干異なります）のOpenMP部分とその周辺を抜粋したものです。現在使っている注釈行は、"!$OMP"となっている（５／１、２００９）。


C     ////////////////////////////                                      
C     // DIAGONALIZE AT K-POINT //                                      
C     ////////////////////////////
C     VPP-PARALLEL START
C!XOCL PARALLEL REGION
!XOCL SPREAD NOBARRIER DO /IP

C$OMP PARALLEL SHARED(EKK,SSS,ZZ2,KZ1,KY1,KX1,UNIVOL,PAI4,NBMAT,
C$OMP& IBA2,IBA,NBASE,NBD2,NBD1,ZCHGO,ZPSCC,NLSPD,WD,WP,WS,ZVXC,
C$OMP& ZFM3,VZ,VY,VX,IGPO,IG3,IG2,IG1,GR,GZ,GY,GX)
C$OMP& PRIVATE(EPS,IOPT,KGB,KBAS,MM,I2,PPMT,II,L1,L2,L3,I1,LNUM,
C$OMP& CD,CP,CS,IIBA,IIKB,AKZ,AKY,AKX,IJG,PPM,EG,ZZZ,ZVN,ZAWORK,
C$OMP& ZWW,WWW,ZAAA,CWL,ICON)
C$OMP DO

      DO 100 NNN=1,KNV3                                                 
C                                  IWRT(NNN) =NNN                      
                                   AKX = VX(NNN)                        
                                   AKY = VY(NNN)                        
                                   AKZ = VZ(NNN)                        
      IIKB = IBA(NNN)                                                   
      IIBA = IBA2(NNN)

これをみると、OpenMPによる指示行は、C$OMPで始まり、それがOpenMPによる指示行であるとコンパイラーが判定していることが推定されます。

C$OMP PARALLEL SHARED、C$OMP& PRIVATE（&記号は継続行を意味します）の部分は、データ分割に関しての指示と思われます。そして、これにはＶＰＰ用の並列化指示行も併記されているのですが、ＶＰＰの場合と同じく、D0 100のループ（バンド計算上でのｋ点に関してのループです）に並列化が施されています。そしてこれは、


  231 CONTINUE                                                          
  100 CONTINUE                                                          
C$OMP END DO
C$OMP END PARALLEL
!XOCL END SPREAD
C!XOCL END PARALLEL
      RETURN                                                            
      END

で閉じられています。

ＣＯＭＰＡＱ（旧ＤＥＣ）マシンのソフトウェアに関してのマニュアルをお持ちの場合、User Manual for DIGITAL UNIX Systemsの”DIGITAL Fortran 90”、 March 1998年版の６ー１、’Using Parallel Compiler Directives’を参照して下さい。

OpenMPでも、これまで扱ってきたＶＰＰやＳＸでの並列化指示行形式と同じく、データに関しての分割と、手続きに関しての分割があるようです。この場合の手続きの分割は既にあるＶＰＰ用の並列化指示と同じＤＯループに施されています。データの分割は、一見するとかなり面倒なことをやっているように見えます。
ただ、ＶＰＰでもＳＸでも、そしてこのOpenMPでも全て指示行形式なので、指示行を解釈しないマシン上では注釈行として解釈されるます。

個々の指示行の分析

（３／２６、１９９９）OpenMPで使用している指示行の説明を行なってみようと思います。

データ（配列など）分割部分


C$OMP PARALLEL SHARED(EKK,SSS,ZZ2,KZ1,KY1,KX1,UNIVOL,PAI4,NBMAT,
C$OMP& IBA2,IBA,NBASE,NBD2,NBD1,ZCHGO,ZPSCC,NLSPD,WD,WP,WS,ZVXC,
C$OMP& ZFM3,VZ,VY,VX,IGPO,IG3,IG2,IG1,GR,GZ,GY,GX)
C$OMP& PRIVATE(EPS,IOPT,KGB,KBAS,MM,I2,PPMT,II,L1,L2,L3,I1,LNUM,
C$OMP& CD,CP,CS,IIBA,IIKB,AKZ,AKY,AKX,IJG,PPM,EG,ZZZ,ZVN,ZAWORK,
C$OMP& ZWW,WWW,ZAAA,CWL,ICON)

手続き分割部分


C$OMP DO


C$OMP END DO
C$OMP END PARALLEL

OpenMP実行上の不具合修正（１／１４、２０００）

並列化している部分ではないですが、あるサブルーチンの局所配列で、それをメインルーチンに引き渡しておく必要があったのにそれを怠っていました。この場合、次のイタレーションで、その配列の値は本当は（サブルーチン内だけの局所的なものなので）不定になっているはずなのですが、これまでの単一のＣＰＵ動作では前のイタレーションの値は保持されていました（単なる偶然？）。幸いこの局所配列の値そのものは保持されていても、されていなくても実害のないものだったのですが、OpenMPによる並列計算では、実行時におそらくこの配列に絡む計算のところでエラーが生じ、実行が停止していました。
当該配列変数を、メインルーチンへ正しく引き渡せるように書き直すことで、このエラーによる実行停止はなくなりました（１／１４、２０００）。
（１／１７、２０００）正しく計算されていることを確認。尚、このバグの詳細は、最近やらかした計算上のバグ、失敗のレポート１／１７、２０００を参照。
↑上記と同じ過ちを再び犯す（４／２７、２００９）。

（文章移動）

（１／３０、２００９）今や、Core2duoやQuad core(Intel)など、１チップ上に２ないし４個のＣＰＵが載ったものが普通に存在し、Intel FORTRANコンパイラも、普通に並列計算に対応している。隔世の感あり。
（４／２７、２００９）筆者によるプログラムコードのOpenMP化を本格的に始めている（開始は、４／７頃より）。既に、FORCE, FORZFB, KBINT, DIAGON, CHAVER, MSDについて、OpenMP化した。テスト計算段階で、速度は１ＣＰＵの場合と比べて、８ＣＰＵ並列実行で、およそ5.5倍の速度向上が実現した。
（５／１２、２００９）データ分割に問題あり。

[先頭][総目次 ][最初に戻る][ＶＰＰ並列化][ＶＰＰ並列化２][ＳＸ４並列化][並列化情報]