PETA09-fu2-1

【前へ】

付属資料２　Frontiers '96 出張報告

　Frontiers'96はThe Sixth Symposium on the Frontiers of Massively Parallel Computingの略称で、IEEE Computer Societyが後援、NASAが協賛して開催された。

1.　開催場所: 米国メリーランド州アナポリス、ローズアナポリスホテル
2.　日程: 96/10/27(日) - 10/28(月)　ワークショップ
96/10/29(火) - 10/31(木)　シンポジウム（テクニカルプログラム）
3.　出席者: 　出席者人数は、前年とあまり変わらず、事前登録者は111名、このうち日本から６名が参加した。AITEC以外の日本からの出席者は、以下のとおり。（敬称略）
雨宮真人（九州大学）
中村　壽（高度情報科学技術研究機構）
中島研吾（三菱総研）
牧野淳一郎（東京大学）

4.　講演内容

4.1　ワークショップ

　The Petaflops Frontier、 Domain Specific Systemsの二つのワークショップが、同時並行に開催された。前者は、アプリケーションアルゴリズム、新アーキテクチャモデル、デバイステクノロジに関するワークショップである。メインのワークショップのこともあり、出席者の多くが、このワークショップに参加した。後者は、特殊用途向けプロセッサに関するワークショップで、新しくできたワークショップである。参加者が10名足らずと低調である。このため、以下、"The Petaflops Frontier" について報告する。

　"The Petaflops Frontier" は、講演、一般発表、パネル討論で構成される。今回の主要テーマは、NSFがファンドし、DARPAとNASAがそれを補助しているPoint Design Studiesと呼ばれる100テラフロップスマシンの研究成果発表である。この研究は、10年で100テラフロップスマシンの完成を目指すもので、研究成果は、ワークショップとシンポジウムのそれぞれで発表された。

　また、超伝導デバイス関連の発表が数件あり、そこには意外な熱気があった。

　100テラフロップスマシンの研究以外の発表は、ペタフロップス達成までの道のりが長いためか、焦点の定まった発表はないようである。

4.1.1　講演１：TERA Looks at Peta（テラからペタへ）：Issues in Compilers and Operating Systems

　講演では、OSボトルネック、マルチサーバボトルネック、パラレルプログラミング、混在モードパラレルプログラミング、スケジューリング法に対するプログラマのコントロールに関するコンパイラとオペレーティング・システムの問題点が論じられた。

4.1.2　講演２：An Introduction to Petaflops Point Design Studies

　NSFによる100テラフロップスマシンの研究紹介である。

　現時点でのアーキテクチャの特徴は、以下のとおりである。

プロセッサ100万台並列動作

不均一メモリアクセス・モデルまたは分散メモリアーキテクチャ

複合マルチレベルメモリ階層

複雑なソフトウェア

Grand Challenge User Feel（グランドチャレンジのユーザニーズ）

入出力問題

　1997年の焦点となる分野は以下のとおりである。

プログラミング環境とツール

グラフィクスと可視化

HPC Application

4.1.3　Architecture and Technology に関するPoint Design Studies
　NSFファンドによる8件の研究発表である。

（1）

Persuing a Petaflops: Point Designs for 100 TF Computers Using PIM Technologies、P.M.Kogge et.al. ノートルダム大
　PIMテクノロジはピン数に制限されず、CPUコアが簡単にできる。CPU-DRAMバンド幅を大きくでき、トランジスタ効率が良い、といった利点が主張された。

（2）

Hybrid Technology: Multi-Threaded Architecture、G.Gao、SUNY、 Caltech/JPL
　1000台の100GHz動作のプロセッサに小規模の超伝導メモリキャッシュをつなぎ、この部分で相互接続する。そのバスにはバッファを通して77Kに冷却した1 GHz 動作のSRAMを接続し、光パケットを通して256MBのDRAMに接続されるといういろいろなテクノロジの混合。

（3）

Design Studies on Petaflops: Special-Purpose Hardware for Astrophysical Perticle Simulations、F.Summers et. al.、コロンビア大、イリノイ大
　GRAPEについての発表。

(a): GRAPEは2000年までにペタ実現、汎用に比べ3-10年進んでいる。
(b): 汎用にすれば安くなるが、このままでも10Mドル未満でできる。
(c): N-体問題はやりやすい。
(d): ソフト的にはなにもやることはない。
(e): G-4について 100MflopsのHOST、30MHz,0.6Gflops/pipeline
1692pipelineで1Tflops---HARP chipはMCM
(f): G-6について0.25μm、150MHz、15pipeline/chip ---130Gflops
104Chips------Petaflops実現

（4）

The Illinois Aggressive Cache-Only Memory Architecture Multiprocessor (I-ACOMA)、J.Torrellaset.al.、イリノイ大

（5）

MORPH: A Flexible Architecture for Executing Component Software at 100 TeraOPS、A.A.Chien et.al.、イリノイ大

（6）

Architecture, Algorithms and Applications for Future Generation Supercomputers、V.Kumar et.al.、ミネソタ大

（7）

Hierachical Processors- and- Memory Architecture for High Performance Computing、R.Eigenmann et.al.、ノースウエスタン大

（8）

A Scalable-Feasible Parellel Computer: Implementing Electronic and Optical Interconnections for 156 TeraOPS Minimum Performance、A.T.Chronopoulous、Wayne州立大

4.1.4　超伝導素子に関する発表

(1): A/D converter 3.5μm rule、7GHz、1778 JJ　ができている。
(2): 動作速度、消費電力はCMOSと比較して非常に有利と主張されている。

	CMOS	RSFQ
1bitあたりの消費エネルギー(J)	10^-13	10^-18
10²⁰bitあたりの消費電力（W)	10⁷	10²

(3): アーキテクチャの形態
　Point Design StudyでSUNYのGaoが発表した形体（100GHz×1000processors+超伝導メモリ）+（77K 1GHz SRAM）+256M DRAMが再掲されていた。
(4): ロードマップ

西　　暦	1998	2001	2004	2007
ルール(μm）	3.5	1.5	0.8	0.5
ゲート数（Kgate/cm²)	10	30	100	1000
電流(kA/cm)	1	6.5	20	50
C(aF/μm²)	45	60	67	75
clock(GHz)	150	300	500	700
LSI動作(GHz)	30	60	100	150
消費電力(μW/gate)	0.03	0.06	0.1	0.15
cost/gate(millicent)		50	10	1

(5): 高温超伝導素子について感触をさぐる質問に対して、Rikharevは「High Tcは何もできない」と答えた。他にも「ゴミだ」と言う人もありさんざんであった。超伝導素子自体を「SFだ」という人もおり、期待と実際のギャップを感じた。
(6): 大容量メモリについては基本的に半導体メモリを使用すると結論していた。
(7): HYPRES社について
TATは3〜4weeksで10release/yearの実績がある。
集積度は20,000JJまでいった。
high volumeが可能。
demonstrated yieldとreliabilityを達成できると主張。
2KRAM(10K以上のJJ）、144GHz counterを作製した。
クリーンルームの写真を見せられたが、帽子と白衣（クリーンスーツではない）だけでとてもクリーンとは思えない
(8): TRW社について
Super Electoronicsとしてとらえている（Power densityに注目）

作製技術の信頼性：critical current比が1年に亘り1.0〜1.2におさまる。

クラス10のクリーンルームを使用している。（まともそうである）

現在3インチを使用しており、将来は6インチへステップアップする。

test equipment：小型冷却機を使用しているが、1素子ずつ測定なので、スループットが悪い。

パッケージは300milで800pHと低インダクタンスを達成している。

シンセサイザ（2.02GHz、2000A/cm2、4phase clock)を作製した。

multi Gbit packet SW、10 GHz communication SWを目標としている。
その構成は、Input--GaAs--JJ Amp--SFQ--JJ Amp--GaAs--Laserの階層をとる。

4.1.5　アプリケーションとシステムソフトウェアに関する発表を以下に示す。

(1): System Software for Petaflops Computers、I.Foster、Argonne国立研究所
(2): Compiling for Petaflops、B. Carlson、Intermetrics
(3): The Size of the Digital Universe、S. Hoban、CESDIS
(4): Why Do Computational Requirements Cluster at 10 Petaflops-Days ?、G. Lake、ワシントン大
(5): N-body Methods at Petaflops、J. Salmon、Caltech

4.1.6　パネル討論１　Architecture and Technology Issues

司会者と12人のパネラーが議論を先導した。

話題としてメモリバンド幅、メモリ階層構造、パーティション、プログラミング・モデル、製作、超伝導デバイス、言語、量子コンピューティングが登場した。

4.1.7　パネル討論２　Any and all Petaflops Issues

問題提起の一人 + 会場の人々による討論があった。

ペタフロップスは、1,000,000以上の並列性の中味は、1,000以上のユニット×1,000以上の内部並列性である。

デザインの検討にコストモデルが必要

ユーザがメモリ階層をコントロールできる？という意見とすべてが自動化されるべき？という意見が出た。

4.2　シンポジウム（テクニカルプログラム）

　講演、パネル討論、一般発表で構成され、食事中にスピーチがなされた。

4.2.1　講演１： From ASCI to Teraflops

　ASCIは、DOEのテラフロップス・マシンプログラムである。

(1): 目的：核兵器の安全性と性能を予測する技術開発（による予算獲得）
(2): 必要な技術
仮想製作のための三次元シミュレーション
流体物理+化学反応+爆発のシミュレーション
(3): 2001年には+30Tflops/10TB、2003年には100Tflops/30TBを実用化する
(4): 1996年度予算は8,500万ドルであり、うちわけではアプリケーションソフトがトップ
(5): 導入されるシステムは次の３システムである。
Red system：Sandia National Lab.
　Intel 1.8Tflops, 9072CPU, 608GB
Blue systemはSMPクラスタで、hierarchy memory, distributed shared memory, MPIを含み、次の２システムが導入される。
Pacific Blue:Lawrence Livermore
　IBM 3.3Tflops, 4096 Power PC, 512node
Mountain Blue:Los Alamos
　CRAY 3.1Tflops, 3072 Processor, 1.5TB　(1998年）

4.2.2　講演２： Parallelism in the Deep Blue Chess Automaton

　Deep Blueは、IBMが開発したチェスマシンである。

1996年の勝敗はコンピュータの1勝3敗2引分けである。

IBMチェスマシン性能は汎用のパラレルマシンの10Teraflopsに相当する。

Deep Blue Chess Chipと呼ばれるチェス専用チップを開発した。

RS6000/SPからVulcanネットワーク経由で利用している。

Deep Blue Chess Chip→
（http://www.chess.ibm.park.org/deep/blue/dbphotos.html）

4.2.3　Independence Day

大型機小型機を含め、Unix機メーカーが、結局勝つことを映画にたとえた。

Post RISCはMultiple Independent OperationとSingle Cycle Dispatch & Excutionである。

Exemplar SPP2000 と HP PA8XXXを紹介

2000年のスーパーコンピュータはテラフロップスマシン、1TBメモリ、汎用MPP、Unix OS、フォートランとＣ言語で構成されると予測。

4.2.4　パネル討論１：How Do We Break the Barrier to the Software Frontier ?

研究投資だけでなく開発投資が必要

チャレンジとは Extreme Scale Parallel SystemとNetworked Virtual Supercomputerである。

新しいスタートのために、新プログラミングモデルが必要

問題は、まずいアーキテクチャである。

HPCシステムソフトウエアテクノロジセンタをスタートする。

現時点では、優れたデザインより原理原則のほうが重要

4.2.5　パネル討論２：Petaflops Alternative Paths

　H/W : COTS ? 安く早くできる ? アーキテクチャは ?　レイテンシは?
　S/W : 10万以上のプロセッサをどうする ?

という問いに対して、次の解答があった。

（1）: PIMがソリューション
（2）: CMOSは最終コンポーネント
（3）: DSM、COWアーキテクチャが条件を満足
（4）: 答えは、Mixed Heterogeneous Computing
（5）: Superconducting Deviceに期待
（6）: ペタ・マシンの性質
1-100ＴＢメインメモリ
1PBセコンダリメモリ
1TB I/O
+60,000CPUs×1M parallelism
メモリ部分で100,000個のピン
（7）: アプリケーションの候補
Just in time aircraft design and manufacturing
Designing new materials
Modeling U.S. economy
Cosmology
Genome comparison
Drug design
3D heart models
Real time atmospheric turbulence computation
他

4.2.6　一般発表

　以下のテーマに関係する発表があった。

Scheduling

Routing

Applications & Algorithms

Petaflops Computing / Point Design Studies

SIMD

I/O Techniques

Memory Management

Synchronization

Networks

Performance Analysis

4.3　食事中のスピーチ

Ceremony to transfer MPP to Smithsonian Institution
MPPがスミソニアン博物館に展示されるために、その鍵を受け渡しするセレモニー

Direction and Goals in Advanced Computing
- A perspective on the National Agenda
　このスピーチに対し、日本人以外の出席者から、「日本との共同研究について、意見を聞きたい」という質問があった。その回答に期待したが、共同研究の是非についての回答はなく、「ペタフロップスを目指すシンポジウムに、これだけの人が集まったという事実が大きい」という抽象的な回答に終わった。

5.　入手資料

Frontiers'96 Proceedings

PetaFlops Systems Workshops Proceedings

付属資料３　Frontiers '96参加報告書

電子技術総合研究所関口智嗣

　The Sixth Symposium on the Frontiers of Massively Parallel Computingという正式名称を持ち通称Frontiers '96と呼称されるIEEE主催の会議に参加したのでその報告を行う。

　本会議は10月27日(日)から31日(木)までの５日にわたり、前半27日と28日はワークショップ形式、後半の３日間はシンポジウム形式で開催された。報告者は日程の都合から後半のシンポジウムにのみ参加した。

　会場となったアナポリス市(Annapolis)はメリーランド州(Maryland)の州都であり、米国首都ワシントンDCから40分ほどの郊外にある。また、ここにはNAVAL Academyや軍港も近くに擁した首都圏の軍事拠点でもあり、水兵さんの姿がよく見かけられた。しかし、町そのものはこじんまりとした米国では数少ない歴史を感じさせる町でもあった。それも、そのはずで首都がワシントンDCに移る以前に半年ほどであるが連邦の首都として位置づけられたことがあったようだ。このような地理条件で開催されたのは、このワークショップ主催の中心となっているグループが主にNASA関係であることが大きく影響していると思われる。すなわち、NASA Goddard Space Flight Centerが同州のGreenbelt市にあり、会場からは30分程度のドライブで通えるという地理関係にあること。さらに、先にも述べたように、ワシントンDC（ならびに郊外）まで１時間程度の距離にあるため、NASA関係はもとより、エネルギー省、DARPA等のファンディングエージェンシーからの参加が容易であり、また非常に目立ったことも特徴であろう。この他にも省庁からのリタイア組が多い地元のGeorge Mason Universityから年配(ご高齢)の先生方が参加され,元気に討論に参加しておられた。

　参加者は130名程度、そのうち米国以外からの参加は日本からわれわれを含めて７名、中国から１名、オランダから１名であった。日本人の比率が高く、Massively Parallel Computingに対する興味と期待の高さを物語っているのであろう。

　会議のセッション構成は以下の通りである。

招待講演："From ASCI to Teraflops", John Hopson, ASCI
Session 2A: Scheduling 1
Session 2B: Routing
Session 3A: Applications and Algorithms
Session 3B: Petaflops Computing / Point Design Studies
Panel: "How Do We Break the Barrier to the Software Frontier ?"
招待講演：（タイトル失念、IBMチェスマシンDeep Blueの履歴）
Session 5A: Scheduling 2
Session 5B: SIMD
Session 6A: I/O Techniques
Session 6B: Memory Management
Panel: "Petaflops Alternative Paths"
招待講演："Independence Day", Steve Wallach, HP-Convex
Session 8A: Synchronization
Session 8B: Networks
Session 9A: Performance Analysis
Session 9B: Petaflops Computing / Point Design Studies

　今回でMassively Parallel Computingに関しては10回目の記念大会と位置づけられていた。今年からSteering Committeeも入れ替わったため、歴代の実行委員長などが勢揃いしたLunchonやBanquet において、しつこいくらいに先駆者たちの先見性を称えていた。日本でもSWoPPが来年でちょうど10年目であるから、ほぼ同程度の歴史を持っているといえよう。
　本シンポジウムのセッション構成の特徴としてはPetaflops Computing / Point Design Studiesというのがあげられる。これは、シンポジウムを通じて２セッション、８件の発表があった。これは今年度からNSFが総額100万米ドル程度の予算を立てて、調査研究を公募し採録された８件の提案書に関する進捗状況報告会という位置づけであった。具体的な８テーマについてはすべてフォローできなかったが、いくつかのテーマとして

GRAPEを用いたシミュレーションエンジン(Princeton他)
ジョセフソン接合を用いた高速デバイス(Caltech他)
Illinois Aggressive Coma (U of Illinois、CS)
Polaris Compiler (Purdue他)
PIM: Processor In Memory (Stanford？)
光デバイスによる高速（広域？）ネットワーク

などが確認できた。ただ、予算額からも想像できるようにまだ実現に向けて具体的な話しがあるわけではなく調査基礎研究としての提案に過ぎないようである。目標は今後20年でPetaflopsを実現するための要素技術開発である。

　このシンポジウムの雰囲気としては、先行したワークショップでかなり議論が尽くされたようで、あまり活発なものではなかった。参加者の誰かの発言であったが、「われわれは今、遠い星を射ようとしている。そのために、最初にやることべきことは月を正確に射る技術ではないか」と。すなわち、誰もが目標となるゴール（ペタフロップス）は理解できる、がそのためのアプローチがバラバラでこれでは月にも到達することができないとの懸念なのであろう。確かに、それぞれのプロジェクトが掲げるゴールははるか遠方に設定してあり、すべてが実現することは非常に困難である。仮にビッグプロジェクトとなるのであれば、これらの要素技術をいかに組み合わせていくか、またコーディネートしていくかという手腕が問われるであろう。

　パネル討論について。非常にタイトルとしては興味深い２つのパネル討論が行われた。まず、"How Do We Break the Barrier to the Software Frontier ?"というものであった。Paul Messina (Caltech) がチェアをし、パネラはIan Foster (ARNL), JohnSalmon (Caltech), Bob Lucas (DARPA), Bill Carlson (IDA-CCS), Rod Oldehoeft(DoE) であった。討論の概要としては

実はまだ本当の障害はまだわかっていない。というのも、どのようなアーキテクチャでいくのか、メモリ構成、システム構成、デバイス技術などまったく何も仮定されないこの状況でソフトウエアの隘路は議論できないとの声。
（いつもの議論であるが）レガシーコードをどのように扱うか。もちろん、こうしたコードは扱う必要なしという声が多数。反論としてHPFなどの活動があげられるが、ペタフロップスのI/Oなど、どのように想定できようかと再反論。
オブジェクト指向型言語についてはHPC++のような活動を加味してもまだまだ実用
に耐えられないし、今後も難しいであろうとの声。これよりも現在のFortranコンパイラからの並列性抽出と制御の方が重要ではないかとの指摘。やはり関数型言語だ！との声はJack Dennis氏であったか（？）

といったところが、議論されていたが、やはり具体的な論点に欠けていたと思われる。"Petaflops Alternative Paths"については、NASA Amesで以前からベンチマーク・性能評価研究をやり、最近ではNas Parallel Benchmarkで著名なDavid Baileyが司会を務めた。JJデバイス技術から分散ソフトウエアまで幅広く人材を集めたが、かえって散漫する結果を招いたといえる。いずれにしても、こうしたテーマでのパネル討論は「いいっぱなし」になるので非常に進行が難しい。さて、内容としては、

こうした議論の前にアプリケーションをまず考えなくては、という声に対して、軍需、セキュリティ、地球シミュレーション（？）という解があげられた。仮に、ペタフロップスマシンをJAPANが最初に作った場合に前２者の用途に使えるのかという冗談交じりの質問が出たが、「コピーを作って、米国企業が売ればよい！」とかわされた。
本来の議論に戻って、単独のマシンとしてペタフロップス級のものができなかったとしたらという前提で、今後マルチプラットフォーム、マルチアーキテクチャ、マルチソフトウエアモデルを統合するソフトウエア基盤システムが重要であり、それを用いて分散コンピューティングを実現するのだという意見に皆うなずく。
それぞれの技術に対する個別の質問がなされ、JJが思ったより進んでいるのに驚く。後藤先生の磁束量子ジョセフソンのアイデアに基づくものであるようだ。GRAPEをJJで作るのか！？との声はパネル終了後の意見。

　招待講演ではやはりJohn Hopson (Los Alamos National Lab.) の "From ASCI toTeraflops"と控えめな表題が注目を集めた。ASCIとはAccelerated Strategic Computing InitiativeというDoEがその存在を賭けて始めたビッグプロジェクトである。これは、核実験全面停止条約の世界的合意を受けて、地下実験全廃、新規開発禁止となるため、現在保有の核兵器をどのように管理・処理を行っていくかを計算機にてシミュレートしようという壮大な計画である。ちょっと考えてみただけでも、フェムト秒スケールの核反応から年のオーダーの放射能による影響までをとりこもうというのであるから、その複雑さは地球シミュレータの比ではない。2005年をめどに、 3D-Full Physicsを取り込んだアプリケーションの開発と計算機での実現をDoE核兵器関連3研究所 (Sandia, Lawrence Livermore, Los Alamos) の連携強化により推進する計画である。このあたりに、DoEの生き残り戦略が見えてくる。「超並列計算機」という立場でみると、すでにASCI Red (Sandia), ASCI Blue (Pacific: Livermore, Mountain: Los Alamos)という2つ(実質は3つ)の調達を完了している。DoEの責任者Paul Smith氏によれば、「計算機技術の研究開発は直接実施せず、すべて民間からの調達として遂行するのが大きな特徴であると語ってくれたが、この手法は以前、我が国が「大型研究開発制度(大プロ)」で実施し、米国から「官民癒着・護送船団」などと散々非難されたものと対象こそ違え、まったく同じ物ではなかろうか。

　いずれの調達もまず今年度中にプロトタイプを納入し、その後、リフレッシュするという手順になっている。RedはIntelが受注し最終的に9,072台の200MHz Pentium Proを接続し、Paragonのような設計にすると思われる。Pacific BlueはIBMが受注し、8台構成SMPをノードとしてSP-2のような高速スイッチにより512ノードまで接続する計画である。Mountain BlueはCRI/SGIのORIGIN2000を採用し、3,072台構成とし、Los AlamosのACL(Advanced Computing Lab.)に納入される1,024台システムと最終的には協調運転を行い、4,096台システムとして稼動することを条件としている。ORIGINはStanford DASHのアーキテクチャを踏襲した商用開発版といえる。ASCIは商用システムをベースとしているため、着実なマイルストーンが設定してあるともいえる。

　個別の講演としてはイリノイ大のA-ICOMAアーキテクチャ(KSRに酷似)やテネシー大の行列演算におけるFault Toleranceに関するものが興味を引いた。

　なお、11月17日より米国ピッツバーグにて開催されるIEEE/ACM Supercomputing'96においても"Petaflops Computing" と題したRound Table (パネル討論のようなもの) が開かれる。ここでも、Messinaがコーディネートし、今回のシンポジウムの報告と、今後の動向について議論される予定である。また、ASCIについても詳細な講演シリーズがあるようだ。

　以上、文中にも記載した通り、目標はわかっているが、最初の一歩、マイルストーンの設定に誰も解を見いだせないでいるのが現状ではなかろうか。そのために、とりあえずは予算措置のひとつと位置づけている研究者も多い。また、例えばASCIのようにアプリケーションを絞り込むのが技術開発においても重要となろう。我々の場合には何とするか、今後の委員会で議論が待たれるところである。

付属資料２ Frontiers '96 出張報告

付属資料３ Frontiers '96参加報告書

付属資料２　Frontiers '96 出張報告

付属資料３　Frontiers '96参加報告書