並列タイトル等Large-scale data processing with Pwrake, a parallel and distributed workflow system
タイトル(掲載誌)宇宙航空研究開発機構研究開発報告: 宇宙科学情報解析論文誌: 第1号 = JAXA Research and Development Report: Journal of Space Science Informatics Japan: Volume 1
一般注記大規模な科学データ処理のため,計算機クラスターによる高性能な並列処理が必要とされている.特別な並列プログラミングを必要とせずにこれを実現するため,私たちはワークフローシステムPwrakeを開発している.PwrakeはRakeというビルドツールをベースにしており,これによりプログラミング言語を活用した高度な科学ワークフロー定義が可能となる.Rakeに並列分散機能およびGfarmファイルシステムのサポート機能を拡張したものがPwrakeである.Pwrakeの性能評価のため,天文画像処理ソフトウェアMontage のワークフローをRakeで記述し,Pwrakeを用いて実行時間を測定した.Gfarmで実行した結果はスケーラブルな性能向上を示し,ローカルストレージの利用を高めることで性能が14%向上した.さらに2 拠点のクラスタを用いた測定においてもスケーラブルな性能向上を達成した.
High-performance parallel processing with a distributed computer cluster is inevitable for handling large-scale science data. We are developing Pwrake, a parallel and distributed workflow system, to enable parallel and distributed processing without special programming technique. Pwrake is based on Rake, a Ruby version of make command. Rake has the feature that workflow definition can be written in programming script, and it brings the power of writing complex scientific workflows. Pwrake provides Rake with functions for parallel and distributed execution and the support for Gfarm filesystem. The workflow of Montage, astronomical image processing software, is written in Rake and its performance is measured using Pwrake. The result shows that Gfarm provides a scalable performance, and that the use of local storage improves performance by 14%. In addition, the result using clusters at two sites also shows a scalable performance improvement.
形態: カラー図版あり
Physical characteristics: Original contains color illustrations
資料番号: AA0065236009
レポート番号: JAXA-RR-11-007
一次資料へのリンクURLhttps://jaxa.repo.nii.ac.jp/?action=repository_action_common_download&item_id=2026&item_no=1&attribute_id=31&file_no=1
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)
提供元機関・データベース宇宙航空研究開発機構 : 宇宙航空研究開発機構リポジトリ