並列タイトル等Accelerating Big Data Processing in Space Sciences with Natural Number Index (NNI)
タイトル(掲載誌)宇宙航空研究開発機構研究開発報告: 宇宙科学情報解析論文誌: 第10号 = JAXA Research and Development Report: Journal of Space Science Informatics Japan: Volume 10
一般注記宇宙科学分野では観測データなど膨大なデータが存在し、それらのビッグデータを組み合わせて解析するニーズが日常的に存在する。その多くはインデックス設計などのチューニングにいちいち時間をかけられない非定型処理である。またそれらの処理時間は長大になりがちで大幅に短縮する必要がある。そこで著者らはこのようなニーズに応えるため、表形式データを多様なケースで高速処理できる、自然数インデックス(NNI: Natural Number Index)の利用を提案する。全ての表形式データはNNI が定める成分に一意に成分分解できる。するとそれらの成分を介して、表形式データに内在する順序関係を使う多様なアルゴリズム群が設計可能になる。既存のインデックスは処理対象データの外部にあるデータ構造を利用し単用途であるが、NNI は処理対象データに内在する順序関係を利用する多用途のインデックスである。NNI は、表形式データに対して、① データのどの部分でも高速処理できる。② 関係代数演算を含む多様な処理を高速化できる。③ 個々の処理が既存のインデックスより桁違いに高速であることが多い。④ 個々の処理を効率的にカスケードして複合処理を作る仕組みを持つ。このためNNI はチューニングレスで汎用的な高速データ処理を実現できる。従って宇宙科学分野のさまざまなビッグデータ処理を設計時と実行時の両方で大幅に効率化できる。つまりNNI は日々のビッグデータの非定型処理を容易にし、加えてこれまでやれなかった処理も実行可能にする。NNI の活用で宇宙科学分野の様々な研究の加速が期待できる。
In the field of space science, there is a need to combine and analyze huge amounts of data such as observation data and other big data on a daily basis. Most of them are atypical processes that we cannot afford to use much time for tunings, such as index design and others. In addition, their processing time tends to be long and needs to be reduced significantly. Therefore, to meet such needs, we propose to utilize the Natural Number Index (NNI), which can process tabular data at high speed in a very wide range of cases. Any tabular data can be uniquely decomposed into the components defined by the NNI. Then, using those components, it becomes possible to design the set of algorithms to access the order relationships intrinsic in the tabular data. While existing indexes are single- purpose, utilizing an external data structure apart from the data to be processed, the NNI is a multi- purpose index utilizing internal order relationships intrinsic in the tabular data. For tabular data, the NNI can (1) process any part of the data at high speed, and (2) speed up a variety of processes, including relational algebra operations. (3) In many cases, individual processing is orders of magnitude faster than existing indexes. (4) It has a mechanism to efficiently cascade individual processes to create compound processes. Thus, the NNI can achieve general-purpose, fast data processing without tuning. Thus, it can greatly improve the efficiency of various big data processing in the space science field, both at design time and at runtime. By using the NNI, we can expect to accelerate various researches in space science.
形態: カラー図版あり
Physical characteristics: Original contains color illustrations
資料番号: AA2030022001
レポート番号: JAXA-RR-20-010
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)
提供元機関・データベース宇宙航空研究開発機構 : 宇宙航空研究開発機構リポジトリ