大量メタゲノム情報に対するアミノ酸配列相同性検索の高速化

国立国会図書館永続的識別子: info:ndljp/pid/9550230

資料種別: 博士論文

著者: 鈴木, 脩司ほか

出版者: -

出版年: 2015-03

資料形態: デジタル

ページ数・大きさ等: -

授与大学名・学位: 東京工業大学,博士（工学）

すべて見る

国立国会図書館での利用に関する注記

本資料は、掲載誌(URI)等のリンク先にある学位授与機関のWebサイトやCiNii Dissertationsから、本文を自由に閲覧できる場合があります。

資料に関する注記

一般注記：: 本論文は大量なデータに対するメタゲノム解析を実行可能とすることを目的として，(1)高速なアミノ酸配列相同性検索アルゴリズムの提案，(2)graphic processing unit(GPU)による高速化，(3)大規模計算機を利用した並列実行について報告する．類似したアミノ酸配列を持つタンパク質同士...

書店で探す

障害者向け資料で読む

障害者向け資料を見る（1種類）

書店で探す

障害者向け資料で読む

他サービス
- テキストデータ国立国会図書館デジタルコレクションで確認する

書誌情報

この資料の詳細や典拠（同じ主題の資料を指すキーワード、著者名）等を確認できます。

デジタル

資料種別: 博士論文
タイトル: 大量メタゲノム情報に対するアミノ酸配列相同性検索の高速化
著者・編者: 鈴木, 脩司
Suzuki, Shuji
著者標目: 鈴木, 脩司
Suzuki, Shuji
出版年月日等: 2015-03
出版年（W3CDTF）: 2015-03
並列タイトル等: Faster Protein Sequence Homology Searches for Large-scale Metagenomic Data
授与機関名: 東京工業大学
授与年月日: 2015-03-26
授与年月日（W3CDTF）: 2015-03-26
報告番号: 甲第9884号
学位: 博士（工学）
博論授与番号: 甲第9884号
本文の言語コード: eng
件名標目: 文字列検索
string search
配列相同性検索
sequence homology search
GPGPU
メタゲノミクス
metagenomics
対象利用者: 一般
一般注記: 本論文は大量なデータに対するメタゲノム解析を実行可能とすることを目的として，(1)高速なアミノ酸配列相同性検索アルゴリズムの提案，(2)graphic processing unit(GPU)による高速化，(3)大規模計算機を利用した並列実行について報告する．類似したアミノ酸配列を持つタンパク質同士には進化的な関係があり，互いによく似た機能を持つことが知られている．このため，類似した配列の情報を用いることでタンパク質の機能を予測することができ，クエリとなるタンパク質のアミノ酸配列と類似する配列を巨大なデータベースの中から見つけ出すアミノ酸配列相同性検索は，生命情報解析の基礎となる手法となっている．近年，DNA配列を読み取る機器であるDNAシーケンサの改良が進んだことにより，短時間に大量の短いDNA配列断片を得ることができるようになった．このため，大量の配列情報を利用した解析を行いたいという要求が高まっている．しかし，微生物の集団から培養を経ずに直接DNA配列を読み取って解析するメタゲノム解析の場合，最新のDNAシーケンサが出力するデータがあまりにも大量であるため，従来用いられてきた検索精度の高いアミノ酸配列相同性検索であるBLASTXでは，多くの処理時間が必要となる．このため，アミノ酸配列相同性検索の高速化が喫緊の課題となっている．(1)の高速なアミノ酸配列相同性検索アルゴリズムの提案では，suffix arrayによる可変長文字列比較を用いたアルゴリズムとデータベースの部分文字列クラスタ情報を用いたアルゴリズムを提案した．Suffix arrayによる可変長文字列比較を用いたアルゴリズムでは，文字列間の類似度指標を基準にしてクエリの部分文字列毎に検索すべき対象文字列の長さを変更し，BLASTXよりも平均的に長い部分文字列を高速に検索する．さらに，クエリとデータベースの両方でデータ構造としてsuffix arrayを用いることで，複数回出現する部分文字列に関してはまとめて検索を行う．このアルゴリズムをGHOSTXとして実装し，典型的な口腔内や土壌のメタゲノムのデータを用いてBLASTXと比較したところ最大約165倍の速度向上が得られることを示した．また，データベースが年々巨大化しているのに伴い冗長な部分文字列が増加している．この冗長な部分文字列に対して効率的なアミノ酸配列相同性検索を行うために，データベースの部分文字列を予めクラスタリングしておき，このクラスタ情報と，文字列間距離に関する三角不等式を利用して詳細なスコア計算を行う回数を削減して高速化するアルゴリズムを提案した．このアルゴリズムをGHOSTZとして実装し，実際のメタゲノムデータを用いてGHOSTXと比較したところ最大約2倍の速度向上が得られることを示した．高速なアミノ酸配列相同性検索アルゴリズムの提案に加え，(2)のGPUによる高速化では，GHOSTZのアルゴリズムを基にしてGPUを用いて検索を行うGHOSTZ-GPUを開発した．GHOSTZ-GPUはGPUのメモリアクセスの最適化やCPUとGPUの非同期処理の利用により，さらなる高速化を行い，12 CPU threadsと3 GPUsを利用した場合，GHOSTZの12 CPU threads利用時よりも最大約7倍の速度向上が得られることを実際のメタゲノムデータを用いて示した．また，(3)の大規模計算機を利用した並列実行では，Message Passing Interface(MPI)を利用し，提案した高速なアミノ酸配列相同性検索を複数ノード上で実行可能とした．実際のメタゲノムデータを用いてTSUBAME2.5の128ノードを利用して実験したところ，BLASTXをMPIによって並列実行するmpiBLASTと比べ，GHOSTXをMPIによって並列実行するGHOST-MPは約89倍の速度向上が得られることを示した．これにより，TSUBAME2.5や「京」などのスーパーコンピュータを利用し，大規模なデータを利用した高速なアミノ酸配列相同性検索が実行可能となった．本研究により最新のDNAシーケンサが出力する全データを利用した大規模なメタゲノム解析が可能となり，環境中の微生物の関係などを詳細に解析するための新たな解析支援ツールとして広く利用されることが期待される．
Sequence homology search is an approach for establishing structural and functional similarity with existing genes or proteins using a variety of databases containing a large number of DNA and protein sequences and the associated biological information. Sequence homology search is used in metagenomics. However, because of improvements in DNA sequencing technology, the volume of sequence data and the number of queries used in this analysis have been increasing rapidly in recent years, and the speed of sequence homology search has become insufficient.In this dissertation, we propose fast protein sequence homology search algorithms that can be applied to metagenomics using the latest DNA sequencing output. We used three approaches: development of novel protein sequence homology search algorithms, acceleration of protein sequence homology search with graphics processing unit (GPU), and parallelization of protein sequence homology search using modern supercomputing environments.We propose a novel protein sequence homology search algorithm that finds similarities between a query and database sequences based on the suffix arrays of these sequences. We used a subsequence search method relying on a similarity-based optimal length. This algorithm designated as GHOSTX provides approximately 165 times faster protein sequence homology search than BLASTX in the analysis of metagenomic data. In addition, we propose a novel protein sequence homology search method based on database subsequence clustering, designated as GHOSTZ. This method clusters similar subsequences retrieved from a database to reduce alignment candidates based on triangle inequality, and its performance in the analysis of metagenomic data is approximately two times faster than that of GHOSTX.In addition, we applied the GPUs and massively parallel computing systems, TSUBAME and the K computer, for protein sequence homology search and show that these approaches provide a significant acceleration of protein sequence homology search.DNA sequencing technology is constantly improving, resulting in generation of vast amounts of sequence data. This explosion of sequence volume makes computational analysis with contemporary tools more difficult. Here, we offer the algorithms, which may provide a potential solution to this problem.
identifier:oai:t2r2.star.titech.ac.jp:50265170
国立国会図書館永続的識別子: info:ndljp/pid/9550230
https://dl.ndl.go.jp/pid/9550230
コレクション（共通）: 障害者向け資料
コレクション（障害者向け資料：レベル1）: テキストデータ
コレクション（個別）: 国立国会図書館デジタルコレクション > デジタル化資料 > 博士論文
https://dl.ndl.go.jp/collections/A00014
収集根拠: 博士論文（自動収集）
受理日（W3CDTF）: 2015-12-01T13:36:39+09:00
作成日（W3CDTF）: 2015-02-20
記録形式（IMT）: application/pdf
オンライン閲覧公開範囲: 国立国会図書館内限定公開
デジタル化資料送信: 図書館・個人送信対象外
遠隔複写可否（NDL）: 可
掲載誌（URI）: http://t2r2.star.titech.ac.jp/cgi-bin/publicationinfo.cgi?q_publication_content_number=CTT100682805
連携機関・データベース: 国立国会図書館 : 国立国会図書館デジタルコレクション
https://dl.ndl.go.jp

大量メタゲノム情報に対するアミノ酸配列相同性検索の高速化

書店で探す

障害者向け資料で読む

目次

書店で探す

障害者向け資料で読む

書誌情報

デジタル