並列タイトル等Term Extraction from Meteorological Papers Based on Degree of Specicity of Terms
タイトル(掲載誌)宇宙航空研究開発機構研究開発報告: 宇宙科学情報解析論文誌: 第1号 = JAXA Research and Development Report: Journal of Space Science Informatics Japan: Volume 1
一般注記出版タイプ: NA
近年のコンピュータ,インターネットの発達により,人々が扱う事のできるデータが膨大になっている.特に,テキストデータはWWWを通じて膨大な量をアクセスすることが可能である.また,Wikipediaのように,質の保証されたテキストデータも出現し,これら多様かつ膨大なテキスト情報から有用な情報を抽出することが重要である.一方,科学分野でも膨大な情報をいかに活用するかは重要な課題である.テキストデータの観点からは,バイオ医学分野のPubMedが著名な例であり,PubMedからの知識抽出などが試みられている.本研究では気象分野を対象に,論文データベース,Wikipedia, WWWを利用した専門語の抽出を行う.専門語の自動抽出は,特定分野のオントロジー構築に利用できるなど,さまざまな応用が期待される.本研究では,特に単語の専門性の指標を導入することにより,専門語の判別を行う.
Recent remarkable development of ICT technologies has made us possible to process huge amount of data. In particular, we can get massive text information though the World-Wide Web. It should be noted that, among such information sources, there have been many Web sites, such as Wikipedia, where high quality information is provided. As a consequence, it has been an important issue how to extract useful information out of such heterogeneous information sources. In the meantime, in many scientific fields, extracting useful information out of massive information resources has been a major challenge. For example, in the biomedical field, PubMed, a well-known bibliographic database, has been used to extract useful knowledge. In this paper we try to extract technical terms out of heterogeneous information sources, such as papers, Wikipedia, and WWW in the meteorological field. To this end, we introduce the degree of specificity of a term to judge that whether the term is a technical term.
形態: カラー図版あり
Physical characteristics: Original contains color illustrations
資料番号: AA0065236020
レポート番号: JAXA-RR-11-007
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)
提供元機関・データベース宇宙航空研究開発機構 : 宇宙航空研究開発機構リポジトリ