Subject: [onsei-mail 02615] Wikipedia日英京都関連文書対訳コーパスVersion 2.0 公開のご案内
From: Kiyonori OHTAKE 
To: onsei-mail@m.aist.go.jp
Date: Fri, 24 Dec 2010 14:28:08 +0900
User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; ja-JP-mac; rv:1.9.2.12) Gecko/20101027 Thunderbird/3.1.6

音声メールのみなさま、
(重複して受け取られた場合はご容赦ください)

NICTの大竹と申します。

この度、NICTからどなたにでもご使用いただける対訳コーパスを
公開いたしましたので、お知らせいたします。

この度、独立行政法人情報通信研究機構MASTARプロジェクトでは、
『Wikipedia日英京都関連文書対訳コーパスVersion 2.0』を
以下のサイトにて公開いたしました。
http://alaginrc.nict.go.jp/WikiCorpus/

『Wikipedia日英京都関連文書対訳コーパスVersion 2.0』は、
10月に公開いたしましたVersion 1.0(約25万文対)に約25万文対を加え、
合計約50万文対に拡張したものです。また、このコーパスに含まれる
日英対訳約5万語対を収録した『日英京都関連対訳用語集』が
新たに付属しております。以下、コーパスの簡単なご説明をいたします。
より詳しい説明やデータのサンプルも上記ページでご参照いただけます。

【概要】
『Wikipedia日英京都関連文書対訳コーパス Version 2.0』は、
高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に
作成された日英対訳コーパスです。独立行政法人情報通信研究機構が
Wikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。

【特徴】
- 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。
  高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。
- 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの
  3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、
  翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。
- 京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野を
  カバーしています。各種観光情報の英訳や通訳ガイドのための用語集作成、
  英語学習などにもご活用いただけます。各ファイルはその内容によって15の
  カテゴリに分けられ、ディレクトリに分割して格納されています。カテゴリは、
  学校、鉄道(交通関連)、旧家、建造物、神道、人名、地名、伝統文化(一部
  現代文化も含む)、道路、仏教、文学、役職・称号、歴史、神社仏閣、天皇です。

【入手方法】
公開サイト(http://alaginrc.nict.go.jp/WikiCorpus/)の「ダウンロード」から
データを入手していただけます。本コーパスおよび用語集は、Creative Commons
 Attribution-Share-Alike License 3.0の条件の下、一般公開されています。
つきましては、Creative Commons Attribution-Share-Alike License 3.0および
Wikipediaの著作権について十分ご承知の上、ご利用ください。

【今後の展開】
NICTで進められている旅行対話翻訳システム、多言語音声対話システム、
音声質問応答システム、概念辞書などの開発にも利用していく予定です。
今後の展開の更なる詳細については、NICT MASTARプロジェクトページをご覧下さい。
NICT MASTARプロジェクトページ: http://mastar.jp/


-- 
大竹 清敬(おおたけ きよのり)  E-mail: kiyonori.ohtake [at] nict.go.jp
情報通信研究機構 知識創成コミュニケーション研究センター
MASTARプロジェクト 言語基盤グループ
TEL: 0774-98-6329 FAX: 0774-98-6940