Subject: [onsei-mail 02584] Wikipedia日英京都関連文書対訳コーパスの公開
From: Kiyonori OHTAKE 
To: onsei-mail@m.aist.go.jp
Date: Mon, 15 Nov 2010 14:28:17 +0900
User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; ja-JP-mac; rv:1.9.2.12) Gecko/20101027 Thunderbird/3.1.6

みなさま、
(重複して受け取られた場合はご容赦ください)

NICTの大竹と申します。

この度、NICTからどなたにでもご使用いただける対訳コーパスを
公開いたしましたので、お知らせいたします。


  ●○ NICT MASTARプロジェクトからのお知らせ ○●

[1] この度、独立行政法人情報通信研究機構MASTARプロジェクトでは、
 新しい言語資源を一般公開いたしました。詳細は下記、
 「Wikipedia日英京都関連文書対訳コーパスの公開」をご覧ください。

[2] また、この度、WWWの情報に基づいて音声またはテキストで入力
 された質問に回答する質問回答システム「一休」を開発しました。
「一休」の紹介ビデオを作成いたしましたので、是非ご覧ください。

http://www2.nict.go.jp/x/x161/index.html

[3] すでに多くの方にご利用いただいております、多言語
テキスト翻訳アプリケーションTexTra(テキストラ)と多言語音声
翻訳アプリケーションVoiceTra(ボイストラ)のご紹介ビデオが
YouTubeにてご覧いただけます。

[TexTra]
http://www.youtube.com/user/NICTchannel#p/u/2/oTuYNmMuw7g
[VoiceTra]
http://www.youtube.com/user/NICTchannel#p/u/0/elxumG6oNFo



  ◆◇Wikipedia日英京都関連文書対訳コーパスの公開◇◆

この度、独立行政法人情報通信研究機構MASTARプロジェクトでは、
『Wikipedia日英京都関連文書対訳コーパス』を以下のサイトにて
公開いたしました。

http://alaginrc.nict.go.jp/WikiCorpus/

以下、データの簡単なご説明をいたします。
より詳しい説明やデータのサンプルも上記ページでご参照いただけます。

【概要】
『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、
情報抽出システム等の構築を支援することを目的に作成された
日英対訳コーパスです。独立行政法人情報通信研究機構が
Wikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。


【特徴】
- 人手翻訳による約25万文対を収録した精密かつ大規模なコーパスです。
 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。

- 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの
 3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、
 翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。

- 京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野を
 カバーしています。各種観光情報の英訳や通訳ガイドのための用語集作成、
 英語学習などにもご活用いただけます。各ファイルはその内容によって
 15のカテゴリに分けられ、ディレクトリに分割して格納されています。
 カテゴリは、学校、鉄道(交通関連)、旧家、建造物、神道、人名、地名、
 伝統文化(一部現代文化も含む)、道路、仏教、文学、役職・称号、歴史、
 神社仏閣、天皇です。


【入手方法】
公開サイト(http://alaginrc.nict.go.jp/WikiCorpus/)の
「ダウンロード」からデータを入手していただけます。なお、
本コーパスは、Creative Commons Attribution-Share-Alike
License 3.0の条件の下、一般公開されています。つきましては、
Creative Commons Attribution-Share-Alike License 3.0および
Wikipediaの著作権について十分ご承知の上、ご利用ください。


【今後の展開】
本年11月末に約25万文対を追加公開し、合計約50万文対に拡張されます。
また、NICTで進められている旅行対話翻訳システム、多言語音声対話システム、
音声質問応答システム、概念辞書などの開発にも利用していく予定です。
今後の展開の更なる詳細については、
NICT MASTARプロジェクトホームページをご覧下さい。
NICT MASTARプロジェクトホームページ: http://mastar.jp/