Subject: [onsei-mail 02584] Wikipedia日英京都関連文書対訳コーパスの公開 From: Kiyonori OHTAKETo: onsei-mail@m.aist.go.jp Date: Mon, 15 Nov 2010 14:28:17 +0900 User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; ja-JP-mac; rv:1.9.2.12) Gecko/20101027 Thunderbird/3.1.6 みなさま、 (重複して受け取られた場合はご容赦ください) NICTの大竹と申します。 この度、NICTからどなたにでもご使用いただける対訳コーパスを 公開いたしましたので、お知らせいたします。 ●○ NICT MASTARプロジェクトからのお知らせ ○● [1] この度、独立行政法人情報通信研究機構MASTARプロジェクトでは、 新しい言語資源を一般公開いたしました。詳細は下記、 「Wikipedia日英京都関連文書対訳コーパスの公開」をご覧ください。 [2] また、この度、WWWの情報に基づいて音声またはテキストで入力 された質問に回答する質問回答システム「一休」を開発しました。 「一休」の紹介ビデオを作成いたしましたので、是非ご覧ください。 http://www2.nict.go.jp/x/x161/index.html [3] すでに多くの方にご利用いただいております、多言語 テキスト翻訳アプリケーションTexTra(テキストラ)と多言語音声 翻訳アプリケーションVoiceTra(ボイストラ)のご紹介ビデオが YouTubeにてご覧いただけます。 [TexTra] http://www.youtube.com/user/NICTchannel#p/u/2/oTuYNmMuw7g [VoiceTra] http://www.youtube.com/user/NICTchannel#p/u/0/elxumG6oNFo ◆◇Wikipedia日英京都関連文書対訳コーパスの公開◇◆ この度、独立行政法人情報通信研究機構MASTARプロジェクトでは、 『Wikipedia日英京都関連文書対訳コーパス』を以下のサイトにて 公開いたしました。 http://alaginrc.nict.go.jp/WikiCorpus/ 以下、データの簡単なご説明をいたします。 より詳しい説明やデータのサンプルも上記ページでご参照いただけます。 【概要】 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、 情報抽出システム等の構築を支援することを目的に作成された 日英対訳コーパスです。独立行政法人情報通信研究機構が Wikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。 【特徴】 - 人手翻訳による約25万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 - 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの 3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、 翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 - 京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野を カバーしています。各種観光情報の英訳や通訳ガイドのための用語集作成、 英語学習などにもご活用いただけます。各ファイルはその内容によって 15のカテゴリに分けられ、ディレクトリに分割して格納されています。 カテゴリは、学校、鉄道(交通関連)、旧家、建造物、神道、人名、地名、 伝統文化(一部現代文化も含む)、道路、仏教、文学、役職・称号、歴史、 神社仏閣、天皇です。 【入手方法】 公開サイト(http://alaginrc.nict.go.jp/WikiCorpus/)の 「ダウンロード」からデータを入手していただけます。なお、 本コーパスは、Creative Commons Attribution-Share-Alike License 3.0の条件の下、一般公開されています。つきましては、 Creative Commons Attribution-Share-Alike License 3.0および Wikipediaの著作権について十分ご承知の上、ご利用ください。 【今後の展開】 本年11月末に約25万文対を追加公開し、合計約50万文対に拡張されます。 また、NICTで進められている旅行対話翻訳システム、多言語音声対話システム、 音声質問応答システム、概念辞書などの開発にも利用していく予定です。 今後の展開の更なる詳細については、 NICT MASTARプロジェクトホームページをご覧下さい。 NICT MASTARプロジェクトホームページ: http://mastar.jp/