Subject: [onsei-mail 01847] 『現代日本語書き言葉均衡コーパス』モニター公開
From: "Kikuo, MAEKAWA" 
To: onsei-mail@m.aist.go.jp
Date: Thu, 10 Jul 2008 11:47:24 +0900
Reply-To: kikuo@kokken.go.jp
User-Agent: Thunderbird 2.0.0.14 (Windows/20080421)
List-Id: onsei-mail.m.aist.go.jp
List-Software: fml [fml 4.0 STABLE (20030202/4.0.4_ALPHA)]
List-Post: 
List-Owner: 
List-Help: 
List-Unsubscribe: 

音声メールのみなさま、

私どものグループで構築を進めている『現代日本語書き言葉均衡コーパス』のモ
ニター公開をおこないます。書き言葉のコーパスですが、音声研究でもさまざま
な面で利用していただけると思います。

#他のメーリングリストにも同一の案内を流しております。
 重ねて受信された方があると思いますが、ご容赦ください。

前川喜久雄(国立国語研究所)

=====================================================================
国立国語研究所では、2006年度より5年計画で「現代日本語書き言葉均衡
コーパス」(Balanced Corpus of Contemporary Written Japanese、略称
BCCWJ)の構築を進めておりますが、このたび、著作権処理が済んだデー
タについて、学術研究利用に限定して公開することにしました。

今回のデータ公開は「モニター公開」という位置付けです。その目的は、
実際にデータを使ってもらうことにより、コーパスの構築や活用に有益な
フィードバックを得ること、また、コーパスによる言語研究の普及を促す
ことの二つです。

以下、簡単にモニター公開データの概要を記します。

■「現代日本語書き言葉均衡コーパス」モニター公開データ(2008年度版)

1.データ量
  書籍          約1,000万語( 4,669サンプル)
  白書            約500万語( 1,500サンプル)
  Yahoo!知恵袋    約500万語(45,725サンプル)
  国会会議録      約500万語(   159サンプル)
----------------------------------------------
  合計          約2,500万語

2.収録ファイル
・サンプル(プレーンテキスト,XML)
・検索ソフト「ひまわり」
・書誌情報(題名,著者,出版者,出版年,ジャンル等)
・サンプル情報(サンプルのID,抽出ページ,著作権処理状況等)
・著者情報(国会図書館の典拠情報,著者からのアンケーによる情報)
・短単位解析結果(書籍,白書)

3.配布形態
・DVDで配布。申し込み制(要誓約書提出)です。
・利用は無償ですが、配布に係る送料は申請者がご負担下さい。

具体的な利用条件、お申し込み方法等は、以下のURLをご覧下さい。
http://www2.kokken.go.jp/kotonoha/ex_8.html

「現代日本語書き言葉均衡コーパス」は、国立国語研究所の「KOTONOHA
プロジェクト」と文部科学省科学研究費補助金特定領域研究「代表性を
有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基
盤整備」(領域代表者:前川喜久雄)との共同で進めているものです。

それぞれのプロジェクトの内容は、以下のサイトをご覧ください。

○KOTONOHAプロジェクト
  http://www2.kokken.go.jp/kotonoha/
○特定領域研究「日本語コーパス」
  http://www.tokuteicorpus.jp/
=====================================================================