Subject: モニター公開のご案内
From: Kikuo MAEKAWA 
To: onsei-mail@etl.go.jp
Date: Mon, 11 Jun 2001 15:39:44 +0900
X-Mailer: ATMail [Version 2.0 pl 0]


        『日本語話し言葉コーパス』モニター公開のご案内

標記コーパスは,日本語自発音声の研究を促進するために,科学技術振興調整
費開放的融合研究の枠組みで,国立国語研究所,通信総合研究所,東京工業大
学の三者が協力して開発を進めているものです.

今般,このコーパスの一部をモニター公開いたします.試用ご希望の方は下記
をご覧いただいたうえ,6月20日までに下記7の方法でお申込みください.

                             東京工業大学	古井  貞煕
                             国立国語研究所	前川喜久雄
                             通信総合研究所	井佐原  均

---------------------------------------------------------------------

1『日本語話し言葉コーパス』とは?

モノローグを対象とした日本語の自発音声コーパスです.主要な収録源は,
  A:学会講演音声
  B:模擬講演音声
の二種類で,最終的には700万語,時間にして650〜700時間となる予定です.

学会講演は種々の学会での研究発表や招待講演などの音声をライブ録音したも
のです.従って録音状況は会場によって様々です.

模擬講演は,年齢(20代から60代)と性別をバランスさせた話者による,指定
されたテーマについての講演(いわゆる"スピーチ")で,多くの部分は単一の
音声スタジオで録音されています.また全般的に学会講演よりも改まり度の低
い発話になっています.

両者とも,DATと狭指向性のヘッドセットマイクロホンを利用して収録して
います.

『日本語話し言葉コーパス』には,これらの講演音声にくわえて,書き起こし
テキストをはじめとする種々の付加情報が添付されます.コーパスの詳細につ
いては,下記の文献をご参照ください.

  Maekawa, Koiso, Furui & Isahara. Spontaneous speech corpus
	of Japanese. Proc. LREC2000, 947-952, Athens, 2000.
  前川・籠宮・小磯・小椋・菊池「日本語話し言葉コーパスの設計」
 	音声研究, 4-2, 51-61, 2000. 
  小磯・土屋・間淵・斎藤・籠宮・菊池・前川「『日本語話し言葉コーパス』
	の書き起こし基準について」信学技報, NLC2000-56/SP2000-104, 55-
	60, 2000.
  同上 	 「『日本語話し言葉コーパス』における書き起こしの方法と
		その基準について」日本語科学, 9, 43-58, 2001.


2.今年度モニター公開の対象

今回は約86時間分の音声と書き起こしテキストを提供します.学会講演と模
擬講演がほぼ半分ずつです.

音声は 16kHz,16bitにダウンサンプリングしたものをRIFF形式(WAVファイ
ル)で提供します.書き起こしテキストは,漢字仮名混じり表記と,片仮名表
記によるものをテキストファイルとして提供します.音声中に200ms以上のポー
ズが存在する位置で発話を転記単位に分割しています.

この他に発話の属性情報として,話者ID,性別,年代,模擬講演のテーマ,そ
の他を提供します.

これらのデータはDVD-ROM(片面1層)4枚に格納して配布します.


3.公開の主旨

『日本語話し言葉コーパス』は2004年の春に最終公開を予定しています.
今回は,最終版に先立ってデータの一部を公開することによって,利用者の研
究の利便を図ると同時に,利用者によって発見された問題点をフィードバック
していただくことによって,コーパスの品質向上を図ります.


4.利用者の義務
利用者の方には以下のレポートの提出をお願いします.
(1)指定する様式に従ったバグレポートの作成(下記参照)
(2)モニター公開するデータを利用した研究成果物のコピーの提出

           ======== バグレポートの例 ======== 
* 詳細はデータ公開時に指定しますが,電子メールで提出していただく
  ことになる予定です.

  Subject: CSJ-bug			(例)
  1行目:報告者氏名			野原新之助
  2行目:報告年月日			2001/05/07
  3行目:ファイル名			A0081M17
  4行目:転記単位ID			0101
  5行目:バグを含むと思われるデータ	口頭源音が(F えー)
  6行目:バグについての説明		「口頭」は「喉頭」の誤り
  7行目:バグを修正したデータ		喉頭源音が(F えー)
          ====================================


5.モニター版コーパスの利用にかかわる覚書

今回モニター公開するデータ(以下,本データ)の利用については,下記の利用
制限を設けます.最終版に対する制限はもう少し緩やかになる可能性がありま
すが,今回はやや厳しい制限になっています.

データの配布に先立って,およそ下記の内容をもった覚書に署名捺印をお願い
する予定です.

  ------------- 以下「覚書」の草案 ----------------------------

(1)二次配布の禁止
利用者は本データの二次配布を行ってはならない.

(2)商品開発の禁止
本データの利用は研究目的に限る.商品開発を目的とした利用は許可しない.
音響モデル,言語モデル等を作成して研究に利用することはさしつかえない
が,それらを利用した音声認識システム等を販売してはならない.

(3)個人情報の保護
本データを解析することによって知りえた話者の個人情報は積極的に保護され
なければならない.研究成果の公表時には本データの話者IDを特定できる情
報を公開してはならない.また,それを利用することによって他の利用者が話
者IDを特定することのできる情報を公開してはならない.

(4)発話内容の批判の禁止
本データ中の発話については,事実関係の正誤適否等,発話の内容に関する議
論,批判,感想等を公開してはならない.

(5)データ利用の明記
本データを利用した研究成果を公開する際には,”開放的融合研究『話し言葉
工学』による『日本語話し言葉コーパス(モニター版2001)』"を利用した研究
であることを明記するとともに,適切な参考文献に言及しなければならない.

(6)利用期限
本データの利用期限は2004年3月末日までとする.

(7)免責
本データを利用することによって生じる一切の損害について,国立国語研究
所,通信総合研究所,東京工業大学の三者は保証の責を負わない.

(8)その他
本データの利用に関して生じた疑義について,利用者は国立国語研究所の担当
者に連絡して確認することとする.また,上記の利用制限以外の事項について
生じた問題については,利用者と開発者双方が誠意をもって協議し問題を解決
することとする.
  ---------------------------------------------------------


6 配布手数料

現在,配布媒体の作成料および配布手数料として実費を徴収させていただくこ
とについて検討を進めております.申込みをいただいた方には,後日,徴収の
有無の確認をかねて連絡をさしあげます.


7 申込み方法

以下の申込書に記入のうえ,下記メールアドレスにお送りください.  

	kagomiya@kokken.go.jp

==================== CUT HERE =====================
1 氏名:
2 所属:
3 肩書:
4 連絡先
   住所(データ送付先):
   電話:
   メールアドレス:
5 データ利用の目的:
==================== CUT HERE =====================

8 配布予定時期

申込み締め切り後一か月程度で配布開始の予定です.


以上.