Subject: [onsei-mail 00186] 『日本語話し言葉コーパス』モニター公開
From: Kikuo MAEKAWA 
To: onsei-mail@m.aist.go.jp
Date: Thu, 04 Jul 2002 16:02:58 +0900
X-Mailer: ATMail [Version 2.0 pl 0]
List-Software: fml [fml 4.0 STABLE (20010202)]
List-Post: 
List-Owner: 
List-Help: 
List-Unsubscribe: 

音声メールのみなさま、

////////////////////////////////////////////////////////
『日本語話し言葉コーパス』(モニター版2002)公開のご案内
////////////////////////////////////////////////////////

『日本語話し言葉コーパス』は科学技術振興調整費開放的融合研究制度課題
「話し言葉工学」の一環として、国立国語研究所・通信総合研究所・東京工
業大学が開発を進めている日本語の自発音声コーパスです。昨年に引き続き、
今年度は形態素データの一部をモニター公開いたします。試用ご希望の方は、
本メール末の様式に従ってお申し込みください。
                                                        2002年7月2日

                                           古井  貞煕(東京工業大学)
                                           前川喜久雄(国立国語研究所)
                                           井佐原  均(通信総合研究所)

1.モニター公開の対象
  今年度は約80万単位分の形態論的単位解析結果(形態素解析結果)と過去1年間
のエラー修正を反映させた最新版書き起こしテキストを公開します。これは、昨年度
にモニター公開したデータの約83%に該当します。

   ## 昨年度のモニター公開についての情報は下記参照 ##
   
   http://www.kokken.go.jp/public/monitor_kokai001.html

2.短単位データベースの仕様
  『日本語話し言葉コーパス』の最終公開版(2004年春の公開を予定)には短単位およ
び長単位による二種類の形態論的単位解析情報を付与する予定ですが、今回は短単位
を用いた解析結果のみを公開します。以下ではこれを「短単位データベース」と呼び
ます。短単位データベースはKWIC形式で提供され、以下のフィールドから構成されて
います。

 1)ID           当該短単位の通し番号
 2)ファイル名   当該短単位を含む音声ファイルの名称
 3)転記情報     当該短単位を含む転記単位の番号および転記単位の開始・終了時間
 4)前文脈       当該短単位に先行する文脈(最大15短単位分)
 5)KWICキー     KWICのキー(当該短単位)
 6)後文脈       当該短単位に後続する文脈(最大15短単位分)
 7)代表形       KWICキーの標準的な語形(国語辞書の見出しに相当)
 8)代表表記     漢字と仮名による当該短単位の標準的な表記
 9)発音形       当該短単位の発音形*
10)品詞         当該短単位の品詞(学校文法に準拠)
11)活用の種類   活用語の活用の種類(「カ行五段」等)
12)活用形       活用語の活用形(「連用形」等)
13)その他の情報1  品詞の下位分類(「助詞」の下位分類として「副助詞」等)
14)その他の情報2  活用形の下位分類(「連用形」の下位分類として「促音便」等)
15)その他の情報3  その他の補足情報(「言いよどみ」「メタ」等)

*「発音形」は『日本語話し言葉コーパス』の書き起こしマニュアルにおける用語で実際
の発音をできるだけ忠実に再現した片仮名表記のことです。

  以下に短単位による解析例を示します。縦線が短単位の境界です。実際のデータ
ベースでは各短単位がレコードに、KWICキー, 代表形, 代表表記, ...がフィールド
となりますが、ここでは読みやすい形に整形しています。

【KWICキー】
(F えー)|私|が|生まれ|た|場所|は|です|ね|(F あのー) |神奈川|県|の|
川崎|市|でし|て|(F あのー) |父|が|(F えーと)

【代表形】
エー|ワタクシ|ガ|ウマレル|タ|バショ|ハ|デス|ネ|アノ|カナガワ|ケン
|ノ|カワサキ|シ|デス|テ|アノ|チチ|ガ|エート

【代表表記】
えー|私|が|生まれる|た|場所|は|です|ね|あの|神奈川|県|の|川崎|
市|です|て|あの|父|が|えーと

【発音形】
(F エー) |ワタクシ|ガ|ウマレ|タ|バショ|ワ|デス|ネ|(F アノー) |カナ
ガワ|ケン|ノ|(W カワザキ;カワサキ) |シ|デシ|テ|(F アノー) |チチ|ガ
|(F エート)

##(F)はフィラー、は非語彙的な母音の引き延ばし、(W)は非標準的な発音で
話者による修正が行なわれなかった場合を示すタグ。(W)タグ中のセミコロンの右側
は想定される標準的な発音。##

【品詞】
感動詞|代名詞|助詞|動詞|助動詞|名詞|助詞|助動詞|助詞|感動詞|名詞|
名詞|助詞|名詞|名詞|助動詞|助詞|感動詞|名詞|助詞|感動詞

【活用形】
|||連用|連体|||終止||||||||連用|||||

【活用の種類】
|||ラ行下一段|||||||||||||||||

【その他の情報1】
||格助詞||||係助詞||終助詞||固有名詞||格助詞|固有名詞|||接続
助詞|||格助詞|

3.解析精度
  短単位データベースの解析精度は約99.7%前後であることが、ランダムサンプリン
グによって確認されています。

4.データ形式
  タブ区切りテキストファイルを予定しています。

5.ドキュメント
  短単位の設計および短単位データベースの仕様に関する解説を添付します。

6.費用
  昨年度同様、データ作成と配付にかかる費用を徴収させていただきます。今年度の
データはCD-ROM1枚に収まる予定ですので、1000円程度となる予定です。

7.使用上の制約
  昨年度同様、データの利用に際しては、以下の制約を設定します。

====================== 制約事項 ========================
(1)二次配布の禁止
利用者は,いかなる場合にも『日本語話し言葉コーパス』(モニター版2002)(以下
では本データと略称する)の二次配布を行ってはならない.
(2)商品開発の禁止
本データの利用は研究目的に限る.商品開発を目的とした利用は許可しない.音響モ
デル,言語モデル等を作成して研究に利用することはさしつかえないが,それらを利
用した音声認識システム等を商品としてはならない.
(3)個人情報の保護
本データを解析することによって知りえた話者の個人情報は積極的に保護されなけれ
ばならない.研究成果の公表時には本データの話者IDを特定できる情報を公開して
はならない.また,それを利用することによって他の利用者が話者IDを特定するこ
とのできる情報を公開してはならない.
(4)発話内容の批判の禁止
本データに含まれる発話については,事実関係の正誤適否等,発話の内容に関する議
論,批判,感想等を公開してはならない.
(5)データ利用の明記
本データを利用した研究成果を公開する際には,"開放的融合研究『話し言葉工学』
による『日本語話し言葉コーパス(モニター版2002)』"を利用した研究であること
を明記するとともに,適切な参考文献に言及しなければならない.また公開された論
文等のコピー3部を(独)国立国語研究所に送付しなければならない.
(6)利用期限
本データの利用期限は2004年3月末日までとする.
(7)免責
本データを利用することによって生じる一切の損害について,(独)国立国語研究所,
(独)通信総合研究所,東京工業大学の三者は保証の責を負わない.
(8)その他
本データの利用に関して生じた疑義について,利用者は(独)国立国語研究所の担当者
に連絡して確認することとする.また,上記の利用制限以外の事項について生じた問
題については,利用者と開発者双方が誠意をもって協議し問題を解決することとす
る.
=====================================================

8.配付時期
  2002年8月初旬までに配付できるよう、作業を進めています。

9.お申込み方法と配付方法
  2002年7月末までに、下記の様式に記入のうえ、kagomiya@kokken.go.jp まで
電子メールでお申し込みください。モニター版に誓約書を添えてお送りします。
誓約書は上記7の制約に従う旨の内容となっていますので、署名捺印の上、返送
をお願いします。請求書等は、国立国語研究所会計課より別途送付させていただ
きます。

============== CUT HERE=====================
『日本語話し言葉コーパス』(モニター版2002)の試用を申し込みます。
お名前:
御所属:
モニター版送付先:
必要書類(不要な部分を削除してください):見積書 納品書 請求書 必要なし
上記書類の必要部数:
請求書等宛名:
モニター版利用目的:
その他連絡事項:
============== CUT HERE=====================

本件に関するお問い合わせは下記にお願いします。
独立行政法人 国立国語研究所 
研究開発部門 第2領域長
前川 喜久雄 
Email: kikuo@kokken.go.jp

以上。