Skip to content

2022_0518_GM資料

Kato-Ryusei edited this page Dec 1, 2022 · 1 revision

今週したこと

  • 会話を比較するための尺度を決めている研究
    • 前川さんの講演音声を評価しているもの
    • 「日本語話し言葉コーパス」の印象評定を行った「発話の速さ感」「講演の自発性」「発話スタイル」「発話の明瞭さ」の4つ(この4つは収録スタッフの予備分析に基づいて作られている。)をカバーするような尺度を作る
      • この項目が自分の目的に合っているのか、足りないものがないのかを確認
      • CEJCでは何が大事になってくるのかを考える。
    • 手順
      • 評定語をさまざまな論文から546語の評定語を収集
      • これだけでは不十分であるため、自発音声を聴いたときのアンケート調査(自由記述)を行う
      • アンケートの中から、「話し方の特徴」を表している、出現頻度の高い38語を候補に加える。
      • 選び出した52項目からなる7件法による質問を行う
      • 因子分析を行い講演音声評価のための尺度構築を行った。
      • 因子としては「好悪」「上手さ」「活動性」「速さ感」「スタイル」の5因子
      • 妥当性を見るために2回目の印象評定を行う
      • 5因子において因子付加量の高い4項目を選抜し、計20項目からなる尺度として再構築。この20項目で十分な信頼性が得られるのか、上の5因子と同じ因子構造が得られるのかを検証
      • 尺度の一貫性をはかるG-P分析やI-T相関分析で妥当性をはかる
    • 結果として5因子*4項目の計20項目からなる尺度を構成した
  • 凌さんの研究は印象後を作っているので参考になる
  •  時間がかかるので既存のものが使えると嬉しい。
  • 実際には、20くらい評定語で音声の評価を行う
  • しんさんのに音響特徴量を加えればうまくいくことも考えられる
  • しんさんの3軸で妥当性をはかるために2度目の印象評定を行っていく
  • 限定をかけて扱うデータ(Speaking Styleが見られるような音声)を絞る。データの選別をする

伺いたいこと

  • 前川さんの講演音声(自発音声)を評価する尺度を日常音声にそのまま使えるのか?
    • 「発話の速さ感」「講演の自発性」「発話スタイル」「発話の明瞭さ」これらの目的に合う尺度なので、日常会話とは少し違う。

フィードバック

  • 進捗状況の質問

  • Q尺度は新しいものを探したいということなのか

  • A既存の尺度でスタイルや分布の妥当性が確認できれば、既存のものを使う。不足している点があれば、新しい尺度を探す。

  • Q沈さんの図にマイナスの点がなかったが、どういうことなのか

  • A確認不足でわからない。自分の検証ではマイナスの領域も作ってやっていく

    • 正規化しているが、どのように正規化しているかを真さんに確認する
  • Q沈さんのものの入力は一人のものなのか

  • A一人の発話を対象にしている

  • Qp16 沈さんのモデルでspeaking styleを推定するときに、どのぐらいの長さの発話文を入力する必要がありますか。発話文の長さが推定の精度に影響を及ぼすのでしょうか。(楊さん)

  • A.250文字以上という制限がありました。推定の精度については詳しくはわからないので、沈さんに聞いてみます。

    • CEJCの長さで使えるのかの確認
  • p11 「これらの尺度では実用するに不適切である」と先行研究から指摘されましたが、不適切な箇所を具体的に教えてもらってもいいですか。そして、加藤くんの研究はどのようにこの不適切さの問題を解決するつもりですか。(楊さん)

  • A先行研究の中では尺度がさまざまな会話(スポーツ実況、会議、こども本を読み聞かせるなど)を評価することができないと述べられていました。先行研究の中で、明瞭さ、親しさ、社会階層であれば問題は解決できると述べられていました。

    • 昔の興味には日常会話などは含まれていなかったため、研究の中心が他の会話形式(新聞とかニュースとか)だったため、厳格(範囲が小さかった)すぎる。コンピューターの発達によりデータが取れるようになったから。
    • 三軸で足りるのあれば使える。なので、日常会話コーパスに当てはめてみて調査する
  • 菊池先生

    • #7の図を使って説明するとわかりやすいですね。#6より先にこれを述べてから、まとめとして#6を述べると良いかもしれません。
    • 日常会話は社会階層のバリエーションが小さいということですね。相対的にはそういう点はあるかもしれません。
    • 一つの会話について、話者ごとに複数の発話があり、発話ごとに様々なパラ言語表現がある。それらは例えば親しさ・明瞭さの2次元にプロットできる(#7の一つのプロットは発話ですよね?)。ここまではわかりますが、発話スタイルはどうやって認定・決定するのでしょうか?発話スタイル、パラ言語表現などの概念について、定義の抽象的な説明とインスタンス(例)を説明してください。特にインスタンスがよくわからなかったのでそれを教えてください。
      • A.発話を尺度上にプロットしていくと、集中してプロットされる領域と外れてプロットされる点が現れると予想しています。この集中してプロットされた領域を発話スタイルと決定しようと考えています。そして発話スタイルからどの程度離れているかの値でパラ言語表現であるか判断し、パラ言語表現を比較していこうと考えています。
      • A発話スタイルの認定・決定については調査中です。インスタンス(例)の説明は次回までに用意します
      • Aパラ言語表現は図の距離であるなどの説明を。属性や何を持っているのかを具体的に説明する。点そのものが何で、どういうふうに抽象化したものが発話スタイルでなどの説明。誰々の発話がこの辺に集まっていてなどの説明。
    • #7の図で、一つのプロットをするのにどんな工程を考えていますか?音響分析なのか、人手のアノテーションなのか。
      • A.今のところ、母音のフォルマント情報やアノテーションによって付与したX-JToBIの情報をもとにプロットしようと考えています。
      • A音声(そのままwavか、音響特徴量に変換してから入れる)を、ある推定する関数など通して、尺度の座標を得てプロットする
      • Awav母音のみにする/母音のフォルマント情報やX-JToBI。ここら辺を整理して伝える。
  • 一般的な発話スタイルの定義とは違いますね。一般的には、集中してプロットされた領域(つまりよく用いられるスタイル)も発話スタイルの一つですし、そこから外れているものも発話スタイルです。つまり発話スタイルとは、様々なバリエーションを包含し得ます。加藤君のものは「頻繁に表れる発話スタイル」なのでは?

  • パラ言語表現についても、様々なパラ言語表現があり得て、例えば「複雑な喜び」のような表現もあり得ます。加藤君の認識は、何か典型的なものから外れているものをパラ言語表現としているようですが、典型的なものから微妙にずらした(それほど距離がない)パラ言語表現もあり得るのではないですか?今いちど、パラ言語情報、発話スタイルについて、定義を言語化し、インスタンスを示し、加藤君が明らかにしたい対象のより適切な説明を見直してください。

今週の課題

  • どういう音響特徴量があって、何に使われているのかを論文で確認

  • appendixにどういうふうに出しているのかが書かれている

  • 勉強会で音響特徴が発話スタイルにどのように使われているのかでも良いかも

    • 論文から派生して、どういうふうに使われているのかなど
  • パラ言語表現の英語ではどのように使われているかも整理できる

  • 題名は~尺度のようにするとスッキリする()

  • しんさんの3軸で妥当性をはかるために2度目の評定を行っていく

  • 音声の情報、組み合わせになるとデータがいくつになるのかなどを試していく

  • 100ぐらいまでに絞る。代表的なところはどこなのか、部分的なところはどこ

  • open smileで音響特徴量を出してみる

  • しんさんのものに当てはめてみる <- 先週 | 次週 ->

Clone this wiki locally