小林雄一郎 (Yuichiro Kobayashi) によるテキストマイニング関連の研究メモ


  • 序章
    • 本ページの著作権は管理者にあります(無断転載は禁止)。
    • 引用する場合は、必ず初出の論文かページURLを明記してください。
    • ブラウザや環境によって、画像が見づらい場合があります。



Research questions

  • 本研究の目的は,日本人中学生,高校生,大学生の英作文を集めた学習者コーパスをテキストマイニングの技法を用いて解析し,そこから得られた結果を母語話者のコーパスと比較することである。
  • その目的を達成するために,本研究では,以下の2つのresearch questions (RQ) を設定する。
    • 中学生,高校生,大学生と学年が上がるにつれて,談話標識の頻度や使用傾向はどのように変化するのか
    • 学習者(中学生,高校生,大学生)と母語話者の間には,談話標識の頻度や使用傾向にどのような違いがあるのか
  • これら2つのアプローチに関して,Granger (1998) の表現を用いるならば,前者は「中間言語の異なる段階の比較」(IL-IL comparison) であり,後者は「母語と中間言語の比較」(NL-IL comparison) である。

Data

  • 本研究では,JEFLL (the Japanese EFL Learner) Corpus ,ICLE-JP (the Japanese component of the International Corpus of Learner English) ,LOCNESS (the Louvain Corpus of Native English Essays) の3種類のコーパス(総語数は661043語)をデータとして使用する。
  • JEFLL Corpusは,日本の中学生と高校生による自由英作文を集めた学習者コーパスである(約60万語)。
  • 本研究では,ICLE-JPおよびLOCNESSとのデータの整合性を考慮し,論説文 (argumentative essay) のデータのみを分析対象とする。
  • なお,著作権者の許諾を得てプレリリース版を分析した小林・山田 (2008),小学館コーパスネットワーク (SCN) で無償公開されている全データ(叙述文を含む)を分析したKobayashi (2009) および小林 (2009a, 2009b, 2009c) とは,分析対象としているデータのサイズが異なる。
  • ICLE-JPは,日本の大学生による英作文(論説文)を集めた学習者コーパスである(約17万語)。
  • まもなく一般公開される予定だが,本研究では,著作権者の許諾を得てプレリリース版を分析対象とする。
  • LOCNESSは,英米の母語話者による英作文を集めたコーパスであり,ICLEの参照コーパス (reference corpus) として設計された(約30万語)。
  • これは,コーパス作成者であるS. GrangerかS. De Cockにコンタクトを取ることで入手可能(有償)である。
  • 本研究では,アメリカ人大学生による論説文のみを分析対象とするため,LOCNESSの全データを分析対象としたKobayashi (2009) および小林 (2009a, 2009b) とは,分析対象としているデータのサイズが異なる。
  • 以下は,本研究で使用するデータとその総語数をまとめたものである。なお,表中のJH,SH,UNI,NSは,それぞれ中学生,高校生,大学生,母語話者を表している。
  • また,作文タスクの詳細については,投野 (2007) およびGranger (1998) を参照されたい。

  • 使用データ
JH SH UNI NS
Corpus JEFLL ICLE-JP LOCNESS
Tokens 162919 179750 168800 149574

Procedure

  • 本研究は,テキストマイニングの技法を駆使し,英作文における談話構造に解析するものである。
  • また,コーパス中の文章に品詞情報・構文情報・談話情報などを自動付与し,それらの情報から得られる頻度パターンに対して様々な量的分析を行なう。
  • しかしながら,コーパス言語学において,量的分析と質的分析は常に相補的な関係になければならない (McEnery & Wilson 2001)。
  • 従って,テキストマイニングによって全体的な傾向が把握されたのちは,「テキスト」そのものに戻って,コンコーダンスの精緻な読みがなされなければならない。
  • そして,テキスト読解から得られる知見は,新たなる量的分析のための手がかりを与えてくれる。
  • このようにして,量的分析と質的分析は有機的に循環していく


  • 分析の流れ (田畑 2009を一部改変)
  • twitter
  • livedoor クリップ
  • はてなブックマーク
  • delicious
  • Yahoo! ブックマーク
  • niftyブックマーク
  • Buzzurl

Wikiをはじめる

マイページ