リンクは自由!
『東北大学言語学論集』6(1997)掲載
コーパスの類型論

キーワード:コーパス、テキストデータ、コーパス言語学
1.  はじめに

本論においては、従来とは違った観点からのコーパスの類型論を提案する。こ
の新しいコーパスの類型によって、「コーパス」という用語の多義性をより的
確にとらえ、さらに「コーパス」の概念をより明確にしようとすることを目的
としている。

「コーパス」という用語は、後藤 (1995)で指摘したように多義であり、少な
くとも広義 (「大規模なテキストの集積」 )と狭義 (「ある言語 (の部分集合)
を代表すべく集められた大規模なテキストの集積」 )とを区別する必要があ
る。(以下において、特に断りのないところでは「コーパス」を広義で用いる。)
これが日本のみの事情でないことは、次の引用文においても明らかである。

Computer corpora are, essentially, bodies of natural language
material (whole texts, samples from texts, or sometimes just
unconnected sentences), which are stored in machine-readable form. ... 
It should be added that computer corpora are rarely haphazard
collections of textual material: they are generally assembled with
particular purposes in mind, and are often assumed to be (informally
speaking)representative of some language or text type.  (Leech &
Fligelstone 1992: 115-116)

この多義性をうまくとらえるためには、コーパスを適切に分類し、典型的な類
と非典型的な類を認めることが必要であろう。その際には、コーパスそのもの
にのみ注目するのではなく、上の引用文にある "with particular purposes
in mind"や "assumed"という表現が示すように、「意図、想定」といった、人
間の側の要因を考慮に入れることが必要であると思われる。

また、現在のコーパス言語学がコンピュータなしには不可能であり、「コーパ
ス」が第一義的には機械可読のものをさすことが当然であるにしても、コンピ
ュータを使わないで大規模データを扱うことも不可能ではない。コンピュータ
が言語研究に利用されるようになる以前の研究（ C.C.Fries 1940,1952;
West 1953)との、研究の手法の上での連続性は無視できない。また、山田
(1996a,b, 1997)はコンピュータを用いていないが、数年分の新聞記事から個
々の表現につき数百づつの用例を収集した上でそれぞれの語義を分析しようと
したものである。これが新聞のテキストデータを収録した CD-ROMを検索して
用例を得たものであれば明らかにコーパス言語学の一例とされるであろう。し
かし、この研究がコンピュータを使わずに人の手によって用例を得たというだ
けの理由で別の方法論に属するものとみなすとするならば、それははたして至
当であろうか。したがって、本論ではコーパスの定義や分類は電子化の有無と
は独立に考える。


2.  従来のコーパスの分類

これまで、コーパスの分類はその内容や形態の観点から行われてきた。代表的
と思われる分類を挙げると、以下のようなものがある。

まず、竹沢・末松 (1995)は、 Leech, Sampsonや Walkerによる、コーパスを
その内容および形態から分類する方法を紹介している。すなわち:
	内容 (異種 /同種 /体系的 /専門的 ) 
	形態 (生 /タグつき /分析ずみ )

また、松本 (1995)、松本・小磯 (1996)は、コーパスの分類には少なくとも次
のような視点が必要であるとする。
	対象分野 (書き言葉 /話し言葉、テキスト /音声コーパス ...) 
	偏在性   (網羅性、結束性、推敲の程度 ...) 
	加工度   (マークアップの程度、タグ情報 ...)

これらの分類は、コーパスの外面的な形式に着目しており、その限りにおいて
客観的な分類であって、有用性をもっている。しかしながら、これらは、コー
パスそのものの外面、すなわち集められた結果のみに着目してるということ自
体からして、「意図、想定」といった人間的な要因を含むことが難しい。すな
わち、この分類からは、「コーパス」という用語の多義性をうまく説明し、多
種のコーパスの中でどれが典型的なものかを的確に指摘することができないも
のと言わざるをえない。


3.  新しい類型論

上に述べたような事情を踏まえて、本論においては、コーパスをその外部との
関係に基づいて分類するための新しい類型論を提案する。ここで「外部」とは、
コーパスを部分集合とする全体集合である。言い換えれば、コーパスを手段
として研究されるべき対象となる言語である。基本的には、コーパスの作成者
がコーパスの外部に何を想定していたかによって分類する。すなわち:

(1) テキストそのものを志向するコーパス
	全体集合はコーパスと同一 
(2) 実現された言語のサンプルとしてのコーパス
	全体集合はコーパスより大きい有限集合 
(3) 言語使用の近似物としてのコーパス
	全体集合は無限集合 
(3a) 単一変種のみに焦点をあてるもの 
(3b) 多変種を同時に扱うもの 
(4) 言語体系のデータとしてのコーパス
	全体集合は無限集合

Aarts (1991: 50)は、 corpus sentences, grammatical sentences,
acceptable sentences の関係を [図 1]のように図示している。ここで
grammatical sentencesと acceptable sentencesが無限であるが、 corpus
sentencesが有限であることを考慮して修正すれば、コーパスとその外部との
関係を [図 2]のように表すことができよう。

[図 1]    

[図 2]



3.1 テキストそのものを志向するコーパス

第一の種類は、コーパス中のテキストそのものが研究の目的であって、コーパ
スの外部には何らの関心ももたれない場合である。これは「コーパス」の語源
であるラテン語 corpusの原義 (「体」)からの派生義としての「資料の総体、
集積」にもっとも近い。その意味で、人文系の分野でコンピュータが使用さ
れる以前に使われていた用法 (「資料体」)である。

実例としては、現存するラテン語の碑文の集成である Corpus Inscriptionum
Latinarumなどのコンピュータ以前のテキストの集成がこれにあたる。また、
特定の文学作品、特定の作家の全著作などを資料体としてその中の言語現象に
のみ注目する場合もこれである。電子化されたテキストでも Oxford Text
Archive、「勉誠データベース」などの文学作品テキストデータはこれに含め
てよいであろう。また、「CD-毎日新聞」などの新聞記事テキストデータもそ
うである。

この場合には有限のテキストが研究の目的であるから、一般化より個別の事象
に向かいやすく、言語研究より文学研究に近づく。したがって、現代的には非
典型的なコーパスである。


3.2 実現された言語のサンプルとしてのコーパス

過去の一定期間にある形態で実現された (例えば、実在の人物によって話され
た、あるいは、出版された )言語は、範囲の取り方によっては膨大であるが、
有限である。なぜならば、実在する人間の数は有限であるし、一人の人間が一
定時間に産出できる言語は有限であるからである。また、実現された言語とは、
その定義からして、発話ごとにその話し手 (書き手 )、聞き手 (読み手 )、
時刻、場所、先行文脈が (少なくとも原則的には )固有名詞ないし定数として
確定されているという性質をもっている。

実現された言語は有限ではあるが、確かに膨大ではあって、そのままでは直接
には扱いにくいことがある。そのような有限の言語を目的としつつ、そのサン
プルとして選ばれたテキスト群としてのコーパスがここに入る。例えば、「散
文の世紀」と言われた英文学史上での時代 (1680-1780)の散文を集めた The
Century of Prose Corpus (斎藤 1994を参照 )やカナダの議会の議事録をもと
にした Hansard Corpus などは、ここに入ると言えよう。

言語学においては、話し手や聞き手の固有名詞を問題にすることはない。むし
ろ、文学研究、文献学、エスノメソドロジーに近づく。事実、 The Century
of Prose Corpusも主として文体研究を目的としたものである。もっとも、
C.C. Fries の研究はこれに近いものとみなすことができるであろう。周知の
ごとく、アメリカ構造主義言語学ではコーパスのデータにないことについて何
らかの想定を行うことを極端に避けていたからである。


3.3 言語使用の近似物としてのコーパス

言語学の一分野である語用論や社会言語学では発話の話し手や文脈を考慮に入
れるが、具体的な固有名詞をあげるまでに限定することはなく、せいぜい性別
や階層などの類型的な要因を考えるのが普通である。これは実現された言語よ
りはいくぶん抽象であって、ここで言語使用と呼ぶことにする。実現された言
語には言い間違いなども含まれるが、言語使用にはそれらは含まれない。

言語使用は容認可能な文ないし発話の集合とみなせるが、これは無限集合であ
り、その全体を直接に扱うことはできない。それを有限のテキストの集積であ
るコーパスによって近似することによって、記述・説明を可能にする。大量で
あるほど近似がよくなることが期待できるので、大規模テキストデータという
コーパスの利点をもっとも発揮できる。したがって、これがもっとも典型的な
コーパスである。

質的に近似をよくする通常の手段は、一旦、言語使用の中で実現された有限の
言語を考え、それにできるだけ相似な部分集合をとることである。この点では
(2)に類似する。

言語使用は必然的に変種を含んでいるため、ここからさらに下位分類できる。

(a) 特定の変種のみに焦点をあてるもの例: CHILDES, The Bergen Corpus
of London Teenager Language

(b) 変種の構成に配慮したもの例: Brown Corpus, British National
Corpus


3.4 言語体系のデータとしてのコーパス

言語体系は、文法的文の集合とみなせるが、これも無限集合であって、その全
部を列挙することはできない。言語体系は言語使用よりも抽象度が高く、使用
頻度といったデータの重要度は低い。特に生成文法においては、データとして
母語話者の直感が重視される。したがって、純粋にここに属するものはあまり
多くないものと思われる。

その典型的な一例であると考えられるのは原口 (1982)が紹介する筑波コーパ
スである。原口 (1982:113)によれば、このコーパスの例文データベース部分
にはチョムスキーをはじめとする変形文法家やその他の学者による言語学関係
の主要な文献中の例文の集積であって、この時点で 4万件の入力が終わってい
たとのことである。このデータベースの特徴として、ネガティブ・インフォメ
ーションを含むこと、文法上の問題に直接関係する例文が得られやすいこと、
作例も含むので文法性に対する判断の違いもわかることなど、ブラウンコーパ
ス等とは相補的な特徴をもつことが指摘されていた。ただし、このデータベー
スは現在は公開されていない。


4. 作成者の意図と利用者の意図

前節においてはコーパスの作成者の意図によるコーパスの分類を提案し、その
例を挙げた。しかし、コーパス作成者の意図 (作成目的 )と利用者の意図 (利
用目的 )とが違うこともありうる。例えば、「CD-毎日新聞」は特定の年に発
行された新聞の本文を収録しており、作成者の意図としては新聞記事のテキス
トそのものが目的であったと考えられるから、その限りにおいて、(1)に分類
できる。しかし、それを現代日本語の (書き言葉の )使用実態の近似物として
使うことがある。例えば後藤 (1996)における終助詞「かしら」の用法の分析
の試みがその一例である。この場合、「(1)として作成されたが、(3b)の代
用として利用している」とみなすことができる。すなわち、同一のコーパスで
あっても、その外部との関係のとらえ方の違いによって分類が異なりうること
になる。

言語体系が確かに言語使用とは別であるにしても、それは言語使用からまった
く独立しているわけではない。(3)に属するコーパスを言語体系の研究のため
のデータとして利用することは、生成文法学者の反対にもかかわらず、可能で
あろう。

このように同一のコーパスをいく通りにも分類できることは、一見、コーパス
の分類として不適切さを示すものと考えられるかもしれない。しかし、むしろ、
ここで提案するコーパスの類型論を、コーパスの使用方法を研究の方向性に
即して分類することを可能にする長所であると考えることができよう。


5.  おわりに

上でコーパスの新しい類型論を提案した。これは、コーパスそれ自体の内容や
形態に基づく従来の分類に取って代わろうとするものではない。コーパス自体
の客観的な性質に基づく分類は明らかに有用であり、必要である。しかし、こ
こで提案する類型論はコーパス自体とは離れたところにある、コーパスの作成
者ないし利用者の意図を考慮に入れることを可能にするという点で、それとな
らんで有効な分類であると考える。



本稿は言語処理学会第 3回年次大会 (1997年 3月 27日、京都大学工学部 )に
おける同名の口頭発表に基づくものである。


参考文献

後藤  斉  1995 「言語研究のためのデータとしてのコーパスの概念について
」『東北大学言語学論集』 4:71-87.  
後藤  斉  1996 「コーパスとしての新聞記事テキストデータ―終助詞「かしら」をめぐって―」『東北大学言語学論集』 5:37-46.  
斎藤俊雄  1994 「 The Century of Prose Corpusと文体研究」『英語コーパス研究』 1:99-104.  
竹沢寿幸、末松博  1995 「音声・テキストコーパスとその構築技術、標準化動向」『人工知能学会誌』10:168-180.  
原口庄輔  1982 「新しいデータ処理方式を求めて」『月刊言語』 11(9)109-115.  
松本裕治  1995 「分野を超えたデータの共有」『日本語学』 14(8):144-151.  
松本裕治、小磯花絵  1996 「日本語のコーパス」『月刊言語』 25(10)114-120.  
山田忠雄  1996a 『私の語誌  1 他山の石』三省堂。
山田忠雄  1996b 『私の語誌  2 私のこだわり』三省堂。
山田忠雄  1997 『私の語誌  3 一介の』三省堂。

Aarts, J. 1991 Intuition-based and observation-based grammars.  In: K. Jijmer & B. Altenberg (eds.), English Corpus Linguistics. London:Longman. pp.44-62.  
Fries, C.C., 1940 American English Grammar. New York: Appleton-Century-Crofts.
Fries, C.C., 1952 The Structure of English. New York: Harcourt, Brace and Co.
Leech, G. & S.Fligelstone, 1992 Computers and corpus analysis.  In: C. S. Butler
(ed.), Computers and Written Textx. Oxford: Blackwell. pp.115-140.
West, M., 1953 A General Service List of English Words. London: Longman.
「後藤斉の主な著作」に戻る
 後藤斉のホームページに戻る
URL:https://www2.sal.tohoku.ac.jp/~gothit/corptyp.html
All Rights Reserved. COPYRIGHT(C) 1997-2006, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576　仙台市青葉区川内27番1号　東北大学大学院文学研究科言語学研究室
後藤　斉　(E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ