リンクは自由!
『東北大学言語学論集』4(1995)掲載

言語研究のためのデータとしてのコーパスの概念について

―日本語のコーパス言語学のために―

後藤 斉

 
キーワード: コーパス コーパス言語学 テキストデータベース
朝日新聞記事データベース
 
 
0。始めに
 
 最近のコンピュータ、特にパーソナルコンピュータの発達と普及に伴って、
人文系の研究者にもコンピュータが身近なものになってきている。それにつれ
て、コンピュータを言語研究に利用することも多くなり、日本語に関しても数
々の業績が発表されるようになっている。もちろん、コンピュータが従来の研
究方法に全面的に取って代わることはありえない。しかし、コンピュータを利
用することによって初めて可能になる種類の研究方法があり、その方法を使え
ばこれまで得ることのできなかった言語に対する知見が得られるとするなら、
コンピュータは言語研究に大いに有益であると言える。非常に大規模なテキス
トの集積を対象にしてその中に見られる言語的特徴を調査するような研究方法
はその一つの例である。
 しかしながら、コンピュータの普及があまりにも急速であったため、それを
どのような理論的見通しをもって研究に利用するかという面での反省が、特に
日本においては、立ち遅れているように思える。ところで、コンピュータの世
界には "Garbage in, garbage out" 「ごみを入れれば、ごみが出てくる」と
いう戒めのことばがある。つまり、コンピュータは与えられたデータを与えら
れた方法によって処理してその結果を出力するだけであり、もとのデータや指
示した処理の方法には関知しない。かりにもとのデータや指示した処理の方法
が不備であったならば、コンピュータは無意味な結果を、しかしいかにも整っ
た形式で、出してくれるのである。無意味な結果というのは極端な場合である
にしても、理論的な見通しを欠いているためにより有意義な結論に至り得ない
でしまうということは十分ありうることである。したがって、コンピュータに
どのようなデータを与え、それをどのように処理させ、その結果をどのように
解釈するかは、あくまで人間である研究者自身が自覚と責任をもってなすべき
事柄である。
 本稿の目的は、特に英語圏(ここでは、スカンジナビアなど英語研究の盛ん
な地域も含めて考える)におけるコーパスに基づく言語研究の歴史を振り返り、
その方法から学ぶべきことを汲み取ることによって、日本においてこれから本
格的に生まれるべきコーパス言語学についてのよりよい見通しを得ようとする
ことである。英語のコーパス言語学を見ることにするのは、英語を対象にして
コーパス言語学は生まれたのであり、その中で理論においても実践においても
多くの業績が積み重ねられてきているからである。もちろん、その経験の中に
は英語独特の事情による物で日本語の研究には応用できないものもあろうし、
一方、日本語の側の特殊事情のために日本語の研究者が自ら切り開かねばなら
ない問題も別途にあるであろう。それでも、人間の言語の研究という共通点が
ある以上、英語研究における経験に学ぶことが日本語研究に無駄だとは言えな
い。
 
 
1。日本語を対象とする「コーパス言語学」の現状
 
 日本においても、コンピュータを用いた大規模なテキストを資料に使う日本
語の研究は早くから行われていた。野元(1968:65)によれば国立国語研究所に
は1966年に初めて計算機が導入された。その初期の成果の一つとして国立国語
研究所「電子計算機による新聞の語彙調査」(1970)がよく知られている。計量
国語学会の活動も60年代にさかのぼる。しかし、この時期に大型計算機を用い
て行われた研究およびそれに連なる研究は一般の国語学者、言語学者には縁遠
く感じられ、それらの研究の結果はともかく、研究の方法についての理解は言
語研究者一般にはあまり浸透しなかったものと見受けられる。
 最近のパーソナルコンピュータ時代の研究者はそのような経験からは切り離
されたところにいる。いわば、見よう見まねでコンピュータを利用していると
いう状態が往々にして認められるのである。そのさまは「日本語学」誌の91年
9月から94年2月まで連載された「私のパソコン言語学」の記事の多くからうか
がい知ることができる。この連載からは寄稿者の多くが大きな苦労を払って自
分なりのコンピュータの利用方法を編み出していることが読み取れる。かつて
の大型計算機に勝るとも劣らないCPU速度、メモリー、ハードディスクを急
に与えられて、研究者の側にそれを研究に使いこなすための方法論の蓄積がほ
とんどないというのが実情だといえるのではないか。
 そのような状況の中での試みとして、朝日新聞をテキストデータとして使う
研究がこのところ比較的集中して現れている。遠藤(1990)、近藤(1993)、後藤
(1993)、荻野(編)(1994)、荻野・塩田(1994)、田野村(1994)などがその例で
ある。それにはいくつかの理由が考えられる。まず、朝日新聞は1000万部に近
い発行部数があり、1部を複数の人が読むこともあるから、全体としての読者
数は膨大な数にのぼり、現代日本での文字を通じた言語活動においてかなり大
きな部分を占めていると考えてよいからである。また、朝日新聞は電子化テキ
ストデータとしての入手が比較的容易だという事情もある(注1)。しかし、
これらの条件は言語使用や資料入手法に関わることであって、研究の対象であ
る文法や語彙といった言語構造にとっては外的な条件である。言語構造の研究
のデータとして本当に適切なものであるかどうかは、一考を要することである
と言わねばならない。
 筆者も後藤(1993)において、朝日新聞記事データベースをオンラインで検索
して集めたデータをもとに「神話」という語の比喩的な用法を分析した。これ
は「神話」という語の比喩的な用法の実際の使用例を朝日新聞記事データベー
スから検索して集め、それをもとに比喩的な用法の語構成的・統語的特徴から
いくつかのタイプに分けられることを指摘したのであった。しかし、この調査
では、この語の用法のタイプそれぞれの頻度については実際の数を紹介はした
ものの、それを現代日本語全体に一般化できるかについては留保したのであっ
た。調査期間は地価の高騰が社会問題化した時期を含んでおり、「土地神話」
という使い方が非常に多くなったことが一つの理由である。これは、特定の期
間に集中した使われ方であり、また、その時期を考えても、おそらく日本語全
体においてよりも新聞においてより多く使われたと考えられる。すなわち、新
聞はそれ自身の性質として、社会的な話題になった事柄を一時に集中して取り
上げることがあり、それによって、それに関連した語彙の使用頻度も大きな影
響を受けるということが確認されたわけである。したがって、その結論として
「その前提となるコーパスの整備などの条件がクリヤされれば、。。。従来は
見逃しがちであった日本語の様相をより明確に捉えることができるようになる
であろう」(後藤 1993:15) と締めくくったのであった。
 ここで、新聞の言語の性格をあらためて考えてみると、次のようなことが言
えるであろう。まず、新聞の持つ報道という目的からして、内容の上でかなり
広い範囲が扱われてはいるが、政治、経済、社会の分野に大きな比重が置かれ
ており、したがって、それに関連した単語が過大な割合で出現する。例えば、
「首相」という語は新聞の一日分の紙面に数十回現れるかもしれないが、この
語を日常生活の中でそれほどの頻度で使っている個人はあまり多くはないであ
ろう。つまり、新聞の言語は特に内容語に関して語彙的にあるバイアスを持っ
ているのである。
 また、新聞に現れる文は、その大部分がジャーナリズム言語という一定のレ
ジスターに属しており、ある種の文体的特徴を示すことが多いことも明らかで
あろう。このことは終助詞の使用やその他の文末表現に関して大きな制約があ
ることを予想させる。さらに、新聞社毎に文体や用字用語の基準を持っており、
少なくとも社内の記者が執筆する文章はその基準にしたがって統一がなされる
のが常である。社外の寄稿者が書く文章はその統一を免れることが多いかもし
れないが、著作権の関係でこれらの文章は電子化の対象から除外されがちであ
る。これらの点でも新聞の言語は言語の使用全体から見てあるずれを示すこと
が考えられる。
 さらに、新聞の言語は受信者(読者)が膨大なのに比べて、発信者(執筆者)
は比較的少数であることを忘れるべきではない。各地方版も含めて記事の全体
を考えれば、記者と社外の寄稿者を合わせた全筆者の数は必ずしも少なくない
かもしれない。しかし、社説はごく少数の新聞社本社の論説委員の手になるも
のであり、朝日新聞の「天声人語」欄は一時期には原則として一人の担当者の
手によるものである。そのような極めて少数の人の手によるデータのみをもと
に考察を進めた場合、ある特徴が抽出できたとして、その特徴を現代日本語の
特徴として記述できるのか、新聞の言語というレジスターに帰せられるのか、
それとも個人のイディオレクト的特性とみなすべきなのであろうか。
 より、一般的に言えば、あるテキストを資料とする場合には、そのテキスト
を分析し、記述するわけであるが、そのことがすなわちそのテキストが属する
言語を分析し、記述したことになると言えるためには何が必要なのであろうか。
 日本のコーパス言語学の中で、このところ新聞の文章を資料に使う研究が比
較的集中して見られるが、その中でデータの処理や分析の仕方が次第に洗練さ
れて行き、プログラムの開発が進むことは、コーパス言語学の将来にとって望
ましいことである。しかし、同時に、新聞の文章をそのままの形でデータとし
て扱う際には、研究者は上に述べたようなデータの性格をつねに自覚していな
ければならない。その自覚なしには不適当な一般化をしてしまうことになりか
ねない。(注2)
 日本のコーパス言語学は、現段階としてはまだ草創期にあるから、ある程度
の試行錯誤が行われることはやむをえないであろう。しかし、その状態から質
的な脱却を図る必要がある。伊藤(1994:131)は「将来の日本の「コーパス言語
学」像を予想するうえでは、現在の欧米における研究が参考になる」として、
最近出版された4冊の英語で書かれた書物を挙げている。これは本稿における
筆者の立場と通じるところがある。しかし、筆者の考えるところでは、日本の
コーパス言語学のためには、「現在の欧米における研究」だけではなく、その
約30年にわたる歴史の中にも学ぶべきものがある。(注3)
 
 
2。広義と狭義のコーパス
 
2。1コンピュータ以前のコーパス
 
 コーパス(corpus)とはもともとラテン語で「体」を意味する語であったが、
すでに古代ローマ時代から文献や事実の集大成を意味する語として使われてい
た。この語はそのままの形で学術用語としてヨーロッパの多くの言語に取り入
れられ、この用法は現代まで引き継がれている。この伝統的な用法に従えば、
コンピュータ化されていない言語データについても、ある一定のものの集大成
であればそれをコーパスとよぶことになる。19世紀にF. Ritschl によってベ
ルリンで刊行が開始され、T. Mommsen らによって引き継がれ、いまだ刊行が
継続中の、現存するラテン語碑文の集成である Corpus Inscriptionum Latinarum
などはその好例である。
 コンピュータが利用できるようになる以前にも、ある特定のテキスト群を資
料として、それに基づいて言語記述を行う研究方法が採られることがあった。
この際の資料の総体もコーパスと呼ばれる。文献でしか知ることのできない古
代語を対象にしている場合には、この方法は不可避のものであり、古くからこ
の方法が採られてきたと言える。これについては Francis (1992)をも参照。
一個の作品や特定の一人の作者の作品をコーパスとする場合は、文学研究との
区別が曖昧になるが、そのテキストが特定の言語・方言やレジスターの代表と
考えられるのであれば、その選択は言語学的にも正当化できる。
 一方、研究者が自分の母語を研究する場合など、現代語を扱う際には、この
ように一定のコーパスのみに基づく方法は自明の手段では決してなく、方法論
上の議論を経て初めて採用される性質のものである。敢えてこの方法を採った
学派としてはブルームフィールド以後のアメリカ構造主義言語学がある。この
学派では、観察可能なデータにのみ基づき、研究者個人の直感を排した機械的
な手順に基づいて(いわば火星人の立場から)言語の音韻・形態論・統語論の
分析を進めようとした。この方法は主としてアメリカ・インディアンの言語の
研究を通して確立されていったと考えてよいが、これはまた研究者自身の母語
である英語を記述する際にも当然適用されなければならなかったのである。こ
のような立場で英語の文法を記述したものとしてFries (1940,1952) がある。
彼は意識して自分の直感や知識を排し、会話の録音や手紙文のみをコーパスと
して、それに基づいて英語の文法を著したのであった。
 現代語の文法研究にこのような方法を用いるかどうかはあくまで方法論上の
問題であり、だれでも賛成して実践するものではない。チョムスキーを始めと
する生成文法学者は、言語学を科学と考える点ではブルームフィールドらと共
通であるが、その「科学」の理解の仕方の点で異なる。彼らは、脳に内在して
いる文法の規則を追求するため、もっぱら母語話者の直感を基準とし、言語が
実際にどう使用されているかの情報、すなわち、コーパスからのデータには意
義を認めない。それ以外の学者でもコーパスのデータにあまり重きを置かない
人や、補完的にのみ用いる人もいる。もっとも、語彙の統計的調査は、言語教
育などにおける有用性が比較的明らかであるためであろうが、比較的受け入れ
られやすかったようである。West (1953) は英語の主要単語毎に語義区分別の
頻度を調査したもので、このような手法の有効性を広く認識させることにつな
がった。日本でも、国立国語研究所の「現代雑誌九十種の用語用字」(1962)が
コンピュータ以前の大規模な語彙統計調査として知られている。
 
 
2。2コンピュータ上のコーパス
 
 コンピュータが発明され、言語学における使用が可能になってくると、それ
までのコーパスをコンピュータ化して扱うことが当然考えられた。大規模なデ
ータを扱うのはコンピュータが得意とすることだからである。そして、言語資
料としてコーパスと言えば、コンピュータ化されたコーパスのことと考えるの
がむしろ普通になったのである。一方、コンピュータを文学研究に利用する人
も現れ、ある特定の文学作品やある作家の全作品をコンピュータで扱えるデー
タにして、それをもとにコンコーダンスを作ったり、文体的特徴を分析したり
する試みも現れた。言語学指向であれ、文学指向であれ、大規模なテキストデ
ータを分析するという点では共通しており、同じソフトウェアで処理する場合
もあって、コンピュータの側からはこの二つのタイプの研究の間に本質的な違
いはないのかもしれない。
 しかし、ここで言語学と文学という目的の違いがある以上、それぞれに適切
なデータの種類の違いはあるはずである。この点で1960年代のブラウンコーパ
スを皮切りにして新たに成立することになったコーパス言語学は、データの採
り方に関して新しい方向を確定し、文学研究とははっきり別の道をたどり始め
たと言える。つまり、コーパスの概念がある方向に特定化したのである。
 
2。2。1広義のコーパス
 
 コンピュータで使用するデータとしての「コーパス」に関して、日本では単
に大規模なテキストの集積と同義に考えるのが、現在のところ普通である。伊
藤(1994:130)は「コーパス言語学」という名称がまだ日本で耳新しいとして、
この語に対してカッコ内に注をつけるが、それは単に「大規模なテキストファ
イル群」というものである。また、荻野・塩田(1994:28)も「テキストデータ
ベースはコーパスともいう」とだけ述べており、これは日本語研究の分野での
現在のところほぼ共通の理解であるようである。そして、この理解は英語圏で
のコーパス研究を紹介する齊藤(1991a:5)の「機械可読テキストの集積をコー
パス(corpus)という」ということばと軌を一にするものである。(注4)
 この種の定義は、もちろん日本人に見られる誤解というわけではなく、英語
圏でも確かに見られる。例えば、Leech が最近の2種の言語学辞典に挙げた説
明もこれに類するもののように見える。
	A computer corpus is a large body of naturally occurring cumputer-
	readable texts or text-extracts used for research, and especially
	for the development of N[atural] L[anguage] P[rocessing] software.
	(Leech 1992:313)
	At its most general, a corpus (plural: corpora) may be defined
	as a body or collection of linguistic data for use in scholarship
	and research.  Since the early 1960s, interest has increasingly
	focused on computer corpora or machine-readable corpora,...  
	(Leech 1991b:73)
ここでは、コーパスとは言語研究のために用いられる大規模なテキストの集積
である、としか説明されない。そのテキスト群が備えているべき内的な特徴は
問われていない。
 
 
2。2。2狭義のコーパス
 
 しかし、英語圏ではこれより狭い概念をコーパスの定義として与える研究者
もまたみられる。例えば、1960年代にブラウン・コーパスを開発して事実上コ
ーパス言語学を創始したとも言える Francis はコーパスを
	a collection of texts assumed to be representative of a given 
	language, dialect, or other subset of a language, to be used for
	linguistic analysis
と定義したいと述べる(Francis 1982:7)。ここで注目すべきは「ある所与の言
語、方言ないし、言語のその他の部分集合を代表するものと想定される」とい
う部分である。「想定する」主体は明示されていないが、当然のことながら、
そのコーパスを作成し、あるいは使う人と考えてよい。コーパスを扱うにはそ
のコーパスが何をどのように代表しているのかの自覚が必要なのである。
 一見したところではこれより漠然としているようであるが、LOB コーパス作
成の中心人物の一人である Johansson の次の定義も考慮に入れるべきである。
	A corpus is a body of texts put together in a principled way, 
	often for the purposes of linguistic research.  (Johansson 1991:
	3)
ここでは「ある原則に従って集められた」という文言が目につく。つまり、こ
の定義はもっと明確にコーパスを作成する側の主体的な作業を前提としている。
この定義によれば、新聞のテキストが手元にあるからそれをデータにするとい
う場合は、それはコーパスではないことになる。
 さらに、上で見た辞典では広義の定義を挙げていた Leech も、別の箇所で
はブラウン・コーパスと Survey of English Usage を引き合いに出して、
	... a collection of machine-readable text does not make a corpus.
	The Brown and SEU corpora were carefully designed as systematic
	collecions of samples, so as to have face-validity as representative
	of 'standard' varieties of English.  (Leech 1991a:10)
と述べており、狭義のコーパスこそがコーパスだと言っている。ここで Leech
 もいささかの混乱を示しているように見えるが、次の文がおそらく一番言い
 たいことに近いのだろうと考えられる。
	Computer corpora are, essentially, bodies of natural language 
	material (whole texts, samples from texts, or sometimes just
	unconnected sentences), which are stored in machine-readable
	form. ...  It should be added that computer corpora are rarely
	haphazard collections of textual material: they are generally
	assembled with particular purposes in mind, and are often assumed
	to be (informally speaking) representative of some language
	or text type. (Leech & Fligelstone 1992:115-116)
 
 この最後の引用文に現れているように、結局のところ、英語圏ではコーパス
の定義として広義と狭義の2種があると考えるのが実情に合っているのである。
広義では、上に見た日本における理解と同様に、コーパスとはコンピュータで
扱われる大規模なテキストの集積であって、その性質については問われない。
一方、狭義では、大規模なテキストの集積(すなわち、広義のコーパス)のう
ちで、言語学の研究を目的としてある一定の方針の下に集められたものだけが
コーパスと呼ばれる。
 この使い方をもっと徹底させようとしているのは Edwards であろう。彼女
は Edwards (1993:282-283)において、corpus と textbank を区別して用いて
いる。
	It is common to distinguish between corpora and textbanks.
	These differ in size and composition, and serve somewhat different
	analytic aims.  Corpora are intended to be representative of some
	specified population or genre.  Textbanks tend to be collections
	of available data with looser connection to each other, or focus
	on a restricted number of genres (including perhaps only one).
これは、上で見た広義と狭義のコーパスに対して別の語を用いようとしている。
もっとも、corpus と treebank とを区別することが「普通」(common)だと
いうのは、上で見たいくつかの引用文からしても、言いすぎであることが明ら
かである。とはいえ、この二つの概念をはっきり区別する必要を強調している
点では、合理的な提案だと言える。この提案に従うとすれば、手近にある大規
模な電子化テキストを集めたものは textbank ではあっても、そのままでは c
orpus とは言えないことになる。
 そして、実際のコーパス研究で対象となっているのはほとんどの場合この狭
義のコーパスである。英語の既存のコーパスのリストは、斎藤(1991a)、
Aijmer & Altenberg (eds.)(1991:315ー318)にも挙げられているが、Tayler et als.
(eds.)(1991)やEdwards(1993)はそれぞれのコーパスの編纂方針をも含めてリ
ストにまとめているので、個々のコーパスの性格を理解しやすい。これらのリ
ストを見れば、それぞれのコーパスが、どのような方針をもって、どのような
資料からサンプルを取ったかをある程度うかがい知ることができる。手近に機
械可読のテキストがあるのでそれをコンピュータで分析したといった研究は、
英語圏のコーパス言語学では(ごく初期はいざ知らず)現在ではありえないの
である。例えば、最近は英語で書かれた文学作品や新聞雑誌の記事の全文がオ
ンラインやCD−ROMを通じて容易にしかも大量に入手できるようになって
いる(注5)。しかし、コーパス言語学者がこの種のものにすぐさま飛びつく
という現象が見られるわけではない(注6)。この意味で、コーパス言語学が
欧米で盛んになってきていることの背景を単に「アルファベットで表記される
言語は、日本語以上にコンピュータに載せやすいという事情があるため」(荻野・
塩田1994:28)としか見ないのであれば、それはことの本質を見ているとは言え
ない。
 さて、テキストの集積のうちある種のものだけが「ある所与の言語、方言な
いし言語のその他の部分集合を代表するものと想定される」とすれば、それは
どのような根拠に基づいてそのように想定されるのであろうか。また、どのよ
うな「原則」や「計画」をもってコーパスは集められるのであろうか。
 
 
3。狭義のコーパスの実例
 
3。1ブラウンコーパス
 
 コーパスの設計(design)の重要性は、英語圏のコーパス言語学ではその最
初期から深く認識されていた。アメリカのブラウン大学の Kucera と Francis
によって1964年に作られた Brown Corpus はただ単に最初のコーパスとしてコー
パス言語学の先駆けとなっただけでなく、その後の現在までの英語コーパス言
語学のありかたをある意味で規定し続けている。ブラウンコーパスについては、
鈴木(1982)や中村(1992)の紹介がすでにあるが、表面的なその構成だけでなく、
それがもつ理論的・ 歴史的な意義を再検討しておくことがよいと思われる。
 ブラウンコーパスの作成に当たっては、その構成を綿密に練るところから始
められた。まず、コーパスが代表する母集団として1961年にアメリカで印刷刊
行された散文の文字言語を考える。その母集団からサンプルをとる手順として、
母集団を全体を情報散文(Informative prose)と創作散文(imaginative prose)
の二つに大別するが、むしろその次の段階の15のジャンルへの区分の方が実際
には重要な区分となる。そしてそれぞれのジャンルに重み付けをほどこし、そ
の重みに従ってサンプルを集める。一つ一つのサンプルは約2000語からなるテ
キストの断片であって、原則として2000語目を含む文の終りまでという形式的
な採取のしかたをしているので、内容の上で完結しているとは限らない。実際
のサンプルはある方式で無作為に選ばれるが、入手のしやすさという実務上の
制約もあって、厳密にランダムに選ばれたわけではない。15のジャンルを合計
して全体で500のサンプルが集められ、合計約100万語のコーパスが成り立つこ
とになったのである。
 ブラウンコーパスにおけるジャンルの分類とそれぞれのテキスト数の内訳は
次の表のような構成になっている。
 
ブラウンコーパスの構成 (注7)
 
A 新聞雑誌:報道 (PRESS: REPORTAGE)		44
B 新聞雑誌:論説 (PRESS: EDITORIAL)		27
C 新聞雑誌:評論 (PRESS: REVIEWS)		17
D 宗教 (RELIGION)		17
E 技術・趣味 (SKILL AND HOBBIES)		36
F 通俗知識 (POPULAR LORE)		48
G 文学 (BELLES-LETTRES)		75
H 雑:政府団体の広報 (MISCELLANEOUS: GOVERNMENT & HOUSE ORGANS)
		30
J 学術 (LEARNED)		80
K フィクション:一般 (FICTION: GENERAL)		29
L フィクション:ミステリー (FICTION: MYSTERY)		24
M フィクション:科学 (FICTION: SCIENCE)		6
N フィクション:冒険 (FICTION: ADVENTURE)		29
P フィクション:ロマンス (FICION: ROMANCE)		29
R ユーモア (HUMOR)		9
 
総計			500
 
 ブラウンコーパスの特徴は、一定の観点から分けたジャンルにそれぞれ重み
をつけ、その重みに比例した数の比較的小さなサンプルを無作為に選び、それ
によって母集団を代表させたことである。この手法はアンケート調査などの社
会調査において取られる母集団からサンプル(標本)を採る際の層化抽出法
(stratified random sampling)(福武 1958:94)にならったものと考えられる。
このような手法を採ることによって、このコーパスが母集団を適切に代表して
いるものとみなす根拠が得られたと、コーパスの作成者は考えたのである。
 このように構成されたブラウンコーパスはその後のコーパスのモデルとなり、
これと同様の方針で作られたコーパスもすでに数種類公開されている。ある一
年間に特定の地域で生み出された英語のテキストを、2000語ずつの比較的短い
単位で、15のジャンル毎に無作為にあつめるものである。この種のものの中で
は、ランカスター大学の Leech と オスロ大学の S. Johansson が協力して作
った、1961年のイギリス英語を対象とする LOB Corpus が最も有名であり、ブ
ラウンコーパスと並び称されることも多い。そのほかにも、1978年のインド英
語を集めた Kolhapur Corpus of Indian English(1988)、1986年のオースト
ラリア英語を集めた Macquarie Corpus(開発中)、1986年のニュージーラン
ド英語の Wellington New Zeland Corpus (1993)などがある。また、1991年の
イギリス英語を集め、LOB コーパスと比較できるようにするための試みがフラ
イブルグのChristian Mair によって進行中だとのことである(Holmes 1994:27)。
 このように同じ方針で作られた同じ規模のコーパスが数種類現れれば、それ
らを容易に比較することができるようになる。LOB コーパスの構成については
 Johansson (1978) に詳しいが、その目的からして、ブラウンコーパスに対応
 するイギリス英語のコーパスを作ろうというものであった(Johansson 1978:1)。
 したがって、ブラウンコーパスとLOB コーパスを比較することによって、イ
 ギリス英語とアメリカ英語という英語の地域的変種の差異を見ることが可能
 になる。実際、この種の研究はコーパス言語学の成果のかなりの部分を占め
 ている。また、時代差を見る試みもある。コーパス言語学の歴史は浅く最も
 古いブラウンコーパスでも1961年にしか遡らないため、せいぜい20〜30年の
 スパンにしかならないが、Holmes (1994) は ブラウンコーパスとウェリント
 ン・ニュージーランド・コーパスを比較して、この25年間における女性の敬
 称 Ms. の使われ方の違いを捕らえようとした。
 
 
3。2バーミンガムコレクション
 
 もちろんブラウンコーパスの構成にならわないコーパスも多く作られている。
そのなかで、興味深いものは Birmingham Collection of English Text であ
る。これはもともと英語の学習辞典として非常に革新的なことを自負する
Collins COBUILD English Language Dictionary (1987) の編纂の際にその主要
なデータの源として開発されたものである。Sinclair(1987)はこの辞典の編集作
業のさまを編集者みずからが詳細に紹介する本であるが、その中で Renouf は
Main Corpus の設計において次のような方針を取ったむねを述べている。
 
	書き言葉と話し言葉
	専門的ではなく、むしろ幅広く一般的な言語
	現行の用法であって、1960年以降、なるべく最近のもの
	「自然発生の」テキストであって、ドラマは除く
	散文であって、フィクションは含むが、詩は除く
	大人の言語、16才以上
	「標準英語」で、地域的方言は含まない
	主にイギリス英語だが、若干のアメリカその他の変種も含む
そして、より具体的には次のようなバランスを取ることにされた。
	著者	男性  75%	女性  25%
	変種(注8)	イギリス  70%	アメリカ  20%
		その他  5%
	モード	書き言葉  75%	話し言葉  25%
 
 このような方針を立てた上で、個々の作品の選択に当たっては、広く読まれ
ている本という観点から、ベストセラーなどを中心に選択したのである。選択
された作品の題名はCollins COBUILD English Language Dictionary の p. xxii
から2ページ半にわたる Corpus Acknowledgements に非常に細かい字で一つ一
つ挙げられているが、文学作品としては例えば Alex Haley のRoots、Frederick
Forsyth の The Day of the Jackal など日本人にもなじみ深い作品の名が見受
けられる。これは社会調査における有為選択法(purposive selection)(福武 
1958:87)に相当する。この Main Corpus は総計730万語の規模に達した。
 
 
3。3サンプルコーパス
 
 上に見たブラウンコーパスやLOB コーパスは母集団のサンプルであることを
意図して作られたものである。この意味でこの種のコーパスを Sinclair (1982:
2)はサンプルコーパスと呼んだ。自分がこの時期に指揮していたはずのバーミ
ンガムコレクションについてはまだ作業の途中で公開する段階でなかったためか、
Sinclair はここで触れていない。しかし、その Main corpus に限れば、サン
プルコーパスに含まれることは明らかである。
 もちろん個々のコーパス毎に何を母集団と考えるかは異なっている。また、
サンプルの採り方について、ブラウンコーパスは無作為に選び、バーミンガム
コレクションは一定の条件を付けた上で意図的にポピュラーなものを選択する
という、方針の違いはある。さらに、ブラウンコーパスは印刷刊行された書き
言葉に限定するが、バーミンガムコレクションは話し言葉も含める。London-L
und コーパスのように話し言葉だけのコーパスもある。しかし、いずれにせよ、
どのように選べばコーパスがある言語(の部分集合)を代表するものだと言え
るかということをコーパス作成者が十分に検討した上でそれぞれの方針を採用
しているのである。つまり、どのようなものを母集団を考え、それからどのよ
うにサンプルを採ればその母集団を適切に代表することになるかということで
ある。このようなコーパスの設計(design)に関する議論は英語圏のコーパス
研究の中では繰返しなされていることである。例えば、Sinclair (1991) や S
vartvik (ed.) (1992), Biber (1993) に見られる議論を参照。
 このように厳密な手続きを経て作られたコーパスはそのままの形で固定され、
また、少なからず、研究者に公開されている。したがって、同一のコーパスに
対して多くの研究者がいろいろな方法でアプローチすることが可能になってい
る。また、ある研究に対する全く同じ条件での追試の可能性が保証されている。
これらのことがコーパス研究の一定程度の質の維持をもたらしているのである。
ブラウンコーパスはこのようなコーパス研究の道筋を付けたという点で古典と
見なされるようになった。
 このようなコーパスの設計に関する議論は、日本にはこれまで欠けていた。
これは、現在の日本におけるコンピュータ利用言語学に試行錯誤の側面がある
ことの一つの原因であると言える。
 
 
4。コーパスの設計に見られる新しい動き
 
 一方、コーパス言語学の進展とコンピュータの能力の一層の向上を背景にし
て、英語のコーパス研究では80年代以降新しい動きが現れている。
 1960年代には大型計算機を駆使して処理する必要のあった100万語規模のコー
パスは、当時は大型計算機でやっと扱いうるほどの大きさであった。鈴木(1982:
119)は、ブラウンコーパスの約12メガバイトの大きさのファイルを磁気ディスク
に保存するための経費がかかることを問題点の一つに挙げている。しかし、その
後パーソナルコンピュータが生まれ、急速にその能力を向上させた結果、現在で
は個人の机の上で比較的手軽に扱えるものになっている。現在ノルウェーの 
Norwegian Computing Centre for the Humanities から一枚のCD−ROMに収
められて配布されているいくつかのコーパスの中で、Brown Corpus も LOB Corpus
も本体は7メガバイトほどの大きさであるから、パーソナルコンピュータのハード
ディスクに容易に収めることができる。
 ブラウンコーパスの100万語規模という大きさは、研究のレベルによっては
適当な大きさであるが、ある種の研究にとっては決して十分な大きさではない。
例えば、Brown Corpus は異なり語数として約5万語であり、そのうち多くの
語は1回しか現れない。このことは語彙の研究としても、機能語に関してはか
なりのデータが集まるにせと、その他のかなり多くの語については不十分な数
のデータしか得られないことを意味する。
 バーミンガムコレクションは辞典の編集を主目的に作られたのであった。
Renouf (1987)によれば、この Collins COBUILD Dictionary の編集の際にも、
730万語の Main Corpus からでは頻度のそれほど高くない語については十分な
データが得られなかった。そのため Main corpus を補うものとして1300万語
規模の Reserve Corpus が作られた。このコーパスは Main corpus の場合と
は違って、レジスターやディスコースの要因は考慮されず、バランスではなく
多様性が追求されたとのことである。この事情を示唆してのことであろうが、
同辞典の編集主幹 Sinclari はすでにモニターコーパスの概念をサンプルコー
パスに対比させたていた(Sinclair 1983:4)。コンピュータ製版や光学読取
装置のおかげで大量の電子化テキストが入手可能であり、コンピュータでそれ
が処理できる以上、手間暇かけてサンプルコーパスを作る必要はもはや低下し
ている、と言うのである。これは量の違いではなく、質の違いであって、巨大
な、ゆっくりと変化するテキストの集積をコンピュータに通すことで言語の全
体像(the whole state of a language)をモニターできるとする。ただし、
ここではその具体的な実現には触れられていない。Renouf (1987:21)は monitor
corpus を将来のものして述べているので、Reserve corpus は本当の意味での
monitor corpus ではなかったのであろう。Sinclair のこの考えは1983年時点
ではまだ構想に過ぎず、COBUILD辞典の編集を通じて monitor corpus の概念が
練り上げられていく途中であったのだと考えられる。もっとも、この monitor
corpus は実際にはどう作られ、どう運用されるかは明確には示されていない。
 Leech (1991a:10)はコーパスの規模とコンピュータの能力によってコーパ
スを三つの世代に分ける。まず、1960年代のブラウンコーパスなどの100万語
規模のコーパスを第一世代コーパスとする。そして、1980年代のバーミンガム
コレクションなどの、光学読取装置のおかげで手作業の入力の必要のなくなっ
た時期のものを第二世代コーパスと呼ぶ。最後に、電子通信システムの副産物
として巨大な量の機械可読テキストが利用できるようになった時期の数億語規
模のコーパスを第三世代コーパスと呼ぶことができるだろう、とする。彼は20
21年までには1兆語規模のコーパスも夢ではないとするが、現時点ではまだ第
三世代コーパスの詳細は不明である。
 規模においてこれに最も近いと思われるのは注6に挙げた Bellcore Lexical
Research Corpora である。これは2億語規模の報道文(ニューヨークタイムズ
紙、AP通信)と5000万語規模の雑誌新聞記事、書籍、電子メール文抜粋その
他の文とからなるとのことである。しかし、このコーパスの実際の運用のされ
方や、これを資料に使った研究の成果については詳らかにしない。
 また、これと少し違う方向にあると思われるものは、Quirk (1992) が紹介
する British National Corpus の計画である。これは1991年1月から39ケ月か
けて、オックスフォード大学出版会、ロングマン社などで構成する連合体が主
導して作る予定の1億語規模のコーパスである。しかし、この計画では機械可
読テキストをそのまま利用するだけではなく、光学読取装置や(話し言葉のデ
ータのためであろうが)手作業の入力も用いるとのことである。また、コーパ
スの設計としては、現代イギリス英語をできるだけ代表するように、綿密に練
られ、広範なタイプのテキストが選ばれる。書籍、雑誌、ドラマ、テレビ番組、
手紙、メモ、電話の会話、集会、広告などを含むことになっている。
 Leach のようにコーパスを三世代に分ける考えが適当かどうかは別にして、
コーパスのありかたが現在転機に立っているということはできそうである。従
来はブラウンコーパスに代表される、一つの研究機関で作成可能な比較的小規
模のコーパスが中心であった。ここでは綿密な設計の下でコーパスが作成され
た。しかし、現在、大量の電子化テキストを前にしてその利用法について意見
が分かれている。Sinclair は綿密な設計というこれまでの方針を一部放棄あ
るいは緩和してでも大量の電子化テキストを活用することがよいと考えている
ようである。一方、Quirk らは、従来の綿密な設計という方針を堅持したまま
で巨大規模のコーパスを作りつつある。ただし、後者の選択は国家プロジェク
トともいえる態勢が組めたからこそ可能であったのであり、多くの研究者にと
っては前者の方が現実的な選択であろう。しかし、その際の具体的な手順につ
いては、まだ大方の合意が得られているとは言えず、これからの課題であろう。
 
 
5。まとめとして−−日本語のコーパス言語学の見通し
 
 本稿の目的は、英語のコーパス研究の進め方をそのままの形で日本語の研究
にも取り入れるべきだと主張することではない。しかし、英語のコーパス研究
の経験は十分に参考にする価値のあることであり、そこから学ぶべきことを学
び、日本語のコーパス研究に関する方法論を確立することが必要であろう。日
本ではコーパスに関する経験や議論の蓄積なしに、一挙に電子化テキスト氾濫
の時代に直面している。日本におけるコーパス言語学がまだ草創期にある現在、
上で見たような英語圏でのコーパス言語学の流れに学ぶべきことは多いと思わ
れる。
 今後、日本語の研究にとってどのようなコーパスが望ましいかは、一概に言
うことはできない。それは研究の目的と密接に関係しているからである。しか
し、英語のコーパス研究の歴史から学べば大きくまとめて二通りの方向が考え
られる。
 一つは、綿密な設計に基づくサンプルコーパスである。英語研究では確かに
ブラウンコーパスのタイプのものはすでに古典になっている。しかし、これら
は実際に多くの研究の成果を生み出してきたのであり、また、今でもこの種の
ものの価値が全く失われたわけではない。サンプルコーパスは同じ方針の下に、
少しづつ条件の異なるコーパスをいくつも作ることが容易であり、それらを相
互に比較することができる。アメリカやイギリス、その他の地域の英語のいろ
いろな変種を対照したり、数十年を隔てての言語使用における変化を見たりす
ることを可能にしてくれる。この利点は今後とも失われることがない。日本語
に対してはこの種のサンプルコーパスさえなかったのであるから、今からでも
この種のものを作ることは決して無駄ではない。このようなサンプルコーパス
ではテキストの量もさることながら、それよりむしろ全体の質が重要である。
したがって、どのように層に分ければ日本語のテキストを適切に代表するサン
プルが得られるのかということを初めとした方法論上の議論がまず必要になる
であろう。
 もう一つは、Sinclair の monitor corpus の考えを取り入れて、全体のバ
ランスはある程度は度外視しても、できるだけ大きな量のテキストの集積を求
めようというものである。しかし、この場合でも対象としているテキストの性
格に常に注意して、できるだけ多様なタイプのテキストが含まれるようにしな
ければならない。日本での現状において、多様なタイプのテキストが得にくい
とすれば、当面は新聞などを中心とした入手しやすいものを主な対象にするこ
とになろう。これは実際に現在行われ始めているいくつかの研究に近い。しか
し、このような研究の中でコーパスのデータの分析の手法を確立し、プログラ
ムを開発することと並んで、多様なタイプのテキストを得るための具体的な方
策などについても論じられねばなるまい。また、この際のコーパスの運用の方
法論については、英語圏でもまだ確立されていない状態である。それだけに、
日本からも独自の立場での貢献が可能であり、また、必要にもなるであろう。
 
 
参考文献
 
Biber, D.  1993  Representativeness in corpus design.  Literary & linguistic
computing 8:191-243-257.
Edwards, J. A.  1993  Survey of Electronic Corpora and related resources
for language researchers.  IN: J. A. Edwards & M. D. Lampert (eds.),Talking
data: transcription and coding in discourse research.  Hillsdale (New Jersey),
Lawrence Erlbaum Associates. pp. 263-310.
Francis, W. N.  1982  Problems of assebling and computerizing large corpora.
In; Johansson (ed.) 1982. pp.7-24.
Francis, W. N.  1992  Language corpora B.C.  In: J. Svartvik (ed.) 1992. 
pp. 17-32.
Fries, C.C. 1940  American English Grammar. New York: Appleton-Century-
Crofts.
Fries, C.C. 1952  The structure of English. Ann Arbor: University of
Michigan Press.
Holmes, J.  1994  Inferring language change from computer corpora: some
methodological problems.  ICAME Journal 18:27-40.
Johansson, S. 1978  Manual of information to accompany the Lancaster-
Oslo/Bergen corpus of British English, for use with digital computers. 
Oslo: Department of English, University of Oslo.
Johansson, S. (ed.)  1982  Computer corpora in English language research.
Bergen: Norwegian computing centre for the humanities.
Johansson, S. 1991  Computer corpora in English language research. In:
S. Johansson & A. Stenstrom (eds.), English computer corpora, Selected papers
and research guide. Berlin: Mouton de Gruyter. pp.3-6.
Leech, G. 1991a  The state of the art in corpus linguistics.  In:
K. Aijmer & B. Altenberg (eds.) English Corpus linguistics.  London: Longman.
Leech, G. 1991b  Corpora. In: Malmkjaer (ed.) , The Linguistics encyclopedia,
London: Routledge.
Leech, G. 1992  Corpus processing. In: W. Bright (ed.), International 
encyclopedia of linguistics, New York: Oxford University Press.
Leech, G. & S. Fligelstone  1992  Computers and corpus analysis.  In: 
C. S. Butler (ed.), Computers and written texts.  Oxford: Blackwell.  
pp.115-140.
Quirk, R.  1992  On corpus principles and design.  In: Svartvik (ed.) 
1992. pp. 457-469.
Sinclair, J.  1982  "Reflections on computer corpora in english language
research" In: Johansson (ed.) 1982: 1-6.
Renouf, A.  1987  Corpus development.In: Sinclair (ed.) 1987, pp.1-40.
Sinclair, J. (ed.)  1987  Looking Up.  London: Collins ELT.
Sinclair, J.  1991 Corpus, concordance collocation.  Oxford: Oxford
University Press.
Svartvik, J.  1992  Directions in corpus linguistics. Proceedings of Nobel
Symposium 82.  Berlin: Mouton de Gruyter.
 
伊藤雅光 1994 数理的研究 国語学 177:121ー138.
遠藤仁 1990 「親類」と「親戚」の語誌 国語学研究(東北大学文学部「国
語学研究」刊行会) 30:21ー31.
荻野綱男(編) 1994 日本語の文法の構造2 私家版
荻野綱男・塩田雄大 1994 「朝日新聞データベースを使用した言語研究」 
日本語学 13:5:28ー39.
後藤斉 1993 「神話」の比喩的用法について―コーパス言語学からのアプロ
ーチ 東北大学言語学論集 2:1ー16.
近藤泰弘 1993 「文法研究における大量言語データ−副助詞研究を例にして
−」 武蔵野文学 40:12-16.
齊藤俊雄 1992a コンピュータによる英語英文学研究序説 In:齊藤俊雄(編)
1992b:1ー20.
齊藤俊雄(編) 1992b 英語英文学研究とコンピュータ 英潮社.
鈴木英一 1982 ブラウンコーパスへの招待 月刊言語 11:10:113ー119.
田野村忠温 1994 「丁寧体の述語否定形の選択に関する計量的調査−「〜ま
せん」と「ないです」−」 大阪外国語大学論集 11:51-66.
豊島正之 電子化テキストの国際的共有―付総括― 国語学 178:40-48.
中村純作 1992 ブラウンコーパス等のコーパス利用による英語テキスト分析
 In:齊藤俊雄(編)1992b:21ー51.
中村純作 1994 ヨーロッパにおける英語コーパス研究の動向 英語コーパス
研究 1:49ー61.
野元菊雄 数理言語 国語学 73:60ー66.
福武直 1958 社会調査 岩波書店。
横井俊夫 1991 電子化辞書とテキストデータベース 日本語学 10:8:78ー85.
 
 
注
 
1. 1987年以降の記事について、パソコン通信を介して全文データベースで検
索することができ、また、CD-ROM の形式でも入手可能である。もっとも、こ
の点については朝日新聞以外にも同様のことが可能である。
2. もちろん、田野村(1994)のようにこの危険性を十分意識している研究者は
いる。
3. ヨーロッパのコーパス研究の現状については中村(1994)を参照。なお、横
井(1991)が紹介する EDR コーパスは現代日本語を対象とするまれなコーパス
の例であり、それから電子化辞書を作る過程で多くの経験が蓄積されているも
のと思われる。しかし、その中でのコーパスの設計や処理方法などの議論は研
究者の共有財産とはなっていない。
4. 豊島(1994:45)がコーパスを e-text (電子化テキスト)の公開方法の1
種と捉えているのは誤解である。「多種多様なものを豊富に集成したものが多
い」という点では当たっているが、「テープ等で頒布されている」かどうかは
コーパスの定義とも性格付けとも全く無関係である。
5. 多くの英文の文学作品や公文書が anonymous FTP や CD-ROM によって無
料、もしくは安価に入手できる。ただし、特に文学作品に関しては、豊島(199
4)の懸念するテキストの質の問題はつきまとう。また、TIME 誌を初め、数種
類の新聞雑誌の数年分の全文テキストも CD-ROM で比較的安価に買うことがで
きる。これらの場合には出版時に使った電子化テキストをそのまま流している
ものと思われる。
6. Edwards (1993:288) が紹介する Bellcore lexical research corpora は
これに近い。ただし、その規模に注意。後述を参照。
7. ブラウンコーパスを含めてノルウェーの Norwegian Computing Centre for
the Humanities が配布している CDーROM である ICAME Collection of English
Language Corpora の中のファイル MSDOS\TXT\BROWN1\BROWNLST.DOS によった。
8. この項目の総計が 100% にならないのは、原文のまま。


copyright GOTOO Hitosi 1996
著作権法規に則って利用することができます。


「後藤斉の主な著作」に戻る
後藤斉のホームページに戻る

URL:http://www.sal.tohoku.ac.jp/~gothit/corpus.html
2019-04-04T15:21:06+09:00
All Rights Reserved. COPYRIGHT(C) 1995-2006, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ