リンクは自由!
『日本語学』第22巻(2003)4月臨時増刊号「コーパス言語学」, pp.6-15 掲載

言語理論と言語資料　―コーパスとコーパス以外のデータ

１. コーパスとは何か

言語の研究に関して「コーパス」ということを目にすることが増えているが、その概念の理解は必ずしも十分に広まっているとはいえない。まずそれを整理しておくことが必要であろう。

「コーパス」という語は英語のcorpusに由来し、これはさらにラテン語 corpus「体」(発音はコルプス)に発する。この語は文字通りの意味から転じて、比較的早くから『ローマ法大全』Corpus Iuris Civilisのように「資料の総体」を意味して使われ、この用法でヨーロッパ各国語に取り入れられた。特定のテキスト (音声言語を転写した資料を含む)のみに依拠して研究が行われるような場合には、それをその研究におけるコーパスと呼ぶことになり、これが最も広い意味でのコーパスである。特定のテキストに基づく研究は決して目新しいものではない。それどころか日本でも世界の各地でも言語研究の萌芽は古典文学や聖典など所与の文献のテキストを研究することにあり、それは長い伝統を形作ってきたし、 1950年代までのアメリカ構造主義言語学においても、一定のコーパスを設定し、そのなかで音素分析や形態素分析を行うことは、その理論的要請からしてむしろ当然のことであった(ロウビンズ 1992)。現代語の文法研究や語彙の研究においても一定のテキスト群に基づく研究がごく普通に見られることは改めて言うまでもない。

二十世紀後半にコンピュータが発達し、計算機から次第にデータ処理機械としての性格を帯びるようになるにつれて、1960年代にアメリカで言語分析への応用が始められた。大量のデータを一定の手順で扱うのは正にコンピュータの得意とするところだからである。クチェラらによるブラウンコーパス (1967)がそのはしりであり、これ以降「コーパス」は、主にコンピュータによる処理を前提とした機械可読のテキスト、電子(化)テキストの大規模な集合として理解されるのが普通になる。これを現代的な意味での広義のコーパスとみなすことができる。

それでは、コンピュータを使う研究は、伝統的な研究とはどこが違うのか。それはまずはテキストの範囲の大規模性とその範囲内での網羅性にある。コンピュータは疲れを知らないため、テキストの量をいくらでも拡大できるし、何度も繰り返して調査することができる。また、誤りもほとんど発生しない（誤るとすればその原因は大抵データそのものの誤りか、処理手順の指示の誤りである）。人手によって行うのに比べて能率や精度が比較にならないのである。したがってコンピュータの利用は語彙索引の作成や頻度調査、統計処理には極めて適している。この種の研究手法を指して計量言語学と呼ぶ(伊藤(2002)を参照)。隣接の分野として、主に工学的な関心から機械翻訳や自動要約などのより実際的な応用を目指す自然言語処理もある。

ここで、もう一つの違いを確認しておくことも必要である。テキスト志向か言語志向か、すなわち、関心の対象がテキスト自体にあるのか、言語にあるのかという違いである。伝統的な研究方法では、特定のテキスト(例えば特定の文学作品や作品群)に主たる関心があることが多く、それを研究する補助手段として語彙索引や語彙の頻度表を作成したのであった。このような関心をもってコンピュータを利用することももちろん可能であり、実際、現在では多くの作品の語彙索引がコンピュータを利用して作られて、作家や作品の文体研究などに応用されている。それに対して、テキストを言語の体系や機能を研究する手がかりとして位置づける態度も可能である。テキスト中である語句を検索するとして、それがどこ（原文の何ページの何行目）に現れるかによりは、むしろそれがどのような環境で現れるか(他のどのような語句と隣接するか、どのような文法カテゴリーと共起するか、どのような話者がどのような状況で発するか)に関心を持つ。コーパスからは例えばある語句の頻度が数値的なデータとして得られるが、それはテキスト自体の性格づけに使われるというよりは、その要因を言語体系や言語機能といったより大きな文脈の中で探り、当該言語への理解を深めようとする方向で利用される。コーパス言語学という呼び方はこのような立場に限定して使うのが普通である。

このような考え方に立つと、コーパスはそれ自体で価値があるというより、言語のサンプルとして位置づけられることになる。そうすると、コーパスに採用されるテキストの選択も、個別のテキストの性質によってというより、全体としての構成が研究対象となる言語（ないしは言語の変種）をよりよく代表する集合になるようにとの配慮に基づかなければならない（あるいは、少なくともその方が望ましい）ことになる。任意のテキストや入手の便利なものでよい訳ではなく、あるいは名作とされる文学作品が適している訳でもないのである。ブラウンコーパスが現在コーパスの古典と見なされているのは、それが単に電子化コーパスの嚆矢であったというだけでなく、コーパスのデザイン（設計）の重要性を示したという点にあった。後藤(1995)で紹介したように、ブラウンコーパスでは、まず、サンプルを採集する母集団として1961年にアメリカで印刷刊行された印刷物を考えた。そして、それを16のジャンル（新聞の報道記事、論説記事、宗教書、実用書、さまざまな文芸など）に分け、それぞれに重みを与え、そのジャンルごとに重みに比例した数のテキストの断片（一つあたり約2000語）を全部で500集め、全体として約100万語のコーパスを構成したのである。このブラウンコーパスの考え方は、その後のコーパス言語学の流れに大きな影響を与えた。

この種の配慮をもって作られたコーパスはのちにバランスト・コーパスあるいはサンプル・コーパスと呼ばれることになる。「バランスのとれた」という概念には、後述の通り、議論の余地が大いにある。しかし、ブラウンコーパスのアイデアは英語圏で受け入れられ、ブラウンコーパスの形式にならったコーパスがいくつも作られたし、直接それに従わないにしてもなんらかのコーパス・デザインを持った多くのコーパスが開発された。このような意味で、言語研究に役立つようにとの意図をもって、事前にコーパスの構成をデザインした上で集められた電子テキストの集合がすなわち最も狭義のコーパスということになるが、英語コーパス言語学においてはこの意味で理解されることが多い。

「コーパス」という語はこのように広義から狭義にわたって数種類の理解のしかたをされるので注意が必要である。日本語に関しては最狭義のコーパスは極めて少なく、比較的よく知られているものとして旧日本電子化辞書研究所による「EDRコーパス」 (http://www.jsa.co.jp/EDR/J_index.html)がある。これ以外は同じくコーパスの名はつけられていても、テキストを集積した本来の理由が言語研究ではないので、最狭義のコーパスには含まれないことになる。小松左京の全作品を集めた「小松左京コーパス」(総合研究大学院大学ACI-Hayama: http://aci.soken.ac.jp/~sakyo/)や雑誌『太陽』の本文を電子化した「太陽コーパス」 (国立国語研究所)、1995年1月の毎日新聞の記事に形態素と構文の解析を加えた「京都大学テキストコーパス」（京都大学情報学研究科言語メディア研究室: http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/corpus.html)などがそれにあたる。近年はCD-ROMとして市販されている『新潮文庫の百冊』や新聞記事テキストデータに基づく日本語の研究も見受けられるが、この場合も同様である。

２. コーパスの理論的背景

コンピュータで言語を扱うという意味でコーパス言語学は高度に技術的な側面をもっていることは事実である。コーパスを扱うにあたっては、文字コードやテキストファイルの概念は前提知識として不可欠であるし、種々のアプリケーションソフトウェアやツール類の入手法や操作法など、ノウハウ的な知識も必要である。しかしながら、コーパス言語学は単に小手先の技術ではなく、言語の研究方法としての理論的な背景なしには存在し得ない。このことは特に英語を対象とするコーパス言語学で早くから強く意識されていた。コーパス言語学が定着した現在の英語圏でさえ、概説書として最新のものに属する Meyer (2002)も第一章「コーパス分析と言語学理論」から始めているほどである。

英語コーパス言語学が理論的背景について自覚的であったことには理由がある。つまり、コーパスに基づいて言語に接近する研究法がそもそも有効かという疑問、さらには無効であるとの主張が存在するからである。そのようなコーパス言語学への懐疑は主として生成言語学の立場から示され、コーパス言語学がアメリカに生まれながらその後むしろヨーロッパで盛んになったことの一因となった。

チョムスキーらによる生成言語学の立場からすると、言語学の目標は主として母語話者がもつ個別言語の言語知識を説明すること、さらには人間が生得的にもっている言語を習得する能力およびその具体化としての普遍文法の在り方を説明することである。ここにおいてデータとして重要視されるのは理想化された母語話者の直観であり、逆に個別の具体的、表面的な言語使用はさまざまな偶然的な要因に左右されるため、いくら集めてもデータとしての価値はないとみなされる。1950年代半ば以降盛んになった生成言語学はしたがって初期のコーパスの利用に対して冷淡であった。

チョムスキー理論に限らず、形式主義的文法研究では言語記号を操作して例文を作ることはごく普通に行われる。ある理論を検証するために最適な例文は、現実に左右される夾雑物が除かれている方が望ましく、それは内省に頼った作例によって得るほうがずっと効率的である。それが端的に現れるのは非文である。非文の利用は文法の研究において有益であるが、それは二世紀ごろのアポロニオス・デュスコロス『統語論』にまで遡る。彼は文の必須成分を示すために八品詞すべてを含む文から一要素ずつ減らしていき、動詞が欠けると非文となることを示した。このように、ある文法現象に注目しているとき、一箇所でのみ異なる文のペアの文法性ないし適格性の判断が異なるということがよくあり、それがデータとして研究の上で有益な論拠となることは多い。しかし、このようなデータはコーパスからは求められないのであり、したがって、この種の言語研究にとってコーパスの利用は魅力的ではない。

初期のコーパス言語学はこのような批判にさらされたため、アメリカではあまり発達せず、それを引き継いだイギリスで理論武装を試みることになった。これはイギリスの経験主義哲学の伝統と無縁ではなく、言語学理論としてはハリデーの機能主義言語学との親縁性が指摘できる（ただしコーパス言語学全体がハリデー理論に依拠している訳ではない）。その結果、よく引用される Leech (1992)にまとめられているように(斎藤(1998)も参照）、コーパス言語学は次のように特徴づけられることになる。

　　(1) 言語能力よりも言語運用に焦点をあてる。
　　(2) 言語普遍よりも言語記述に焦点をあてる。
　　(3) 言語の定性的なモデルのみならず定量的モデルにも焦点をあてる。
　　(4) 学問研究における合理主義的立場より、むしろ経験主義的立場に焦点をあてる。

つまり、コーパス言語学は実際の言語使用の記述に重点をおき、論理構成としては帰納法を主に用いることになる。そして、このような方向性での言語研究が有効であり、反証可能性や簡潔性、客観性など科学的研究に要求される特徴を備えていることが力説されることになる。この間に、辞書編集や文法記述に利用されて、その有効性を実際にも示すことになった。

誤解されがちな点であるが、コーパス言語学は現実の言語運用の記述のみを目指しているわけではない。実際の言語使用に基礎をおきつつ、それから帰納的に得られた知見をどのように一般化し、理論化するかはそれぞれの研究者の判断にゆだねられる。例えば、コーパスには言い間違いや言いよどみ、繰り返しなど統語的には非文や容認不可能文と判断される文が現れる。そのような文を、 Aarts (1991)は、観察に基づく文法を構築しようとする際に除外してさしつかえない、あるいは積極的に除外すべきであると述べるのである。

生成言語学的な考え方とコーパス言語学的な考え方とは、どちらが正しいというよりは、研究の目標をどのように設定し、言語のどの面に主な関心を寄せるかに関係しているように思われる。データ自体はサンプルに関して得られたものであるが、サンプルは言語体系・機能の顕現であって、そのあり方を知るための手がかりになりうる。コーパスに基づきつつ、理論言語学に貢献する研究も可能である。このような意味で、コーパス言語学は言語学の一分野というよりは方法論であって、文法、語彙、音韻など、おそらく言語学のすべての分野に適用可能であり、語用論、社会言語学、応用言語学、歴史言語学にも適用されている。なお、コーパス言語学者の中には、さらに進んで、経験主義的な立場こそ言語学において本流であるべきことを説くSampson (2001)もいる。

３. コーパスの利点

コンピュータコーパスが持つそれならではの利点についてはすでに言及したが、他の種類のデータに基づく研究手法との違いをより詳しく検討してみよう。

まず第一に網羅性である。人間はどうしても長時間のうちには注意が散漫になってしまうので、大量のテキストについての悉皆調査は苦手である。コンピュータを利用すればそのような心配はない。これは頻度の低い形式を捜す場合に特に役に立つ。大量のデータの中からなら見つかる可能性が高まることが期待できるからである。単にある形式の有無を調べるのではなく、その頻度を定量的に知ることができ、それをテキスト全体あるいは類似の他の形式と比較して、相対的な頻度を知ることができることもコンピュータ利用の長所である。例えば、対応する二形式の頻度が著しく違っていれば、どちらが無標の形式であるかを判断する根拠になる。

さらに、対応する複数の形式の間で、頻度ばかりでなく、分布のしかたにも偏りがみられることもある。類義の動詞の間で主語や目的語になれる名詞の範囲が違っていたり、類義の形容詞の間で修飾する名詞の範囲が違っていたりするような現象である。このような隣接して現れやすい語句の組み合わせをコロケーションと呼ぶが、それはより細かい語義分析の助けになる。また、ある種の動詞が特定の種類の副詞句や特定の時制や法などの文法カテゴリーと共起しやすいとすれば、動詞を文法的に下位分類する根拠になろう。ある語の公文書での頻度と文学作品での頻度に大きな違いがあれば、その語の位相による振る舞いの違いに帰せられよう。この種のことはある程度まで内省によって知ることができるが、言語的文脈間での分布の偏りを客観的に明確に示すことができるのはコーパスを用いる長所である。

なお、語義の分析については、国語辞書編集における見坊豪紀や山田忠雄といった強い個性をもつ名前がすぐ思い浮かぶし、意味論における国広哲弥や森田良行の業績も周知のものである。これらは、博覧強記と非網羅的な実例調査および作例の組み合わせからデータを得ていたと言える。これらの業績の価値は否定しようもないが、語彙の全体について博覧強記ぶりを発揮し、目に付いたあらゆる用例をカードに採集することは不可能に近い。全体として、良くも悪くも個人の個性に依存する部分が大きい。コーパスの存在価値を減じることにはならないのである。

話者の出身や年齢、性別、発話の状況など、社会言語学的文脈の間にみられる言語形式の分布の偏りも、コーパスに十分な情報が付加されている場合には、客観的に示すことができ、このこともコーパスの長所としてあげることができる。このような社会的な変異を個人の内省によって知ることは難しいし、社会的属性によって画然と条件付けられているというよりはゆるやかな傾向として現れることが普通であって、その傾向を個人の内省のみによって具体的に示すことは無理である。社会言語学的研究においてはアンケート形式による言語使用意識調査もよくおこなわれており、多様な言語形式について一度に多くの人に対して調査することができ、被調査者の構成を事前にコントロールできる点で優れている。しかし、意識調査の結果は実際の言語行動を反映しているとは限らないという難点がある。コーパスのデータには現実の使用に基づくという安心感がある。

４.　コーパス利用の問題点

このように言語の研究にコーパスを利用することには多くの長所があり、本号の他の論文に例証されている通りであるが、理論的にそれに内在する問題点や実際的な難点もまた考慮しておかなければならない。

狭義のコーパスにおけるコーパスのデザイン、特に、「バランスのとれたコーパス」という考えは、サンプルの頻度から母集団の頻度を推計するという、統計学の推計という概念に基づいている。直接知ることのできない母集団の性質を、それを適正に代表するサンプルにおけるありさまを調査することによって、推計するのである。しかし、言語において母集団とは何であろうか。言語は無限の生産性を備えているため、この言語の文はこれですべてである、というリストの形で示すことはできない。母集団は(最も単純に考えても)無限の文の集合である。一方、コーパスは、いかに大規模であっても、所詮は有限である。無限の母集団を有限のサンプルで代表させるのであるから、コーパスには必ず偏りが存在するのであり、「バランス」は完全な形では到達のしようがない。しかるべきデザインを採用することによってなるべく適正な形で言語（の変種）を代表していることを期待する訳だが、コーパスと言語との関係についてはコーパスを扱うとき常に考えていなければならない。十分なデザインなく作成された広義のコーパスを使うときはなおさらである。後藤(1997)に論じたコーパスの類型を参照されたい。

したがって、コーパスから得られたデータのうちどれをどのように解釈するかが大事であるが、それはコーパスだけからは知りえないし、そのための経験則が十分に蓄積されているとは言い難い。おそらく経験則としてはまとめきれないであろう。コーパス全体のマクロな検討と個別の用例のミクロな検討は両立するのが望ましいだろうが、折り合いをつけるのに苦労することもある。言語分析のセンスと当該の言語についての広い知識が必要となることは当然であるが、大きな手間を掛ける必要もでてくる。

コーパスの分析にあたっては、なんらかのソフトウェアを利用して語や文法形式を検索することになるが、ソフトウェアは言語学的な単位を理解しているわけではない。自分が関心を持つ言語学的単位をソフトウェアにわかるような形式的な表現(単純な文字列や正規表現）に翻訳しなければならないが、それは必ずしも容易ではない。コーパスに文法タグがつけられていればかなり助かるが、それでも自分の関心の対象を過不足なく表現できるとは限らない。検索結果を形式の上から整理しなおすことはソフトウェアにまかせることができるが、意味や機能といった形式化しにくい基準によって整理するためには結局は人の手を借りざるをえないのである。ある形式を検索した結果が予想以上の多様性を示すということは実はたびたびあり、膨大なデータを前にしてとまどってしまうということになりかねない。

したがって、コーパス以外のデータとの付き合わせも必ず必要になる。日本で新聞のテキストデータを分析したものとして最初期に属する遠藤(1990)が、新聞記事での出現のパターンを古典から現代に至る文学作品での使用例や学生の使用意識と対照した上で語誌としてまとめていたことは記憶すべきである。

より実際的な問題点はコーパスの入手に関してである。英語に関しては、一定の手続きをとれば研究に使うために入手することが容易なサンプル・コーパスがいくつも存在する。それに対して日本語はそういう状況にはなく、多くの場合に研究者それぞれが、コーパスを調整する必要がある。このとき原文の著作権、特にそのうちの複製権に注意する必要がある。著作物は個人的な利用に関しては例外的に権利者の許可なしでの複製が認められることがあるが、コーパスを大勢で共同使用したり公開したりしたい場合には適切な著作権処理は欠かせない。多様なテキストからなるコーパスを作成しようとするとき、実務的にはネックになる。

細かいことであるが、日本語の表記の性質について十分考慮しておく必要がある。そもそもコーパスが書かれたテキストから成り立っている以上、表記に現れないものを探る手掛かりにはできない。「うめる」と「うずめる」という類義語の違いを調べようとしても、「埋める」という表記がどちらを意図しているかの判断はつきかねる例が大部分であろうから、調べようがない。このような場合は内省にゆだねるのが賢明である。

また、検索する際には表記のゆれにも注意する必要がある。送り仮名のゆれや漢字表記するか仮名に開くかの違い、外来語の音引きの有無や「バ」と「ヴァ」のゆれなど、日本語には、正書法として許容されている表記のゆれが存在するし、和語を意図的に片仮名表記するような、正書法からの逸脱も現実には見られる。テキストによっては旧仮名遣いや旧字体が使われているかもしれないし、逆に現代の若者言葉のコーパスを扱うとすると音引きが「～」(やその繰り返し)であったりするもっと大胆な表記に対処する必要がでてくるかもしれない。実は、このほかに、電子テキストにはかなりの数の誤入力が存在するのが常である。平仮名の「へ」と片仮名の「ヘ」、音引きの「ー」とダッシュ「―」や漢数字ゼロ「〇」と白丸「○」などはワープロの入力で取り違えられることがあり、『新潮文庫の百冊』や『新潮文庫大正の文豪』のような著名出版社による市販の電子データでさえ例外ではない。このような表記のゆれや誤入力にどう対処するかを決めておかなければ、せっかくの大量のデータからの網羅的な検索が名前だけのものになりかねない。

５.　まとめ

コーパスに基づく日本語の研究をより有意義なものにするためには解決すべき課題は大きく、直ちにすべてを解決することはできない。理論的に解決できない問題もあって、コーパスの利用を過信することはできない。しかし、コーパスを侮ることもまた当を失している。コーパスは言語に迫るための有効な手段の一つであり、従来使われてきたデータからは得られなかった、新しい知見を与えてくれるものと言うことができる。

参考文献

Aarts, Jan (1991) "Intuition-based and observation-based grammars" in Karin Aijmer et al. (eds.) English Corpus Linguistics. London: Longman.
伊藤雅光 (2002) 『計量言語学入門』大修館書店.
遠藤　仁 (1990)「「親類」と「親戚」の語誌」『国語学研究』（東北大学文学部「国語学研究」刊行会）30: 21-31.
後藤　斉 (1995) 「言語研究のデータとしてのコーパスの概念について　―日本語のコーパス言語学のために―」『東北大学言語学論集』第4号, pp.71-87.
後藤　斉 (1997) 「コーパスの類型論」『東北大学言語学論集』第6号, pp.27-33.
Leech, Geoffrey. (1992) "Corpora and theories of linguistic perfonmance" in: Jan Svartvik (ed.) Directions in Corpus Linguistics. Berlin: Mouton de Gruyter.
Meyer, Charles S. (2002) English Corpus Linguistics. Cambgidge: Cambridge University Press.
齊藤俊雄他 (1998) 『英語コーパス言語学』研究社出版.
Sampson, Geoffrey, (2001) Empirical Linguistics. London: Continuum.
ロウビンズ, R.H. 中村完・後藤斉訳 (1992)『言語学史第三版』研究社出版.

「小松左京コーパス」は http://aci.soken.ac.jp/databaselist/BC001_01.htmlに移動した模様です。

「後藤斉の主な著作」に戻る
 後藤斉のホームページへ戻る

URL:https://www2.sal.tohoku.ac.jp/~gothit/nhnggk0304.html
All Rights Reserved. COPYRIGHT(C) 2003-2009, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576　仙台市青葉区川内27番1号　東北大学大学院文学研究科言語学研究室
後藤　斉　(E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ

言語理論と言語資料 ―コーパスとコーパス以外のデータ