リンクは自由!
『東北大学文学研究科研究年報』50(2001) pp.201-214 掲載

日本語コーパス言語学と語の文体レベルに関する予備的考察

後藤 斉


1. はじめに

本稿は、コーパス言語学が日本語研究に対して貢献しうる点について、 これまであまり触れられていないと思われる視点から論じようとするものである。 論点は、特に、多様なタイプのテキストからなるコーパスのもつ意義であり、 その可能性について、語の文体レベルに関連させ、特に国語辞典の記載との 関係において、取り扱う。多様なテキストタイプからなるコーパスは現代日本語に ついてはまだ存在しないが、可能性を具体的に示すため、ある程度それを近似する テキストの集合を利用することにする。

日本語を対象にしたコーパス言語学は、英語を対象にしたコーパス言語学に 比べて遅れて展開し、理論的にも実践的にもまだ未整備な面が多い。 英語コーパス言語学においては、齊藤他(1997)が紹介するように、1960年代の ブラウンコーパスを初めとして、世界各地で多くのコーパスが作成・公開されて、 それに基づいて多くの理論的・応用的研究が蓄積されてきている。それに対して、 日本語に関しては、そもそも文系の研究者が共有できるコーパスさえ、事実上、 存在していない。それでも、コーパスを使うことによって、研究者の内省に よっては得ることが必ずしも容易ではないような知見が得られることが示されて きている。

国語辞典に対してコーパスが寄与しうるかについては、すでに加藤(1998)の 論考がある。ここでは「くらい」と「ぐらい」が全くの同義ではなく、 「くらい」は四つの語義にわたって用いられるが、「ぐらい」の方は特定の語義に 偏って現れることが示された。つまり、国語辞典からは得られない情報がコーパスに よって補えるということである。(ただし、ここで使用されているコーパスが 1904年から1947年までの国定読本のデータであるという点は、国語辞典との関連で 言えば、いささかの議論を要するはずであろう。つまり寄与することが想定されている 国語辞典がいかなる共時的ないし通時的な性質をもつかという問題である。)

また、田野村(2000a)は、研究者の内省や少数の用例に頼った分析が目的によっては 望ましい場合があることを認めつつ、「遺漏のない精密な意味記述を目指すので あれば、個人差を伴いがちな微妙な問題に研究者個人の語感で独断的な判断を 下すという危険を避けるためにも、広範囲の用例の観察・分析が不可欠となる」 と述べている。ただし、ここで問題となっているコーパスの利用法は、主として 用例データベース、すなわち文の集合としてのそれに集中しているように思われる。 もちろん、多くの研究目的、例えば田野村が取り上げる語の意味分析にとっては、 文内から得られる情報だけで必要十分であろう。

本稿で論じるのは、コーパスのもつテキスト性に注目した利用法についてである。 コーパスは、テキストの(断片の)集合として作られるものであるから、単なる文の 集合としての用例データベース以上の性質をもともと持っている。すなわち、 各文には先行の文や後続の文という言語的文脈が備わっている。また、言語外の 情報として、書き手(話し手)や想定される読み手(聞き手)の種々の属性、 その文が発せられる状況といった情報も付加的に得られる場合が多い。コーパス中の 各文がもつこの種の情報は、コーパスを語用論や談話の研究、社会言語学的研究に 利用する可能性があることを示している。ここから、語の位相による違い、 特に文体的レベルの特徴もまたコーパス言語学的手法によって有効に取り扱うことが 可能であろうという見通しを得ることができる。

コーパスのもつこれらのデータを十分に生かすためには、単に比較的容易に 得られる電子テキストをコーパスとして用いるのでは十分ではない。例えば、 筆者は後藤(1996)において、終助詞「かしら」の新聞のテキストに現れるさまを 観察し、それが通常考えられているように女性専用ではなく、男性にも使われている ことを指摘したが、同時に、新聞のテキストに現れる「かしら」が日本語を 知っているとは思えない外国人女性による発言中にも現れていることに注目し、 これらが記者ないし編集者によって女性らしさを出すために付け加えられたものである 可能性を指摘した。すなわち、新聞のテキストは、多様な内容を含んでいるが、 言語的にはある種の フィルターがかかっているとの疑いをぬぐいきれない。 そのようなテキストを元に作られたコーパスは、語義や文法の研究のデータとしては 利用できるが、テキスト性を考慮する場合には、データとしての信頼性がいくぶん 低いといわざるをえない。

したがって、この種の研究に利用できるコーパスは、事前の十分な配慮に もとづいて設計されていることが不可欠である。田中他(2000)は、文科系の研究分野で コーパスの利用が積極的でないことの一つの理由を、日本語の従来のコーパスに 新聞データや文学作品データに限られない、多彩で豊富なデータが欠けていることを 挙げている。そして、この状況を打開するために、さまざまなジャンルの言語資料を 網羅する「バランストコーパス」の構築が期待されると述べる。

もちろん田野村(2000b)が指摘するように、どのような資料をどのような比率で どれだけの量ブレンドすれば適切なコーパスが得られるかという問題は容易に答が 得られるものではない。日本語については、この種のコーパスは日本語に関しては 現時点で事実上存在していない現状では、将来の課題というしかない。今後さまざまな 試みがなされ、成果の蓄積がおこなわれる中で。いくつかの具体的な提案に収斂して いくことになろう。(なお、総合的なコーパスに対して必ずしも積極的でない見解と しては荻野(2000)も参照。)

しかしながら、日本語のコーパス言語学はいまだ発展途上の段階にあるのだから、 さまざまな視点から論じるのがよいのではなかろうか。多様なジャンルのテキストから なるコーパスを利用する研究の可能性について論じること自体は決して時期尚早とは 言えないであろう。日本語コーパス言語学の現状からして、本稿は具体的な成果を 提示するものではないが、その可能性の一端を示そうとはするものである。

2. 語の文体レベルに関する先行研究

語の文体レベルは、言語の位相の違いの一種と位置づけられる。日本語の位相に ついては、菊澤(1933)が先駆的な研究として知られている。菊澤は、社会が位相を 異にするのに伴って変化する言語の位相に注目し、それを対象とする言語研究の 部門として位相論を唱えた。これはさらに、言語社会を背景にして考察する様相論と 表現様式(音声言語と文字言語の違いなど)を背景にして考察する様式論とに分けられる ことになる。ただし、菊澤(1933)において実際に扱われたのは、忌詞、女房詞、 武士詞など前者に相当する部分にとどまっている。また、国語学における一般的な 関心の在り方を反映して、現代語の共時的な考察というよりは国語史的な関心の方が むしろ強く現れている。なお、真田(1988)によれば、菊澤は後にこの分野全体を 「様相論」と呼び、「位相論」は「様式論」とならんでその下位に位置づけるように 改変を行ったとのことである。しかし、現在一般的な位相についての理解は、 むしろ菊澤が初めに提唱した枠組みの方に近い。

田中(1978)の「第八章 語彙の様相」においてと「第九章 語彙の位相差」は、 ほぼ菊澤の後期の様相と位相の区分に対応しているようである。田中(1999)は、 位相に関する著者自身およびその他の研究者による研究のまとめと見なすことが できるだろうが、ここでは位相差をもたらす要因から性別・世代・職業などによる 社会的位相、書き言葉と話し言葉の違いや文体などによる様式的位相、忌避や美化の 心理および待遇意識などによる心理的位相の三種類を挙げている。しかし、日本語の 位相に関する多面的な研究であるだけに、現代語の共時的な分析は一部を 構成しているにすぎないきらいがある。

時代が前後するが、国立国語研究所『現代雑誌九十種の用語用字』(1962-64)は、 1956年に刊行された雑誌を90種の語彙と表記を調査したが、対象となる雑誌を 評論・芸文、庶民、実用・通俗科学、生活・婦人、娯楽・趣味という5類に分けて、 使われる語彙の和語・漢語・外来語・混種語それぞれの構成比を比較していた。 これを発展させたと思われる、現代日本語の共時態における個別の語の文体レベルに ついてのより詳細な研究は、『現代雑誌九十種の用語用字』の作成に実際に携わった 宮島達夫の一連の論考(1972, 1977, 1988)である。

宮島(1972)は、動詞を特に取り上げて、文体の違う類義語を比較すると、 それらの意味範囲には違いが見られ、単語の文体的特徴と意味との間に相関関係が あることを指摘した。例えば、「あつめる」と「収集する」は意味的にほぼ対応する 日常語と文章語であるが、「収集する」は行為の対象や目的に関して限定が多い。また、 宮島(1988)は、名詞や形容詞についても同様のことが言えることを指摘している。 例えば、「手紙」と「書簡」は文体レベルにおいて異なる類義語だが、指示対象の 範囲は同じではない。文体的な偏りがある語に意味的な偏りがあることには 必然的な現象ではない。それにもかかわらずそれらに相関関係があるという事実は、 言語の記述において指摘する価値があることになる。すなわち、一般的に言って、 あらたまった場面や書きことばでつかわれる文章語は、使用制限のない日常語に 比べて、大規模な、価値の高い、非個別的な、抽象的な、公的な表現に偏るのである。 あわせて指摘されるが、この対立がおもに和語と漢語という語種の違いに見られる ものの、本質的には文体の対立であって、語種という歴史的な事情ではない。 これらの研究が示すのは、語の文体レベルの同定が単に位相論にとどまるものではなく、 その語の持つ共時的な意味の記述にとっても重要となりうるということである。

これらの研究において、文体レベルとして設定されるのは、おおむね、文体上の 制約がなくあらゆる場面にもちいられる「日常語」、主として書き言葉、または あらたまった場面での話し言葉に用いられる「文章語」、そして、もっぱらくだけた 話し言葉でだけ用いられる「俗語」である(宮島 1972: 709)。宮島(1977)は、 基本的にこの三分法をとりながらも、「文体的特徴からする単語の分類は、 連続的であり、程度の差によるものである」(宮島 1977: 873)とするところに 大きな特徴がある。つまり、基本的な三区分の中にさらに程度の差を認め、例えば 日常語の中に完全に無色透明なものの他、文章語に近い「あらたまった日常語」と 俗語に近い「くだけた日常語」があるとする。さらに、文章語のみにおいては、 文体的な価値の違いから和語系と漢語系を分けるべきことが指摘される。

宮島(1972)が国語辞典の文体注記を取りあげ、不十分な点をかなり批判的に 指摘していることは注目に値する。まず、「ふるいことばがのっていることは、 それだけ現代語辞典としてはマイナスなのである」という国語辞典に対する評価の 姿勢は、現代語を共時的に記述する場合の方針として首肯できるものである。つまり、 多くの大辞典や中辞典が現代語と古代語を一緒に扱うことはむしろ歴史性の無視であり、 文体の注記をつけることを不可能にしていることになる (この批判は 『日本国語大辞典』の刊行以前のことであるが、同じ批判はこれにも当てはまるで あろう)。文体注記をしない辞典があること、また、注記する辞典においてもその数が 少なすぎることが指摘されており、国語辞典における文体注記をもっと重要視すべき であるとの立場からの批判と言えるであろう。

なお、現在の国語辞典の記述の中に言語学の立場から見て足りない点がまだ数多く 存在していることを具体的に論じたものとして国広(1997)がある。国語辞典の記述に 現れている語義の分析が意味論的に十分でないことを指摘し、その改善のための 具体的な方向をしめしたものであった。研究者の内省や個別の用例に基づいた 意味論的分析は説得力があるが、残念ながら、ここでは文体的レベルの違いは関心の 外に置かれていたようであり、特段の言及はみられない。例えば、 「一 類義語の識別」において、まず「白髪」と「しらが」の違いが扱われ、 前者は頭髪全体が白い場合であり、後者は頭が部分的にまたは一本一本の頭髪が 白い場合であるとした上で、多くの辞典がこの区別を捉えられていないと指摘する。 この語義の違いの記述自体は妥当であろうが、文体レベルの違いには触れられて いない。(『三省堂国語辞典』や(ここでの検討対象に含まれないが) 『集英社国語辞典』は「白髪」に「文章語」との文体レベルを付している。 この語義の違いは、宮島(1988)が指摘する、文章語が非個別的で抽象的な対象を 指しがちになる現象の一例と解釈できよう。)

3. 国語辞典における文体レベルの記載

現行の国語辞典のうち文体レベルを注記する辞典として主なものに 『三省堂国語辞典 第四版』(見坊豪紀主幹, 1992)、『新明解国語辞典 第五版』 (山田忠雄主幹, 1997)、『集英社国語辞典 第二版』(森岡健二他編, 2000)がある。 これらについてその記載のしかたを見てみよう。

『三省堂国語辞典』は、「この辞書の使い方」(pp.16-17)において、

(5)文章語 〔現代語のうち、文章などに使われる、話しことばとの差の大きい ことば〕、方言、俗語〔卑語・隠語をふくむ〕、児童語、女性語、その他の 使用分野については、なるべく〔 〕の中に略語などを入れてことわりました。

と説明している。宮島(1977)は、この辞典を、文体の記述の歴史のうえで重要な 位置をしめる『明解国語辞典 (改訂版)』の注記を直接受け継ぐものと評価している。

『新明解国語辞典』は、「編集方針」(p.7)において「位相などの指示」として 次のように述べている。

次の五種のほかは、〔野球で〕〔相撲で〕〔仏教で〕〔数学で〕〔…方言〕のごとく具体的に示した。
〔雅〕雅語。日常のくだけた会話や文章には常用されず、短歌・俳句などの詩的表現や文語文に多く用いられるヤマトコトバ。
〔古〕古語。[以下略]
〔口頭〕口頭語。ごく普通の話し言葉。やや崩れた形を含む。
〔俗〕俗語。話し言葉のうち、やや下品に傾くもの〔少数に適用〕。
〔卑〕卑語。公衆の面前では遠慮すべき表現〔極めて少数に適用〕。

実際には、本文において「…の漢語的表現」「…の雅語的表現」 「…の口語的表現」「…の字音語的表現」「…の意の老人語」等と示されているものも 多い。ただし、この辞典の文体レベルの注記のしかたは宮島(1977)によって 『明解国語辞典(改訂版)』からの「退歩」と批判されている。「雅語」が立てられた ものの、「文章語」が消えたことがその理由である。また、「漢語的表現」の表示も、 文体注記ではなく、類義語の区別のためにつけられているものであって、一貫性に 欠けるのである。

『集英社国語辞典』は、百科事典的項目を多く挙げており、いわゆる 「こと典」的性格を強く帯びているが、一方で助詞・助動詞の記述が詳しいことなど 「ことば典」としても特徴がある。第一版への「編者のことば」において この辞典の特色の一つとして、「六 語の文体的レベルに着目して、文章語と口頭語の 表示を試み、古語や専門語・百科語、各種の位相語等の表示と合わせ、語の適切な 使用を促す。」を掲げている。具体的には、「凡例」(p.7)において 「11 位相語」として、次にように述べる。

品詞表示の次に、それぞれの語の位相を示す表示を付した。
1 古語には《古語》と表示し、そのうち枕詞(まくらことば)には単に《枕詞》と表示した。
2 現代語のうち、主に堅い文章や改まったスピーチに用いられる文章語を《文章》、 逆に、主としてくだけた日常会話に用いられる口頭語を《口頭》と表示した。
はくじつ【白日】《文章》 あぶれる〔自下一〕《口頭》
3 俗語は《俗》と表示した。

上に見るように、文体レベルとして何を設定するかは、辞典ごとにその独自性が 発揮される部分である。このこと自体はそれぞれの辞典のもつ個性として受けとめる べきことがらであるが、より興味深いのは、見出し語の選択とも関連するが、 個々の語にどのようなレベルを当てるか、である。例えば、飯間(2000)が整理している ように、『三省堂国語辞典』は「来春(らいはる)」「来春(らいしゅん)」「来夏」 「来秋」「来冬」「今春」「今夏」「今秋」「今冬」「昨春」「昨夏」「昨秋」 「昨冬」の語をすべて挙げ、すべてに〔文〕の表示をつける。『新明解国語辞典』は 「来春(らいはる)」のみ立項し、文体表示を付さない。『集英社国語辞典』は「昨〜」 「今〜」をすべて《文章》の表示付きで挙げるが、「来春(らいしゅん)」には 文体表示をつけず、「来春(らいはる)」には《口頭》の表示をする(「来夏」 「来秋」「来冬」は立項せず)。『三省堂国語辞典』はこれらの語をすべてあげ、 そのすべてに文体表示をしているが、機械的な選択と機械的な表示付けの感もある。 一方、『集英社国語辞典』は、これらの語のなかにさえ三レベルを認めていて、 文体レベルに関して細かな配慮をしようとしているように思われる。ただ、ここで 「来春(らいはる)」に対して、『三省堂国語辞典』が〔文〕とし、 『集英社国語辞典』が《口頭》という正反対の表示をしていることは、編者ないし 辞典の個性ということから正当化することもできるが、文体レベルの認定の客観性に いささかの疑問を投げかけることになることは否定できない。

『集英社国語辞典』が文体レベルに関して示す細かな配慮は表示付けの単位にも 見られる。文体レベルは、通常、語を単位としてつけられるが、『集英社国語辞典』は 時として複数の語義のうち特定のもののみにつけるのである。例えば、「うしなう」は 第一語義「所有しているものをなくす」と第二語義「死に別れる」にのみ《文章》が 付され、第三語義「能力・属性・立場などをなくす」以下の語義は無表示である。 「いたる」「おびる」なども同様である。『三省堂国語辞典』『新明解国語辞典』も 特定の語義のみに文体レベルをつけることがあるが、『集英社国語辞典』に比べて それほど頻繁ではない。

しかし、これらの辞書に見られれる文体レベルの表示は、疑問の余地がないとは いえない。「来春(らいはる)」の扱い方に見られる食い違いについては上で言及した。 また、『集英社国語辞典』は「おまちどおさま」に《口頭》の表示をつける。確かに この単語は書き言葉でなく、話し言葉に多く用いられると思われるが、それはむしろ いくぶん丁寧語的であり、この表現の使われる場面がこの辞典に置ける口頭語の定義の 「主としてくだけた日常会話」に該当するかどうかは疑問である。ここでは、 チャンネルとしての話し言葉と位相としての口頭語とが混同されているのでは なかろうか。同様に、「敬具」には《文章》の表示がつくが、これも手紙における 定型的表現であって、文章語の定義の「堅い文章や改まったスピーチにもちいられる」 にはあてはまらない。

設定する文体レベルは辞典ごとに異同があるが、どのようなレベルを設定するのが 国語辞典にとって有意義なのであろうか。宮島(1977)が述べるような文体レベルの 連続性は、理論研究においてはともかく、辞典という場ではかえって煩雑に なりかねない。とはいえ、文章語にみられる和語系と漢語系の違いは 『新明解国語辞典』以外では区別されず、同じレベルの表示がつけられているのは 改善の余地があるであろう。

また、どのような単位に対してレベルをつけるかも問題となる。語より下の、 特定の語義に対してのみつけることはすでに行われている。しかし、例えば、単独では 文体的に有標であるが、複合語を構成したときその複合語は無標になることも ありうる。「永世」は単独の名詞としてや「永世の」としては文章語であるかも しれないが、「永世中立」はそうではなかろう。あるいは、特定の活用形のみ 文体的に有標だということ場合も考えられる。

このような疑問が浮かびあがってくるのは、文体レベルに関する客観的な基準が 十分でないことによるのであろう。もちろん、文体の違いが微妙で個人差が多い ことは、宮島(1977)の指摘を待つまでもない。どのような表示をするかは、編者の 腕の見せ所とも言えるであろう。しかし、語義の分析が編者の腕の見せ所ではあっても それに対してコーパスのデータからの情報がなんらかの形で寄与できる部分があると すれば、文体の違いにとっても同様のことが言えるのではないだろうか。ここに コーパス言語学が貢献しうる可能性がある。

4.データと議論

ここで仮にコーパスとして用いるのは、インターネットを介して取得した以下の テキストである。周知のとおり、インターネット上の情報は玉石混交であるが、 テキストの質も同様である。しかし、インターネット上で得られるテキストの 絶対量は急速に増えつつあり、さまざまなテキストのタイプに属する、 言語データとして利用可能な電子テキスト、例えば、公的文書、学術文献、実用文書、 娯楽的読み物等も、十分に得られる。テキストのジャンルに関してバランスのとれた コーパスを作成するためにインターネット上で得られる電子テキストから適切に 取捨選択することは、現実的な方法になりつつあると言える。

実際には、ここでは、印刷され公刊されたもの、ないしそれと同程度のテキストを 選んだ。インターネット上では、より気軽に書かれたテキストを大量に得ることが でき、これらも言語研究とくに文体の研究に有意義であろうと考えられるが、 往々にして明かな誤表記が混入していることから判断できるように、その データとしての取り扱い方には格別の慎重さが要求されよう。とりわけ、書き手に 関する情報がえてして得難く、コーパスの設計の上でリスクとなる。これに反して、 印刷公刊されたテキストないしそれと同程度のテキストであれば、従来の言語データと 同様の姿勢でのぞむことができる。なお、これらが印刷されたものと全く同一の テキストであるとは限らないが、それは言語データとしての質を左右するもの ではない。なお、これらのインターネットから得られるテキストは、利用について 制約が課されている場合がある。ウェブ上の閲覧のみ許可されているものは、 言語データとして使うことが事実上困難であるが、少なくとも複製を伴わない 個人的利用が許されていれば、個人研究においてなんらかの形で言語データとして 使うことは可能である。

本稿において具体的にデータとするテキストは以下のものである。いずれも 個人的利用には制約がない(2000年7月から9月にかけてあくせすしたもの)。

  1. 外務省『外交青書 (1999年版)』 (http://www.mofa.go.jp/mofaj/b_v/seisho99/index.html)(193KB)
  2. 経済企画庁『平成12年年次経済報告』 (http://www.epa.go.jp/j-j/wp/wp-je00/wp-je00-000i1.html)(268KB)
  3. 厚生省『厚生白書 (平成10年度版)』 (http://wwwcl.mhw.go.jp/~hakusyo/1998/index.html)(542KB)
  4. 日本旅行業協会『旅行業法・規則・約款等』 (http://www.jata-net.or.jp/kisoku/kisoku.htm)(186KB)
  5. 西谷能英『未来の窓』(月刊『未来』連載. 2000年8月分まで) (http://www.miraisha.co.jp/mirai/mado/mado.html)(202KB)
  6. 森岡正博『自分と向きあう「知」の方法−考える力をどう磨くか』(PHP研究所, 1997) (http://member.nifty.ne.jp/lifestudies/books/jibun.htm)(216KB)
  7. 二村一夫「日韓労使関係の比較史的検討」(法政大学大原社会問題研究所編『現代の韓国労使関係』(御茶の水書房、1998所収) (http://oohara.mt.tama.hosei.ac.jp/nk/cmptlrjk.htm)(200KB)
  8. 野村一夫『社会学の作法・ネットワーク編』(『インターネット市民スタイル【知的作法編】』論創社, 1997) (http://www.honya.co.jp/contents/knomura/on/on.html)(392KB)
  9. 中村好男「インターネット時代のスポーツ科学」 (『体育の科学』連載) (http://www.human.waseda.ac.jp/~nakamura/forum/inss/inss.html)(281KB)
  10. 岡田斗司夫『オタク学入門』(太田出版, 1996) (http://netcity.or.jp/OTAKU/okada/library/books/otakugaku/mokuzi.html)(264KB)
  11. 西村寿行『蒼き海の伝説』 (電子文庫パブリ(http://www.paburi.com)の販売) (388KB)
  12. 胡桃沢耕史『華やかな醜聞(スキャンダル)』 (同上)(458KB)
  13. 清水一行『頭取室』 (同上)(352KB)

このうち、1から4は公文書であって個人的な著作ではないため、書き手の個性が 出にくい、かなり堅い文体に属する。5から9は個人的な、人文社会科学的に学術的 ないし少なくとも知的な文章である点で共通するが、専門性の高い学術論文と エッセー風の文章を含んでいる。10から13は、エンターテインメント性の高い読み物 ないし小説であって、書籍として刊行されるものとしてはかなり軟らかい文体に 属すると言えるだろう。説明の便宜上、それぞれ、I群、II群、III群と呼ぶことに する。HTMLファイルとして配布されているものはタグを取り除き、テキストファイル化 した。ファイルの大きさは多少のばらつきがあるが、各群の大きさが1.2MBないし 1.4MBの間でほぼ同じになるよう選んだ。ただし、ファイル中でのスペースの使い方 などを統一していないため、言語データとして有効な部分はファイルの大きさより 若干小さい。

これらのテキストをデータとして若干の語がどのように現れているかを調べてみる ことにする。ただし、データの絶対量の少なさから、考察に十分なだけの頻度を示す 適当な語は多くないことはやむをえない。また、各群が4ないし5のテキストから 成るに過ぎないため、筆者個人の癖や内容に応じた語の生起のしかたのばらつきが 表面化しやすい。

例えば宮島(1988)が例に挙げる「内容」と「中身」が1〜13の各テキストと I〜IIIの各群に現れる頻度を挙げると以下の表の通りである。

 1234 56789 10111213 IIIIII
内容 8 15 74 43 21 6 7 17 40 13 6 15 5 140 91 39
中身 0 1 0 0 4 0 0 1 5 4 0 2 0 1 10 3

ここでは、「中身」の頻度が低すぎるため、「内容」が「中身」より文章語的で あることが示されているとは言い難い。ここで使うデータはコーパスとして十分な 配慮を払って作成したものではないため、このような結果が出てしまうことは やむをえない。しかしながら、興味深いことが観察できる例もないわけではない。

次に「問う」について見てみよう。この語は『集英社国語辞典』は文章語と 表示するが、『三省堂国語辞典』『新明解国語辞典』とも特に表示をしていない。

 1234 56789 10111213 IIIIII
問う 1 0 15 5 14 9 10 4 6 1 2 1 0 21 48 4

I群、II群 にかなり高い頻度で現れているが、III群ではごくまれにしか現れない。 上記の現れ方から見て、『集英社国語辞典』のように「問う」を文章語と認定する ことには根拠がありそうである。もちろんここでもテキストの選択の偶然が もたらした結果であることを否定できない。『集英社国語辞典』の編者は自分の内省に 基づいて文章語と認定したものと想像されるが、ここでのデータは少なくともそれを 客観的に裏づける方法があることを示すものとなっている。

より微妙な場合として、宮島(1988)が文体の違いが意味の公私の別、ないし 基準の客観性と主観性の違いを示す例に挙げる「重要」と「大切」を見てみよう。

 1234 56789 10111213 IIIIII
重要 84 68 93 5 16 4 40 17 20 16 4 19 1 250 97 40
大切 1 1 32 0 1 9 0 2 8 14 4 10 1 34 20 29

「大切」はI群では3を例外にして極めてまれであり、3にしても「重要」に比べて 頻度は低い。II群では、学術論文の7のみが極端であり、6では逆転しているが、 全体としては「重要」の方がはるかに多い。それに対してIII群では「重要」と 「大切」はそれほど大きな違いを見せていない。ここから、実際に「重要」は 「大切」との比較において文章語的であることが言えよう。ただし、III群においても なお「重要」の方が多いということは、「重要」が非日常語であるとは言い切れない ことを示している。宮島(1977)のいう連続的な文体レベルの中で 「あらたまった日常語」にあたることになろうか。上で見た国語辞典はどれも 「重要」に文章語(またはそれに相当するレベル)の文体表示をつけてはいない。 文体的に無標の日常語に近い判断されたのであろう。ここで結果として国語辞典の 記載は妥当であると考えられるが、「重要」と「大切」の相対的なレベルの違いを 認識した上でそのような判断を下したのかどうかは疑問である。

一方、データ中に位相研究や辞典の記載から予想される通りには現れていない語も みられる。この理由は、もちろん、ここでのデータが不十分なものであることによる ものであるかもしれない。しかしながら、データが言語事実を伝えるものであって、 国語辞典の文体表示に修正をうながすものである可能性もある。

例えば、「いだく」を見てみよう。『集英社国語辞典』は具体的な第一語義 「腕でかかえ持つ。だく」と第二語義「心にある考えを持つ」の区別なく文章語と 表示し、『三省堂国語辞典』も同様である。『新明解国語辞典』のみ第一語義に 限って「雅語的表現」と記載している。データにおいては、テキストにあらわれた 「抱く」の表記からは、書き手の想定する読みが「いだく」なのか「だく」なのかを 直接判別することはできないが、目的語が抽象名詞となっている場合は「いだく」 であると判断することはできようから、その頻度(内数)も挙げる。

 1234 56789 10111213 IIIIII
いだく 0 0 0 0 2 6 0 1 0 0 0 0 0 0 9 0
抱く 1 2 3 0 1 11 14 1 7 0 43 149 29 6 34 227
抱く(目的語が抽象名詞) 1 2 3 0 1 1 14 1 7 0 15 1 12 6 34 36

III群のテキストは「抱く」の出現が非常に多いが、これは性行為を描写したり 暗示したりする場面が多いことによっており、その場合はおおむね「だく」の読みが 適当であろう。I群、II群ともに具体的に物を抱え持つことを意味する「だく」は 現れないが、これは文体的な制約というよりは、そのような個人の具体的な行動に 言及することが少ないという、意味上の理由によるのであろう。しかしながら、 III群における抽象名詞を目的語とする「抱く」(「いだく」の読みが想定できる)も 決してまれとは言えない。より信頼できるデータによっても同様の結果が得られると すれば、『集英社国語辞典』や『三省堂国語辞典』の文体レベル表示は再考の余地が あることになろう。

最後に「訪れる」を見ることにする(ここでのテキストには「おとずれる」の 表記は現れない。)

 1234 56789 10111213 IIIIII
訪れる 2 0 3 0 1 3 0 1 1 0 3 3 0 5 6 6

頻度がかなり低く、意味的な条件も関わるために確かなことを言うのは難しいが、 少なくともこのデータに関する限りでは3群にわたって均等に現れていることは 確認できる。『集英社国語辞典』『三省堂国語辞典』とも文章語とし、 『新明解国語辞典』も「雅語的表現」と表示する語であるが、このデータはそれを 支持しない。

5. むすび

「はじめに」で述べた通り、本稿は、コーパス言語学を語の文体レベルの記述に 適用することについての予備的な考察に過ぎない。本稿で利用したテキストデータは 事前に十分に設計して作られたバランストコーパスではないため、そこから得られる 出現頻度やその他の考察は暫定的な意味しかもたない。それでも、コーパスを 構成するテキストの文体的属性に注目することから生まれるコーパス言語学の広がりの 可能性の一端は示し得たであろう。これはさらに、談話研究、社会言語学研究など 幅広い分野でのコーパスの利用の可能性を示唆するものでもある。

そのような研究に利用するためには、あるいは、日本語コーパス言語学が十分に 進展するためには、言語研究のデータとして設計された日本語のコーパスが是非とも 必要である。

参考文献


copyright GOTOO Hitosi 2001
著作権法規に則って利用することができます。


「後藤斉の主な著作」に戻る
後藤斉のホームページに戻る

URL:https://www2.sal.tohoku.ac.jp/~gothit/buntai.html
All Rights Reserved. COPYRIGHT(C) 2001-2006, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ