リンクは自由!
『東北大学言語学論集』5(1996)掲載

コーパスとしての新聞記事テキストデータ *
―終助詞「かしら」をめぐって―

後藤 斉

0。目的と背景
 
 本論文は、日本語のコーパス研究において資料体として近年使われることの
多くなっている新聞記事テキストデータについて、その言語資料としての性格
を論じることを目的としている。
 ある一定の範囲の言語資料にもっぱら依拠して言語体系を研究する方法自体
は古くからあったが、コンピュータが利用可能になることでコーパス言語学は
新しい形で登場することになった。この分野の先駆は1960年代のアメリカのブ
ラウンコーパスである。日本語を対象にした電子計算機による研究も60年代に
さかのぼる。しかし、コーパス研究が多くの文系の研究者にとって現実的に可
能になったのは、パーソナルコンピュータの利用が一般化したここ数年のこと
に過ぎない。
 日本語の研究にとっては、英語のブラウンコーパスやLOBコーパスに相当す
るような、言語研究者が共通に使えるコーパスはまだ存在しない。この種の研
究の浸透の歴史の浅さもあいまって、日本語のコーパス研究にはいまだ方法論
的には未整備の点が多いと言わざるを得ない。例えば、日本語のテキストを処
理するプログラムは英語に使えるものほど多種多様なものがすでに用意されて
はいない。
 なかでも欠けているのはコーパスの設計に関する議論である(1)。ブラウン
コーパスがそうであったように、英語のコーパス言語学では早くから多様なジ
ャンルのテキストからサンプルを取ってくる種類のコーパスが開発されていた。
ブラウンコーパスの原則を踏襲するものだけではないが、いずれにせよ、どの
ような母集団を想定しどのような方針でそれを適切に代表するとみなせるサン
プルを取るかには、大きな配慮が払われた。したがって、英語の研究では新聞
記事のみをそのままの形で資料体として用いることはあまりない。むしろ出典
の多様性を確保することの重要性は英語コーパス言語学での共通認識になって
いると見られる。これを例証するものとしてCOBUILDプロジェクトを推進したS
inclairの言葉を見ておこう。
"... it must be remembered that the language of newspapers is just one
 variety of English -- of one group of related varieties--and not a re
 liable sample of the language." Sinclair (1991:18)
 
 文系の研究者による日本語のコーパス研究は、現在のところ、その多くが新
聞記事のテキストデータを資料体として利用している(遠藤(1990), 近藤(1993),
 後藤(1993), 荻野(編)(1994,1995), 田野村(1994). また田野村(1995)も参照。)。
 例えば、後藤(1993)は「神話」という語をとりあげて、その比喩的な用法の
 用例を新聞記事テキストから収集し、分析することによって、その用法が国
 語辞典の記載に現れている以上に多様性に富むものであることを明らかにし、
 この種の研究方法の有効性を示した。しかし、同時に、このような内容語は、
 その時々のトピックを追いかけるという新聞の性格からして、新聞記事の中
 での分布に大きなばらつきが出てしまいがちであるという欠点もあることを
 指摘した。具体的には、比喩的に使われた「神話」の715例のうち163例が
 「土地神話」という複合語での使用であった。これは調査対象とした時期(1
 985〜92年)に依存する現象ではあるが、それと同時に新聞記事が全体として
 の日本語の使われ方を公正に代表していないことを示すものでもあった。
 新聞記事のテキストが現時点で入手しやすい日本語の電子化テキストの代表
であることは間違いなく、新聞記事を擬似的なサンプルコーパスと見做して作
業を行うことは現実的な選択である。しかし、これはあくまで現実ないし便宜
との妥協である。このような妥協が必要であるにしても、新聞記事テキストデ
ータが現代日本語の資料としてどういう性格をもっているのか、言語研究にと
ってどのように使うのが適当であるのか、といった吟味をないがしろにするこ
とはできない。
 
 
1。資料
 
1。1 終助詞「かしら」
 
 本研究では新聞記事テキストデータの性格を吟味するために終助詞「かしら」
をとりあげて検討することにする。これはこの語の使用が話し手(書き手)の
社会的要因と大きく相関しているために、新聞記事の文章の性格を判断するた
めのよい指標を提供してくれると考えられるからである。すなわち、「かしら」
は周知のとおり典型的な女性語である。このことは日本語話者の多くにとって
あらためて言うまでもないことであり、女性語を概説する文献が必ずと言って
いいほど例に挙げる事柄でもある。例えば女性語の終助詞を概説するマグロイ
ン・花岡(1993)においては「きれいだこと」などとならんで「女性の表現であ
る」とされている。
 「かしら」が女性語であることは実証的な研究でも裏づけられている。この
終助詞の使用における性差にも関わる最近の社会言語学的研究としては次の二
つの研究があるが、いずれの報告もこの語の女性専用としての性質を確認する
結果を示している。まず太田(1992)はテレビドラマの脚本を分析して終助詞の
使用の性差をみたものであるが、「かしら」およびその変種について次のよう
な用例数を得ている。
 
	かしら			女 13例	男 0例
	かしらね(え)		女  5例	男 0例
 
また、黄(1994)はデパート従業員へのアンケート調査により、敬語行動におけ
る職階差と年齢および社歴の要因を掛け合わせて、その結果の男女差を比べた
ものである。「知っているか」に当たる表現を尋ねる設問に対する回答形のう
ち「かしら」を伴うものは次のようなものであった。
 
	ワカルカシラ		女  8回答	男 0回答
	シッテイルカシラ	女  5回答	男 0回答
	
このように、いずれの研究においても「かしら」が女性専用であって、男性に
よる使用が皆無であるという結果が示されている。
 新聞記事の中での「かしら」の使用のされかたをこのような調査結果に照ら
し合わせてみることによって、新聞記事テキストデータを言語研究のコーパス
として用いることの長所および短所をうかがうことができよう。
 
1。2 データ
 
 本論では新聞記事テキストデータとして市販されている「CD-毎日新聞 '93」
(2)を選び、添付されている標準の検索プログラムでフリーキーワード「かし
ら」を検索(3)することによってデータを集めた(4)。これによって、167記事
中に173個の「かしら」の使用例が得られた。このうち、名詞の「かしら」
(頭)などを除くと、終助詞の「かしら」は153例となる。ただし、歌などの
引用(5)である4例を除いて、149例を本論での考察の対象とする。
 容易にあらかじめ推測できたことであるが、「かしら」を含む文は通常のニ
ュース記事の地の文にはあまり多くなく、発言部分や投稿文、インタビュー記
事などに現れているのがめだつ。投稿文は、女性専用の欄であれば筆者が女性
であることは明らかであり、そうでない場合も筆者名が明記されているので、
大部分の場合は筆者の性別を判定することができる。インタビュー記事も同様
である。文字情報で判断できないときには、縮刷版を参照して写真によって判
定した。それでも性別が判断できない場合は性別不詳として扱った。また、回
想や想像上の会話など発話者を特定しにくい用例もあるが、これらも排除する
ことはしなかった。
 「かしら」の文中における分布を見ておくと、終助詞である以上当然のこと
であるが、文末に立つことが91例と最も多く、「と」または「って」が後続す
る場合(6)(44例)がそれにつぐ。「ね」がついて「かしらね」となる例は5例と
少なく、他の語が来ることも合計9例に過ぎない。
 
 
2。分析
 
2。1 女性が使う「かしら」
 
 投稿欄や署名記事などで女性の署名がある文章に「かしら」が頻出するが、
これは不思議ではない。「かしら」が現代日本語において典型的な女性語であ
ることの確認にすぎない。また、インタビュー記事などにおいて女性の発言の
中に現れているのも同様のように思われる。このように新聞紙上において明瞭
に女性によって使われている「かしら」は130例にのぼる。
 
(1)	[     1][女の気持ち]タイマー 静岡県磐田郡・太田富美子<主婦
・27歳>
    '93.1.4 朝刊 17頁 写図無 (全479字)       [930104060]
	 私にだけしか聞こえない目覚まし時計ってないかしら。
(2)	[   133][テレビよ]江戸京子さん=ピアニスト、アリオン音楽財団
理事長
    '93.11.3 朝刊 25頁 写図有 (全1638字)      [931103161]
	 きっと、テレビに最初に触れたのが、留学中のフランスだったから、
	こう思うのか
	しら。
(3)	[    13]子供服もレンタル時代 【大阪】
    '93.1.22 夕刊 1頁 写図有 (全433字)       [930122003]
	同店を利用する母親たちから「うちの子にも、すてきな服ないかしら」
	との声に昨年	六月、子供専門店を新たに始めた。
 
(1)は女性による投稿文における「かしら」の使用、(2)はインタビュー記事に
おける女性の発言中の「かしら」である。(3)は不特定多数によるという設定
の仮想の発言であるが、想定されている話者は女性である。
 
 しかし、「かしら」の女性による使用例130のうち28例は外国人女性の発言
の中で現れていることに注目しなくてはならない。例えば:
 
(4)	[    62]大衆紙規制へ?内務省検討 「英皇太子夫妻の口げんか、
『M15』が盗聴	」を暴露
    '93.5.25 朝刊 21頁 写図有 (全1219字)      [930525011]
	 [略]ダイアナ妃が男友達のジェームズ・ジルビー氏に「妊娠しない
	かしら」と二人	の性的関係をほのめかすような会話の電話盗聴テー
	プがこれまで大衆紙に載り、[略]
(5)	[     5][とうきょう異報人]プルトニウム輸送「情報密閉」に焦燥
    '93.1.9 夕刊 2頁 写図無 (全707字)       [930109036]
	「何十人も記者がいて、どうしてだれも疑問をぶつけないのかしら。
	[略]」。滞日七	年のワトキンスさんは外国と日本の記者の「温度差」
	を指摘する。
	(外信部・根本太一)
 
当該の外国人女性が適切な女性語の使用も含めて日本語に堪能であり、文章が
実際に話した通りであるという可能性は皆無ではないが、かなりまれであると
思われる。例えば、(4)の例文の発話者はダイアナ妃であるから、原発言は英
語であったはずであり、「かしら」の使用は話し手の女性という属性に帰せら
れるものではない。このような場合に新聞記事に「かしら」が現れているのは、
発言に女性らしさを出そうとして新聞記者ないし編集者の側で日本語で記事を
まとめるときに「かしら」を付け加えたからであろうと推察される。
 もっとも、発話者が外国人であるからといってすべての例がそうであるとも
断定はできない。(5)の発話者は滞日七年であると記されているが、日本語に
どの程度堪能であるかは記事だけからは判断できない。一般に、在日朝鮮人女
性は日本語を母語同様に話せるであろうし、逆に中国残留婦人は日本人ではあ
っても日本語が自由には使いこなせないであろうと推測できる。しかし、個々
の場合の発言が実際にどうであったかは、記事の中で明示されていない場合、
推測にとどまってしまう。当該の発言が日本語で行われたのか、それとも外国
語でのものなのかも分からず、したがって、そこでの「かしら」の使用が原発
言者によると断定することはできない。(5)の場合であれば、「かしら」の使
用が見かけ上話し手として記事に示されているワトキンスさんと記事の書き手
である根本氏とのいずれに帰せられるべきなのか知り得ないのである。
 外国人による「かしら」の使用が現れる記事を書いた(あるいはインタビュ
ーを行った)記者の名前は、28例のうち19例について明記されている。5例に
ついてかかわっている人が1人おり、2例に関係している人が2人いるが、残り
の12例はそれぞれ別の記者の署名がある記事に現れている。これから判断する
と、女性の発言に積極的に「かしら」を加えたがる記者の存在が推測できるが、
この傾向はかなり広範囲に及んでいるように思われる。
 いずれにせよ、このような「かしら」の使用例を女性語の使用の実例とみな
すことにはためらわざるをえない。新聞記事中にはもちろん「かしら」の女性
による自発的な使用の例が多く現れている。が、一見してそれと区別がつけに
くいものの、実は見かけ上の話し手である女性による自発的な使用ではなく、
記事の直接の書き手である新聞記者に帰せられるべきものもかなり含まれてい
るのである。これらを同列に論じることは不適当である。便宜的に外国人であ
ることを判断の基準にすれば、「かしら」の女性による実際の使用例は、130
例ではなく、せいぜい100例程度と考えるべきでろう。
 「かしら」の女性による使用のしかたについては、以下のようなことがわか
る。「かしら」を使う女性の年齢は、23人(43例分)について記事中に明記さ
れているが、15歳から88歳という広い範囲にわたっている。職業の点からも、
インタビューの対象となるような女優や歌手、政治家などの有名人から、高校
生、学生、主婦、OLといった庶民まで、バラエティに富んでいる。また「ね」
が後続する5例は、外国人の場合の1例を含み、いずれも女性の使用したもので
ある。これらのことは「かしら」が女性によって比較的制限を受けずに使われ
ていること、言い換えると、女性語として非常に安定していることを示してい
る。
 
2。2 非女性語としての「かしら」
 
 1。1でみた社会言語学的調査はいずれも「かしら」が女性専用であること
を示していた。しかし、新聞記事テキストの中には、少数ではあるが、「かし
ら」が男性の発言・文章(9例)や女性に限定されない不特定多数の人の発言(6
例)で現れる場合もある。このほか、性別不詳の人の文章に現れる4例がある。
 
(6)	[    84]<対話・禅の心、茶の心>福富雪底・大徳寺派管長/千宗室
・裏千家家元
    '93.7.11 朝刊 13頁 写図有 (全1979字)      [930711139]
	 福富雪底管長 [略]こんなふうに速く変化していったら精神がつい
	ていくかしら。
(7)	[    60][語録]政治改革「努力する」 経団連定時総会で梶山静六
自民党幹事長
    '93.5.22 朝刊 2頁 写図無 (全153字)      [930522067]
	 「経団連には長い間、自民党を支援してもらったが、自民党はそろ
	そろ終わりとか	連合政権がいいのかしらと、お見限りの方もあるか
	もしれないが、必ず生き返り、正	しい姿を取り戻したい。[略]」
 
(6)は対談のなかで僧侶の発言に現れた「かしら」の例である。性別は記事に
明記されていないが、大徳寺派管長という地位から男性であることは明らかで
あり、また縮刷版の写真で確認することもできる。(6)の場合は少し複雑で、
男性政治家の発言に現れたものだが、「かしら」が現れるのは彼の直接の発話
としてではなく、聴衆の心の中での発言を推測して言っている部分である。こ
こでの聴衆は経団連総会の参加者であるが、経団連のメンバーの圧倒的大部分
は男性であろうから、ここで想定されている発言者も男性であると考えてもよ
いかもしれないが、念のため性別不特定と見做しておく。
 このような男性による使用例も新聞社の側での捏造である可能性はあるが、
外国人女性の場合とは違ってここでは動機が考えにくい。女性の場合には使用
例全体の約4分の1が外国人によるものであったから、外国人男性が「かしら」
を使用している例が皆無であることは、新聞社の側で積極的に「かしら」を加
えることはあまりなかったものと推測させる。したがって、ここでは非女性語
としての「かしら」の使用例が得られたものと考えてよいであろう。
 「かしら」の男性による使用例は女性の場合に比べて確かに極端に少なく、
その女性語としての性格を覆すほどのものではない。しかし、これが上で見た
社会言語学的調査が示唆するほど女性専用というわけでもないことは確認する
ことができる。このことは大量のデータを比較的容易に扱うことに由来するコ
ーパス言語学の有効性の一端を示すものである。
 「かしら」の男性の使用例は9例と少数であるため、どのような条件でこれ
が使用されるかについて確定的なことはなかなか言えない。それでも、いくつ
かのことを指摘できそうである。
 使用例9例のうち3例は、実は同一名の新聞記者による文章に現れている。
(ただし、同一記事ではなく、3つの別々の記事においてである。)この場合
は「かしら」が一つの個人的な文体特徴になっているのであろう。別の1例を
書いた記者は外国人女性に5例の「かしら」を使わせていた記者である。この
人の場合も同様に、「かしら」を好んで使う傾向があるのかもしれない。
 使用者の年齢が記事中に明示されているのは3人であるが、いずれも50歳以
上である。(6)の例文の福富氏の年齢は記事からは不明であるが、その地位か
らして、ある程度の年配であるに違いない。残りの3人の使用者(いずれも記
者)の年齢も不明であるが、文章の内容からして、相応の経験を積んだ記者で
あることがうかがわれる。結局、男性の「かしら」の使用者はいずれも50歳程
度より上であるらしい。この点で女性の使用の場合とは違った制約が働いてい
ることを示唆しているようである。
 男性の使用例では「かしら」に「ね」が後続する例は1例もなく、すべて文
末であるか、「と」が続いている。この種の接続の上での制約もあることがう
かがえる。
 
 
3。 結論
 
 本論では、女性語の「かしら」という、話し手(書き手)の社会的属性と直
接関係する言語要素に着目することによって、新聞記事の中に現れた「かしら」
使用例の約4分の1は記事中の見かけ上の話し手(書き手)に帰すことができな
いことを示した。したがって、新聞記事テキストデータは、言語資料として厳
密に考えれば、捏造された部分(あるいは「捏造」がきつすぎる表現だとすれ
ば、水増しされた部分)を含んでいると言える。話し手(書き手)の社会的属
性やその他の場面の諸要因による言語の変異を見るためには本来適当なデータ
であるとは言い難いということになる。
 しかし、このことは単に女性語のような社会的要因が関わるものに関してだ
けあてはまるのではなく、その他の種類の語彙項目や文法事項についても事情
は同様であると考えるのがむしろ自然であろう。新聞記事の多くの部分が直接
的には記者の筆による文章である以上、たとえ見かけ上直接引用文になってい
ても、それが原発言を文字どおりに再現していると期待することはできない。
そこには、ジャーナリスト的なソシオレクトにしたがって、または、当該の記
者のイディオレクトにしたがって、言語的な改変がなされていると考えられる。
つまり、記者や編集者の意識的・無意識的な方針にしたがって特定の表現の使
用が増幅されあるいは減衰されているのである。まして、地の文では書き手の
イディオレクトが直接に反映されている。
 新聞記事におけるこのような言語的改変は、日本語話者の中で新聞記者が占
める割合を考えれば、実際の日本語の使用にみられる言語的多様性をより小さ
く見せるという効果をもつはずである。言い換えると、新聞記事のテキストデ
ータには、典型的な用法を実際以上に典型的なものとして見せる傾向があると
考えるべきである。
 以上の考察からすると、新聞記事テキストデータの言語資料としての性質に
関して、一般的に以下のように言うことができる。
 確かに、電子化された新聞記事テキストデータは大量のテキストを比較的容
易に扱うことを可能にしてくれる。しかも、小説などのテキストデータの場合
とは違って、かなり広い範囲の書き手(話し手)によるテキストを、かなりの
場合にその性別、年齢、職業などの属性が明示された形で、得ることもできる。
しかし、新聞記事テキストでは、署名記事や投稿の部分を除けば、書き手(話
し手)の表現がそのままの形で再現されているわけではない。新聞社の側の責
任で整理された言語で書かれていると考えるべきである。つまり、記事の見か
けの上に現れている言語の使用者のバラエティの大きさをそのまま信用する訳
にはいかないのである。
 したがって、このような新聞記事テキストデータを直ちに現代日本語の多様
な使われ方を代表するサンプルコーパスと見做すことは難しい。つまり、新聞
記事テキストデータの観察から得られたなんらかの所見を現代日本語の記述で
あるとして扱うにあたっては、当該の事項が新聞記事のこのような性質に左右
されるものであるかどうかの考察を経なければならない。
 とはいえ、日本語について現在容易に入手できる種々の電子化テキストデー
タの量と質を考えると、新聞記事テキストデータを言語研究におけるコーパス
として使うことは最も現実的な選択肢であり、この状況はすぐには変わらない
ものと思われる。そうであるならば、その使用にあたってはこのような新聞記
事テキストデータのもつ性格を踏まえた上で適切な使用をすべきであることに
なる。
 一般にコーパス研究では大量のデータを比較的容易に扱うことができること
から、従来の方法では見過ごされやすかったまれな使い方や研究者の内省に上
りにくい使い方をも拾い出すことが可能になる。このことは資料体として新聞
記事テキストデータを扱っている場合でも同じである。新聞記事テキストデー
タの場合には、ここから直ちに結論を出すことには慎重を要することもあるが、
少なくとも、こうして得られた考察はさらなる探求の有望な糸口を示すことに
はなっているはずである。ここから従来のアプローチのしかたを補完するよう
な結果を導くことができよう。つまり、新聞記事テキストデータに基づくコー
パス研究は、従来の種々のアプローチで得られた結果と統合することによって、
全体としてより深い言語体系の記述に迫ることを可能にすると言える。
 
 
注
 
* 本論は1995年10月16日に東北大学で行われた日本言語学会第111回大会にお
ける同名の発表を基にしたものである。その場でコメントを頂いた方、特に東
京大学角田太作先生、東京都立大学荻野綱男先生に感謝する。ただし、本論の
責任はもちろん筆者のみに存する。
 
 
1 この点についてより詳しくは後藤(1995)を参照。
 
2 これまでの研究でコーパスとして使われた新聞記事テキストデータは多くの
場合朝日新聞であった。ここでは経費の点で毎日新聞を選んだが、この違いは
ここでの論旨には影響しないと考える。なお、毎日新聞は言語処理学会との間
で研究目的の利用の条件を明確化したので、今後は利用が増えるであろう。日
経新聞も同様であるが、その記事の内容が特定のジャンルに偏りすぎているか
ら、言語研究の目的からすると毎日新聞の方が適当である。
 
3 この「フリーキーワード」検索は、「フリー」といいながら、あらかじめ決
められたキーワードを検索するものである。本来は助詞のような機能語は検索
対象になっていないようである。しかし、「かしら」は、おそらく名詞の「か
しら」がキーワードの対象になったため、この方法で検索することができた。
 
4 これ以下の例文はすべて「【著作権者】毎日新聞社」の表示がつくべきもの
である。
 
5 例えば、「あなたはもう忘れたかしら」。
 
6 「と」との間に引用の印のかぎかっこがある場合とない場合があるが、この
違いは考慮にいれない。
 
 
参考文献
 
遠藤仁 1990 「「親類」と「親戚」の語誌」 『国語学研究』30:21ー31.
太田淑子 1992 「談話にみる性差の様相 ―終助詞を中心として―」 『横
浜国立大学教育紀要』32:329-342.
荻野綱男(編) 1994 『日本語の文法の構造 2』 私家版
荻野綱男(編) 1995 『日本語の文法の構造 3』 私家版
荻野綱男・塩田雄大 1994 「朝日新聞データベースを使用した言語研究」 
『日本語学』 13:5:28ー39.
黄 鴻信 1994 「職場における敬語行動 ―職階差と年齢差、職階差と社歴
差に関する男・女話者の相違―」 『国語学研究』33:11-22.
後藤 斉 1993 「『神話』の比喩的用法について ―コーパス言語学からの
アプローチ―」 『東北大学言語学論集』2:1-16.
―――― 1995 「言語研究のためのデータとしてのコーパスの概念について
 ―日本語のコーパス言語学のために―」 『東北大学言語学論集』4:71-87.
近藤泰弘 1993 「文法研究における大量言語データ−副助詞研究を例にして
−」 『武蔵野文学』 40:12-16.
田野村忠温 1994 「丁寧体の述語否定形の選択に関する計量的調査−「〜ま
せん」と「ないです」−」 『大阪外国語大学論集』 11:51-66.
田野村忠温 1995 「意味」 『日本語学』7月臨時増刊号(特集 パソコンを
使う日本語研究):53-62. 
マグロイン・花岡直美 1993 「終助詞」 『日本語学』5月臨時増刊号(特集
 世界の女性語 日本の女性語):120-124.
Sinclair, J. 1991 Corpus, Concordance, Collocation. Oxford: Oxford University Press.


copyright GOTOO Hitosi 1996
著作権法規に則って利用することができます。


「後藤斉の主な著作」に戻る
後藤斉のホームページに戻る

URL:https://www2.sal.tohoku.ac.jp/~gothit/newscorp.html
All Rights Reserved. COPYRIGHT(C) 1995-2006, GOTOO Hitosi
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ