リンクは自由!

テキスト処理とコーパス言語学


コーパス言語学と自然言語処理

英語コーパス学会
計量国語学会
言語処理学会
国立国語研究所
言語データベースとソフトウェア
国語研で開発した各種ツール類への入り口。
言語資源開発センター
国語研で開発した各種コーパスへの入り口。
現代日本語書き言葉均衡コーパス (BCCWJ)
前川喜久雄氏らによる科研費特定領域研究の成果。
国立国語研究所「超大規模コーパスプロジェクト」
ウェブを母集団とする100 億語規模の「国語研日本語ウェブコーパス」。
中納言
「現代日本語書き言葉均衡コーパス」ほかの検索アプリケーション。
少納言
「現代日本語書き言葉均衡コーパス」全文検索。公開休止から再開。
Web茶まめ
形態素解析ツール。現代語のほか中古和文など各種UniDicを選択可。
NINJAL Parsed Corpus of Modern Japanese(NPCMJ)
プラシャント・パルデシ氏らによる。
NINJAL-LWP for BCCWJ
プラシャント・パルデシ氏らによるレキシカルプロファイリングによる検索ツール。
NINJAL-LWP for TWC
筑波コーパスのためのレキシカルプロファイリングによる検索ツール。
機能語用例文データベース はごろもNINJAL-LWP for TWC
堀恵子氏らによる。検索システム
日本語学習者の日本語使用の解明
国立国語研究所 『日本語学習者のコミュニケーションの多角的解明』プロジェクト言語使用班。「BTSJ日本語会話コーパス」など。
日本語史研究用テキストデータ集
国立国語研究所共同研究プロジェクト等。『天草版平家物語』『諸国方言物類称呼』ほか。
コーパスに基づく言語学教育研究拠点(CbLLE)
東京外国語大学のグローバルCOEプログラム(終了)。
大阪大学田野村忠温研究室
日本語語コーパス言語学。ツールの配布。
東京外国語大学投野由紀夫研究室
英語コーパス言語学。ミラーも。
言語資源協会
言語情報処理ポータル
ALAGIN 言語資源・音声資源サイト
情報通信研究機構
言語イニシアティブ調査
JEITA(電子情報技術産業協会)言語処理技術専門委員会による。
広島大学大学院総合科学研究科井上永幸研究室
英語コーパス言語学、辞書学。
神戸大学石川慎一郎研究室
英語コーパス言語学。
日本語学習者作文コーパス
「自然言語処理の技術を利用したタグ付き学習者作文コーパスの開発」科研グループ(李在鎬氏ら)
英日中国語ウェブ誤用コーパス
東京外国語大学国際日本研究センターなどによる。
SCoRE
教育用例文コーパスSCoRE。日本の高校英語教科書レベルの範囲内にある3,000万語のソース・コーパスに基づく。日本大学中條清美氏らによる。Web SCOREで検索。
JAPANESE.GR.JP
「BCCWJ複合辞辞書」など、日本語学・日本文学研究のためのリソース。近藤泰弘・近藤みゆき氏による。
オンライン テクスト言語学
野村眞木夫氏。
リレー連載 実践で学ぶ コーパス活用術
研究社WebマガジンLinguaの連載記事。
McEnery & Wilson's Corpus Linguistics
WWW上でのコーパス言語学講義。東北大学大学院文学研究科言語学研究室に所在。
ICAME (International Computer Archive of Modern and Medieval English)
英語コーパス研究の中心の一つ。
Survey of English Usage (UCL)
英語コーパス研究の先駆の一つ。別サイト
CLARIN
EU圏における言語資源の集積。
Linguistic Data Consortium (LDC)
言語資源の集積。
VARIENG (Research Unit for the Study of Variation, Contacts and Change in English)
各種コーパスの情報がまとめられている。Corpus Resource Database (CoRD)も。
UCREL (University Centre for Computer Corpus Research on Language)
ランカスター大学。研究の紹介のほか、各種コーパス、ツールなど。Corpus Query Processorも。
English-Corpora.org
元ブリガム・ヤング大学Mark Davies氏のオンライン・コーパス群。British National Corpusも。
Sketch Engine
British National Corpus
Use of corpora in translation studies (University of Leeds)
IntellitextLeeds Collection of Internet Corpora (日本語含む)など。
CORPUS TOOLS
Masaryk University NLP Centre および Lexical Computing による。
Phrases in English
JustTheWord
BNCのデータに基づくコロケーション検索。
Use of corpora in translation studies
Leeds大学での翻訳研究に関連したコーパス利用。英語、日本語ほかの言語のコーパス検索。
American National Corpus (ANC)
Wordbanks Online
Collins WordbanksOnlineについて。
MICASE: Michigan Corpus of Academic Spoken English
オンラインサーチ可。
GlossaNet Online concordancer
ELRA (European Language Resources Association)
corpuseye
英独仏西伊葡北欧語、エスペラントなど。オンラインサーチ可。
The Rosetta Project
Corpus Encoding Standards
Language & Culture Archives
SIL Internationalによるアーカイブ。
Literary and Linguistic Data Service, Univ. of Oxford
学術的電子テキストアーカイブの草分けOxford Text Archiveのコレクションを含む。旧サイト
Project Gutenberg
電子図書館プロジェクト・グーテンベルグ。
Fullbooks.com
詳細不明だが。
Literature Online
会員制の文学テキストサイト。
IntraText Digital Library
"Full-text Digital Library committed to accessibility, usability and accuracy, offering texts and corpora as lexical hypertextsi"。主にヨーロッパの諸言語が対象。
Leipzig Corpus Collection
ライプチヒ大学による諸言語のコーパスの集積。
Corpusfinder
ベルギーGhent大学によるヨーロッパ諸言語のコーパスのデータベース。
麗澤大学言語研究センター言語情報学プロジェクト
ワークショップの開催などの活動。リンク集も豊富。
千葉庄寿さん
電子コーパス (テキストデータベース) を使った言語研究。ツールのダウンロードなど。
オンライン テクスト言語学
野村眞木夫さん。分析ツールの紹介など。
内山将夫さん
日英語分析のソフトウェアとコーパスなど。
日本語表現インフォ
青空文庫の分析。「日本語コロケーション辞典 テスト版」も。
AIテキストマイニングツール
Webベース。ユーザーローカル社による。
Voyant Tools
テキスト分析のためのWebベースのアプリケーション。

ソフトウェア

「インターネット言語学情報 第23回 ソフトウェア」
後藤、『月刊言語』第28巻(1999)11月号, pp.86-87.
「言語学 オン ザ WEB 第7回 テキスト・ツール」
後藤、『月刊言語』第33巻(2004)7月号, pp.76-77.
AntConc
Laurence Anthony氏によるコンコーダンスツール。
WordSmith
Oxford University Pressによるコンコーダンスツール。
Vector 文書作成: テキストエディタ
Vector ユーティリティ: テキストファイル用
松本研究室 自然言語処理のためのツール
形態素解析システム茶筌など。奈良先端科学技術大学院大学自然言語処理学講座による。
ChaSen
形態素解析システム。
MeCab (和布蕪)
形態素解析エンジン。
自然言語処理のためのリソース
京都大学黒橋・河原研究室による。
自然言語処理ツール
Graham Neubig氏による。
KH Coder
計量テキスト分析ツール。
サクラエディタ
Windows用のテキストエディタ。
mi
macOS用テキストエディタ。
基本的な正規表現一覧
murashunさんによる。
国語の先生の為の正規表現
zacoさんによる。

日本語テキスト

「インターネット言語学情報 第11回 古典テキスト」
後藤、『月刊言語』第27巻(1998)11月号, pp.112-113.
国文学研究資料館電子資料館
「古典選集本文データベース」、「日本古典文学大系本文データベース」、「噺本大系本文データベース」
源氏物語の世界
渋谷栄一氏による。
日本文学等テキストファイル
岡島昭浩さんによる日本文学を中心とする電子化テキストへのリンク集
日本語テキストイニシアチブ
バージニア大学・ピッツバーグ大学のプロジェクト。
国会会議録検索システム
帝国議会会議録も部分的に検索可能。
地方議会会議録コーパスプロジェクト
「都道府県議会会議録検索システム」「東京23区議会会議録検索システム」など。小樽商科大学木村泰知さんら。
青空文庫
著作権消滅作品等の電子出版の提案と公開。
加藤秀俊データベース
加藤秀俊氏の著作目録と一部テキスト。
日本ペンクラブ電子文藝館
物故会員、現会員の作品を電子化。
吉本隆明の183講演
計21746分の講演の音声とテキスト化。
(社)著作権情報センター

文字コード

Unicode Consortium
Unicodeの公式サイト。Code ChartsResoucesなど。
Online Unicode Tools
Alan Wood's Unicode Resources
フォント、ツールその他の実用情報。
Unifoundry.com
Unicodeフォントほか関係リソース。
Babelmap
Unicodeツール。別にエディターBabelpadやフォントも。
漢字データベースプロジェクト
CJK統合漢字の情報交換・検索照合・分析に役立つ様々なデータベース。
花園フォント
UCS統合漢字・互換漢字Ext.Fまでを収録。
Jigmo(字雲)フォント
すべてのUCS統合漢字・互換漢字を収録。
学術情報交換用変体仮名
情報処理推進機構(IPA)と国立国語研究所(NINJAL)が共同で開発。
電書時代の文字コードを考える(ための資料)
wakufactory.jpによる。
文字情報技術促進協議会
独立行政法人情報処理推進機構、文字情報基盤整備事業を継承。多くのIT、文字フォント関係企業が参加。
安岡孝一さん
論文や雑誌記事の再録など。
文字コード入門
山田崇仁さんによる。
Character Test
ウェブブラウザの表示のテスト。

基本参考文献 (更新停止)

日本語書きで、市販されたもの。

コーパス言語学全般

2011年以降。

コーパス言語学・計量言語学・テキスト分析

2010年以前。

文字コード

テキストファイル主義・テキストツール

正規表現



後藤斉のホームページへ戻る

URL:https://www2.sal.tohoku.ac.jp/~gothit/textprocessing.html
All Rights Reserved. COPYRIGHT(C) 2000-2024, GOTOO Hitosi, Prof. Em.
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan

〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ