リンクは自由!
テキスト処理とコーパス言語学
コーパス言語学と自然言語処理
- 英語コーパス学会
- 計量国語学会
- 言語処理学会
- 国立国語研究所
- 言語データベースとソフトウェア
- 国語研で開発した各種ツール類への入り口。
- 言語資源開発センター
- 国語研で開発した各種コーパスへの入り口。
- 現代日本語書き言葉均衡コーパス (BCCWJ)
- 前川喜久雄氏らによる科研費特定領域研究の成果。
- 国立国語研究所「超大規模コーパスプロジェクト」
- ウェブを母集団とする100 億語規模の「国語研日本語ウェブコーパス」。
- 中納言
- 「現代日本語書き言葉均衡コーパス」ほかの検索アプリケーション。
- 少納言
- 「現代日本語書き言葉均衡コーパス」全文検索。公開休止から再開。
- Web茶まめ
- 形態素解析ツール。現代語のほか中古和文など各種UniDicを選択可。
- NINJAL Parsed Corpus of Modern Japanese(NPCMJ)
- プラシャント・パルデシ氏らによる。
- NINJAL-LWP for BCCWJ
- プラシャント・パルデシ氏らによるレキシカルプロファイリングによる検索ツール。
- NINJAL-LWP for TWC
- 筑波コーパスのためのレキシカルプロファイリングによる検索ツール。
- 機能語用例文データベース はごろもNINJAL-LWP for TWC
- 堀恵子氏らによる。検索システム
- 日本語学習者の日本語使用の解明
- 国立国語研究所 『日本語学習者のコミュニケーションの多角的解明』プロジェクト言語使用班。「BTSJ日本語会話コーパス」など。
- 日本語史研究用テキストデータ集
- 国立国語研究所共同研究プロジェクト等。『天草版平家物語』『諸国方言物類称呼』ほか。
- コーパスに基づく言語学教育研究拠点(CbLLE)
- 東京外国語大学のグローバルCOEプログラム(終了)。
- 大阪大学田野村忠温研究室
- 日本語語コーパス言語学。ツールの配布。
- 東京外国語大学投野由紀夫研究室
- 英語コーパス言語学。ミラーも。
- 言語資源協会
- 言語情報処理ポータル
-
- ALAGIN 言語資源・音声資源サイト
- 情報通信研究機構
- 言語イニシアティブ調査
- JEITA(電子情報技術産業協会)言語処理技術専門委員会による。
- 広島大学大学院総合科学研究科井上永幸研究室
- 英語コーパス言語学、辞書学。
- 神戸大学石川慎一郎研究室
- 英語コーパス言語学。
- 日本語学習者作文コーパス
- 「自然言語処理の技術を利用したタグ付き学習者作文コーパスの開発」科研グループ(李在鎬氏ら)
- 英日中国語ウェブ誤用コーパス
- 東京外国語大学国際日本研究センターなどによる。
- SCoRE
- 教育用例文コーパスSCoRE。日本の高校英語教科書レベルの範囲内にある3,000万語のソース・コーパスに基づく。日本大学中條清美氏らによる。Web SCOREで検索。
- JAPANESE.GR.JP
- 「BCCWJ複合辞辞書」など、日本語学・日本文学研究のためのリソース。近藤泰弘・近藤みゆき氏による。
- オンライン テクスト言語学
- 野村眞木夫氏。
- リレー連載 実践で学ぶ コーパス活用術
- 研究社WebマガジンLinguaの連載記事。
- McEnery & Wilson's Corpus Linguistics
- WWW上でのコーパス言語学講義。東北大学大学院文学研究科言語学研究室に所在。
- ICAME (International Computer Archive of Modern and Medieval English)
- 英語コーパス研究の中心の一つ。
- Survey of English Usage (UCL)
- 英語コーパス研究の先駆の一つ。別サイト
- CLARIN
- EU圏における言語資源の集積。
- Linguistic Data Consortium (LDC)
- 言語資源の集積。
- VARIENG (Research Unit for the Study of Variation, Contacts and Change in English)
- 各種コーパスの情報がまとめられている。Corpus Resource Database (CoRD)も。
- UCREL (University Centre for Computer Corpus Research on Language)
- ランカスター大学。研究の紹介のほか、各種コーパス、ツールなど。Corpus Query Processorも。
- English-Corpora.org
- 元ブリガム・ヤング大学Mark Davies氏のオンライン・コーパス群。British National Corpusも。
- Sketch Engine
- British National Corpus
- Use of corpora in translation studies (University of Leeds)
- IntellitextやLeeds Collection of Internet Corpora (日本語含む)など。
- CORPUS TOOLS
- Masaryk University NLP Centre および Lexical Computing による。
- Phrases in English
- JustTheWord
- BNCのデータに基づくコロケーション検索。
- Use of corpora in translation studies
- Leeds大学での翻訳研究に関連したコーパス利用。英語、日本語ほかの言語のコーパス検索。
- American National Corpus (ANC)
- Wordbanks Online
- Collins WordbanksOnlineについて。
- MICASE: Michigan Corpus of Academic Spoken English
- オンラインサーチ可。
- GlossaNet Online concordancer
- ELRA (European Language Resources Association)
- corpuseye
- 英独仏西伊葡北欧語、エスペラントなど。オンラインサーチ可。
- The Rosetta Project
- Corpus Encoding Standards
- Language & Culture Archives
- SIL Internationalによるアーカイブ。
- Literary and Linguistic Data Service, Univ. of Oxford
- 学術的電子テキストアーカイブの草分けOxford Text Archiveのコレクションを含む。旧サイト
- Project Gutenberg
- 電子図書館プロジェクト・グーテンベルグ。
- Fullbooks.com
- 詳細不明だが。
- Literature Online
- 会員制の文学テキストサイト。
- IntraText Digital Library
- "Full-text Digital Library committed to accessibility, usability
and accuracy, offering texts and corpora as lexical hypertextsi"。主にヨーロッパの諸言語が対象。
- Leipzig Corpus Collection
- ライプチヒ大学による諸言語のコーパスの集積。
- Corpusfinder
- ベルギーGhent大学によるヨーロッパ諸言語のコーパスのデータベース。
- 麗澤大学言語研究センター言語情報学プロジェクト
- ワークショップの開催などの活動。リンク集も豊富。
- 千葉庄寿さん
- 電子コーパス (テキストデータベース) を使った言語研究。ツールのダウンロードなど。
- オンライン テクスト言語学
- 野村眞木夫さん。分析ツールの紹介など。
- 内山将夫さん
- 日英語分析のソフトウェアとコーパスなど。
- 日本語表現インフォ
- 青空文庫の分析。「日本語コロケーション辞典 テスト版」も。
- AIテキストマイニングツール
- Webベース。ユーザーローカル社による。
- Voyant Tools
- テキスト分析のためのWebベースのアプリケーション。
ソフトウェア
- 「インターネット言語学情報 第23回 ソフトウェア」
- 後藤、『月刊言語』第28巻(1999)11月号, pp.86-87.
- 「言語学 オン ザ WEB 第7回 テキスト・ツール」
- 後藤、『月刊言語』第33巻(2004)7月号, pp.76-77.
- AntConc
- Laurence Anthony氏によるコンコーダンスツール。
- WordSmith
- Oxford University Pressによるコンコーダンスツール。
- Vector 文書作成: テキストエディタ
- Vector ユーティリティ: テキストファイル用
- 松本研究室 自然言語処理のためのツール
- 形態素解析システム茶筌など。奈良先端科学技術大学院大学自然言語処理学講座による。
- ChaSen
- 形態素解析システム。
- MeCab (和布蕪)
- 形態素解析エンジン。
- 自然言語処理のためのリソース
- 京都大学黒橋・河原研究室による。
- 自然言語処理ツール
- Graham Neubig氏による。
- KH Coder
- 計量テキスト分析ツール。
- サクラエディタ
- Windows用のテキストエディタ。
- mi
- macOS用テキストエディタ。
- 基本的な正規表現一覧
- murashunさんによる。
- 国語の先生の為の正規表現
- zacoさんによる。
日本語テキスト
- 「インターネット言語学情報 第11回 古典テキスト」
- 後藤、『月刊言語』第27巻(1998)11月号, pp.112-113.
- 国文学研究資料館電子資料館
- 「古典選集本文データベース」、「日本古典文学大系本文データベース」、「噺本大系本文データベース」
- 源氏物語の世界
- 渋谷栄一氏による。
- 日本文学等テキストファイル
- 岡島昭浩さんによる日本文学を中心とする電子化テキストへのリンク集
- 日本語テキストイニシアチブ
- バージニア大学・ピッツバーグ大学のプロジェクト。
- 国会会議録検索システム
- 帝国議会会議録も部分的に検索可能。
- 地方議会会議録コーパスプロジェクト
- 「都道府県議会会議録検索システム」「東京23区議会会議録検索システム」など。小樽商科大学木村泰知さんら。
- 青空文庫
- 著作権消滅作品等の電子出版の提案と公開。
- 加藤秀俊データベース
- 加藤秀俊氏の著作目録と一部テキスト。
- 日本ペンクラブ電子文藝館
- 物故会員、現会員の作品を電子化。
- 吉本隆明の183講演
- 計21746分の講演の音声とテキスト化。
- (社)著作権情報センター
文字コード
- Unicode Consortium
- Unicodeの公式サイト。Code Charts、Resoucesなど。
- Online Unicode Tools
- Alan Wood's Unicode Resources
- フォント、ツールその他の実用情報。
- Unifoundry.com
- Unicodeフォントほか関係リソース。
- Babelmap
- Unicodeツール。別にエディターBabelpadやフォントも。
- 漢字データベースプロジェクト
- CJK統合漢字の情報交換・検索照合・分析に役立つ様々なデータベース。
- 花園フォント
- UCS統合漢字・互換漢字Ext.Fまでを収録。
- Jigmo(字雲)フォント
- すべてのUCS統合漢字・互換漢字を収録。
- 学術情報交換用変体仮名
- 情報処理推進機構(IPA)と国立国語研究所(NINJAL)が共同で開発。
- 電書時代の文字コードを考える(ための資料)
- wakufactory.jpによる。
- 文字情報技術促進協議会
- 独立行政法人情報処理推進機構、文字情報基盤整備事業を継承。多くのIT、文字フォント関係企業が参加。
- 安岡孝一さん
- 論文や雑誌記事の再録など。
- 文字コード入門
- 山田崇仁さんによる。
- Character Test
- ウェブブラウザの表示のテスト。
基本参考文献 (更新停止)
日本語書きで、市販されたもの。
コーパス言語学全般
2011年以降。
コーパス言語学・計量言語学・テキスト分析
2010年以前。
- 青葉ことばの会 1998 『日本語研究法 古代語編』おうふう.
- 赤瀬川史朗他 2004 『コーパス言語学の技法 II. 言語データの収集とコーパスの構築』 夏目書房.
- 石川慎一郎 2008 『英語コーパスと言語教育』大修館書店.
- 石川慎一郎 2010 『言語研究のための統計入門』くろしお出版.
- 伊藤雅光 2002 『計量言語学入門』大修館書店.
- 稲木昭子・沖田知子 2002 『コンピュータの向こうのアリスの世界』英宝社.
- 上田博人 1998 『パソコンによる外国語研究への招待』くろしお出版.
- 上田博人 1998 『パソコンによる外国語研究(I) 数値データの処理』 くろしお出版.
- 上田博人 1998 『パソコンによる外国語研究(II) 文字データの処理』 くろしお出版.
- 大門正幸・柳朋宏 2006 『英語コーパスの初歩』(英語学入門講座第10巻) 英潮社.
- 齊藤俊雄他 2005 『改訂新版 英語コーパス言語学』 研究社出版.
- 佐野洋 2003 『Windows PC による日本語研究法』 共立出版.
- スタッブズ, マイケル 南出康世・石川慎一郎訳 2006 『コーパス語彙意味論 語から句へ』 研究社.
- 鷹家秀史・須賀廣 1998 『実践コーパス言語学』桐原ユニ.
- 中尾浩他 2002 『コーパス言語学の技法 I. テキスト処理入門』 夏目書房.
- 中野洋 1996 『パソコンによる日本語研究法入門 語彙と文字』 笠間書院.
- 中村康夫・安道百合子 2008 『文系のための情報処理入門 パソコンを活用して研究を進めよう』 和泉書院.
- バイバー, ダグラス他, 齊藤俊雄他訳 2003 『コーパス言語学』 南雲堂.
- 松田謙次郎編 2008 『国会会議録を使った日本語研究』 ひつじ書房.
- 『パソコンを使う日本語研究』(『日本語学』14巻(1995)7月臨時増刊号).
- 『日本語の計量研究法』(『日本語学』20巻(2001)4月臨時増刊号).
- 『特集 コンピュータによる日本語研究の新展開』(『日本語学』20巻(2001)12月号).
- 『コーパス言語学』(『日本語学』22巻(2003)4月臨時増刊号).
- 『特集 コーパス言語学の現在』(『英語青年』149巻(2004)2月号).
- 『特集 日本語研究とコーパス』(『国文学 解釈と鑑賞』74巻(2009)1月号).
文字コード
テキストファイル主義・テキストツール
- Dougherty, Dale & A. Robbins, 福崎俊博訳 1997『sed & awk プログラミング』改訂版 オライリージャパン.
- SE編集部編 1992 『MS-DOSテキストデータ料理学』翔泳社.
- Stallman, R. M. 他 1993 『GAWK』 アジソンウェスレイ.
- 淺尾仁彦・李在鎬 2013 『言語研究のためのプログラミング入門 ―Pythonを活用したテキスト処理―』 開拓社.
- アスキー書籍編集部編著 1987-88 『MS-DOSを256倍使うための本 Vol. 1-3』アスキー.
- 伊藤博康 1991 『入門JGAWK』エーアイ出版.
- 伊藤博康 1992 『JGAWKスクリプト集』エーアイ出版.
- 伊藤博康 2001 『テキスト処理とCGIのためのPerlプログラミング』エーアイ出版.
- 岩谷宏 2002 『Javaによるテキスト処理入門』 ソフトバンク.
- 植村富士夫・富永浩之 1993 『awkでプログラミング』 オーム社.
- エイホ, A.V.他 1989 『プログラミング言語awk』トッパン.
- 荻野綱男・田野村忠温編 2011 『アプリケーションソフトの基礎』(講座 ITと日本語研究 2) 明治書院.
- 荻野綱男・田野村忠温編 2011 『アプリケーションソフトの応用』(講座 ITと日本語研究 3) 明治書院.
- 荻野綱男・田野村忠温編 2012 『Rubyによるテキストデータ処理』(講座 ITと日本語研究 4) 明治書院.
- 佐々木伸介 1991 『日本語AWKプログラミングテクニック』 毎日コミュニケーションズ.
- 志村拓他 1993 『AWKを256倍使うための本』 アスキー出版局.
- 中島雅弘・富永浩之・國信真吾・花川直己 2015 『AWK実践入門』 技術評論社.
- 中島靖 1997 『日本語TEXT加工実践ガイドブック』情報管理.
- 中島靖 1997 『日本語TEXT加工実用レファレンス』情報管理.
- 中島靖 1998 『Perl使いへの旅立ち―日本語TEXT加工入門ガイドブック 改訂新版』情報管理.
- 平山直之 1995 『テキストツールのテキスト』メロン出版.
- 平山直之 1996 『Perl's パラダイス』メロン出版.
- 藤岡和夫 2004 『実践実用Perl』 毎日コミュニケーションズ. 著者によるサポートページ
- 美吉明浩 1998 『Grep Sed Awk』秀和システム.
- 目黒編集室 2004 『これだけで身につく Perl入門 例題80』日経BPソフトプレス.
正規表現
後藤斉のホームページへ戻る
URL:https://www2.sal.tohoku.ac.jp/~gothit/textprocessing.html
All Rights Reserved. COPYRIGHT(C) 2000-2024, GOTOO Hitosi, Prof. Em.
Department of Linguistics
Faculty of Arts and Letters, Tohoku University
Aoba-ku, Kawauti 27-1
980-8576 Sendai, Japan
〒980-8576 仙台市青葉区川内27番1号 東北大学大学院文学研究科言語学研究室
後藤 斉 (E-mail:gothit/at/tohoku.ac.jp)
後藤にメールを送られる方へ