Nグラムによるテキスト研究
師 茂樹
Nグラムとは
Nグラムとは、確率・統計的自然言語処理の分野で広く用いられている言語モデルで、きわめて単純なモデルであり多くの欠点が指摘されているにもかかわらず、非常に強力な分析方法である。単語や文字(アイテムと総称)の生起が、直前のアイテムのみに依存していると考え、その確率を求めるものである。
近年、人文学におけるテキスト研究において、Nグラムが注目されてきている。これまで、テキスト研究における統計的な分析(計量文献学)においては、形態素分析が不可欠の作業とされており、実際、品詞をマークアップしたテキストデータベースによる研究によっていくつかの注目すべき成果が上がっている。しかし、形態素分析に基づくデータ処理には、次のような問題点が指摘されている(近藤みゆき [2001]参照)。
- 1語の単位を認定する基準が一通りではない。
- 複合語や強い共起性のある単語群(連語、慣用句など)の分析に不利。
一方、Nグラムの場合、単語の区切りなどを問題にすることなく網羅的に数え上げるため、たくさんのノイズが含まれる反面、上記のような問題点を克服しうるデータを得ることができるのである。
入手しやすいツール
- 藤原滋氏作 ngram
- Nagao and Mori [1994]のアルゴリズムをもとに作られ、省メモリかつ高速に動作するすぐれもの。ただし頻度1などに対応できないなど、テキスト研究には若干機能的に足りない面もある。
- 近藤泰弘氏作 ngmerge.pl
- 複数のngram処理の結果をmergeして対照する。
- 極悪氏作 N-gram分析スクリプト
- 文章をN-gram分析するスクリプト「ngram.pl」と、複数のN-gramから共通部分を探すスクリプト「ngcmp.pl」があり便利。
- 弥永信美氏作 MacJPerl script for n-gram analysis...
- NグラムのツールはUnixなどのコンソール環境がないと使えないものが多いので、Macintoshで動く本スクリプトは貴重。弥永氏による解説も必読。
- 師茂樹作 morogram
- 藤原氏作ngramは、非常に便利である反面、データマイニング的な手法において重要な頻度1やユニグラムの検出、あるいは多言語処理などの面が考慮に入れられていなかったので、勉強を兼ねて作ってみたもの。まだまだ改良の余地あり。morogramを元に、極悪氏にWindowsのスタンドアロン形式を作っていただいたので(感謝!)、初心者にもとっつきやすくなった。
参考文献
Nグラム関連
すべてをリストアップすることはとても無理なので、ごくごく一部を。
- Makoto NAGAO and Shinsuke MORI.
- "A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese", In Proceedings of the 15th International Conference on Computational Linguistics (1994), pp.611-615. http://www-lab25.kuee.kyoto-u.ac.jp/member/mori/postscript/Coling94.ps
- 北研二
- 第3章「Nグラムモデル」(北研二『言語と計算4 確率的言語モデル』、1999年11月、東京大学出版会)
- 山田 崇仁
- 「初めてのN-gram CygwinもしくはPerlを用いて」(『漢字文献情報処理研究』第二号、2001年10月、好文出版)
テキスト研究への応用
- 石井 公成
- 「N-gram利用の可能性 ―仏教文献における異本比較と訳者・作者判定―」(『漢字文献情報処理研究』第二号、2001年10月、好文出版)
- Ishii, Kosei
- “Classifying the Genealogies of Variant Editions in the Chinese Buddhist Corpus”. 『電子佛典』第3輯、東國大學校EBTI、2001
- 石井 公成
- 「仏教学におけるN-Gramの活用」(東京大学東洋文化研究所附属東洋学研究情報センター編『明日の東洋学』、2002年10月)
- 近藤泰弘
- 「コンピュータによる文学語学研究にできること – 古典語の「内省」を求めて–」(全国大学国語国文学会夏季大会シンポジウム「情報技術は文学研究をいかに変えるか」発表レジュメ、2001年6月)
- 近藤みゆき
- 「平安時代和歌資料における特殊語彙抽出についての計量的研究と利用ツールの公開 ―古今和歌集の歌語と表現のジェンダー性について―」(『科学研究費特定領域研究 人文科学とコンピュータ 研究成果報告書 ―コンピュータ支援による人文科学研究の推進―1999』)
- 近藤みゆき
- 「nグラム統計処理を用いた文字列分析による日本古典文学の研究 ―『古今和歌集』の「ことば」の型と性差―」(千葉大学『人文研究』第29号、2000年)
- 近藤みゆき
- 「n-gram統計による語形の抽出と複合語 ―平安時代語の分析から―」(『日本語学』Vol.20、2001年8月号)
- 近藤 泰弘・近藤 みゆき
- 「平安時代古典語古典文学研究のためのN-gramを用いた解析手法」(言語情報処理学会第7回年次大会『発表論文集』2001)
- 近藤 泰弘・近藤 みゆき
- 「N-gramの手法による言語テキストの分析方法 ―現代語対話表現の自動抽出に及ぶ―」(『漢字文献情報処理研究』第二号、2001年10月、好文出版)
- 谷本 玲大
- 「曖昧検索性を持たせたN-gramサーチの手法 ―『新撰萬葉集』と菅原道真の詩の比較を例に―」(『漢字文献情報処理研究』第二号、2001年10月、好文出版)
- 師 茂樹
- 「XMLとNGSMによるテキスト内部の比較分析実験 ―『守護国界章』研究の一環として―」(『漢字文献情報処理研究』第二号、2001年10月、好文出版)
- 師 茂樹
- 「Nグラムモデルとクラスター分析を用いた漢文古典テキストの比較研究――『般若心経』の異訳の比較を例に」(京都大学大型計算機センター第69回研究セミナー「東洋学へのコンピュータ利用」予稿集、2002年3月)
- 山田崇仁
- 「『世本』と『國語』韋昭注引系譜資料について ―N-gram統計解析法による分析―」(『立命館史学』22号、2001)
Shigeki Moro
$Id: index.html,v 1.2 2007/04/18 07:24:10 moromoro Exp $