世界经济研究
    主页 > 期刊导读 >

基于主题模型的中外期刊文献挖掘对比研究

学术期刊是科教事业发展过程中的关注焦点之一,对学术期刊文献进行统计分析,有助于直观地分析我国的科学创新和技术创新水平。如何从大量的期刊文本数据中发现有价值的信息,变得尤为重要。本文选取经济类的国内期刊《经济研究》和国外期刊《美国经济评论》为代表,对其进行WEB文本挖掘,然后对内容作描述性分析和词频趋势分析,以及文本挖掘模型的对比化分析。通过中外期刊对比,能够发现国内和国外相应领域目前的研究现状及关注热点的发展趋势,并且可以发现中文与英文分词方法的不同,同时为经济学者和读者的研究提供参考。

1 文本建模相关理论

1.1 文本分词处理和去停止词及词根还原

在进行文本挖掘之前,需要先对文本原始数据进行预处理。而在文本预处理过程中,分词是最重要的一个环节。对于英文文本,通过空格和标点很容易将文章拆分成词;但对于中文文本,文本分词的过程比较复杂,比较常用的中文分词方法包括:词典法[1],隐马尔科夫过程[2]和CRF模型[3]。通常一篇文本中的冠词、连词和介词等虚词以及在整个文本集中出现频率很高、但对区分类别作用不大的词,被称为停止词[4]。去除停止词是文本预处理中不可缺少的步骤,它们可以使分词结果变得更准确,为后续的特征表示和统计建模提高精度。与中文相比,英文中同一个词有词形的变化,而因为词义本身没有变化,就不应该作为独立的词来存储和参与分类计算。去除这些词形不同但词义相同的词,仅保留一个副本的步骤就称为“词根还原”,经过“词根还原”,英文文本预处理过程结束。

1.2 文本特征提取

文本挖掘的一个基本问题是文本的表示及其特征项的选取。如果直接将分词结果作为特征项来表示文本,那么这个文本向量的维度将会非常大,因而,必须从文本中提取出特征词来表示文本信息,即通过特征选择来降低文本向量的维度。特征项必须具备如下的特性:(1)文本内容需要被特征项所标识;(2)将目标文本与其他文本需要被特征项相区分;(3)特征项的个数不能太多,否则起不到降维的效果;(4)特征项分离比较容易实现。

特征项选取的方式通常有4种:(1)通过映射或变换的方法把原始特征映射为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法找出最具分类信息的特征。这里的第4种方法是一种比较精确的方法,人为干扰因素较少,比较适用于文本自动分类挖掘系统。

1.3 基于LDA主题模型和CTM主题模型的文本建模理论

在自然语言处理领域,主题模型越来越受到广泛关注。主题模型是提取文档中隐含主题的一种概率模型,是对文字隐含主题进行建模的一种方法[5]。它打破了传统空间向量文档-词的思维定向,将文档映射到主题空间上,表示为文档-主题-词。用主题描述文档,有效地降低了维度,即主题模型克服了空间向量模型的缺点。

现阶段主要应用的主题模型包括LDA主题模型和CTM主题模型。

LDA(Latent Dirichlet Allocation)模型是Blei等人在2003年提出的[6],他们在pLSI方法[7]的基础上加入先验分布Dirichlet分布得到LDA模型。LDA主题模型生成文本的过程如下[8]:

(a)对于主题z,根据Dirichlet分布Dir(β)得到该主题上的一个单词多项式分布向量φ;

(b)根据泊松分布P得到文本的单词数目N;

(c)根据Dirichlet分布Dir(α)得到该文本的一个主题分布概率向量θ;

(d)对于该文本N个单词中的每一个单词Wn:

(d1)从θ的多项式分布Multinomial(θ)随机选择一个主题z;

(d2)从主题z的多项式条件概率分布Multinomial(θ)选择一个单词作为Wn。

其中,α和β是Dirichlet分布的参数,一般都是对称并且是固定值,α反映了文档集合中隐含主题间的相对强弱;β刻画了所有隐含主题自身的概率分布。

CTM模型则利用Logistic正态分布中的协方差矩阵来代表主题之间的关系。CTM主题模型生成文本的过程如下[9]:

(a)给定K个主题,各个主题都是全部词语的一个分布;

(b)从多维分布中,随机选取一个主题;

(c)从多维分布中,随机选取一个单词;

(d)重复以上过程,直到所有文档的所有词被抽取。

2 中外期刊文献挖掘对比研究

2.1 数据来源和文本数据预处理