Page 1

Scientific Journal of Information Engineering February 2013, Volume 3, Issue 1, PP.1-7

Overview of Keyword Extraction in Single Document Yueling Zhang1,2 1. MOE Research Center for Software/Hardware Co-Design Engineering of Software Engineering Institute in East China Normal University, Shanghai 200062, China 2. Shanghai Embedded System Institute, Shanghai 200062, China Email: yueling671231@163.com

Abstract Keyword, as an significant indicator in defining the subject of an article, is playing an important role in document managing, document clustering, data mining, news reading, machine translating and auto-answer system. This paper summarizes keyword extraction methods for single document, analyzes the tectonic features, advantages and disadvantages of current extraction algorithms, and pointes out how to make the keyword automatically extraction system more useful will be the hot spot in the future research. Keywords: Keyword; Extraction Algorithm; Corpus Set; Word Co-occurrence; Lexical Chain; Page Rank

单文档关键词自动提取方法述评* 张越龄 1,2 1.华东师范大学软件学院 教育部软硬件协同设计与应用工程研究中心,上海 200062 2.上海嵌入式系统研究所,上海 200062 摘 要:关键词作为定义一篇文章主旨的重要元素,在文本处理、文档聚类、数据挖掘、新闻阅读、机器翻译、自动问答 系统等多个方面都扮演着重要的角色。本文对单文档关键词提取方法进行了综述,分析了现有提取方法的技术特点、优 势与不足,并指出提高关键词自动标注算法的实用性是未来的研究热点。 关键词:关键词;提取算法;语料库;词共现;词汇链;PageRank 算法

引言 关键词是为了文献标引工作,从报告、论文中选取出来用于表示全文主题内容信息款目的单词或术 语。关键词在文档中能够表征文档的重要信息和核心内容,方便读者迅速的理解文档的摘要信息并快速的 检索具体文档,对于新闻阅读、广告推荐、历史文化研究、文本处理、机器翻译、输入法词汇选取等一系 列产业和研究都有着至关重要的作用。而关键词提取在文档聚类,web 页面获取、数据挖掘以及自动问答系 统等方面都扮演极其重要的角色。无论是从传递信息角度,还是储存信息角度考虑,关键词的标引都给文 献的储存和检索带来极大的方便。通过自动标注关键词,补充拓展文献中已有的关键词信息,帮助检索系 统对文档进行聚类、索引、管理和总结。而如何提高单文本关键词自动标注系统的准确性、时效性和自适 应特性也是目前研究的重点。目前,针对英文的关键词提取已经取得了较多的研究成果,提取方法也比较 成熟,如 TF*IDF 算法[1]。由于中文的语言特点,在词与词之间没有明显的界限,因此分词成为中文关键词 提取中一个重要的影响因素,而分词的效率和准确率也在某些程度上限制了中文关键词提取的研究。中文 *

中国博士后科学基金特别资助项目(201003297) -1http://www.sjie.org


关键词较早和较成熟的自动提取算法是 PAT-TREE 算法[2]。

1

单文档关键词的基本提取方法 关键词自动提取工作最早由 Luhn 在 19 世纪 50 年代开始研究[3]。1963 年,美国化学摘要为了提高文档

检索效率,将统计规则应用于关键词自动提取中。 单文档关键词的基本提取方法有以下三种:基于统计规则的提取方法,如词共现算法;基于语言学方 法的提取方法,如句法分析的应用;机器学习,如 TF*IDF、TextRank、PageRank 等[4,5]。

1.1 共现词算法 共现词算法就是使用统计学方法,计算独立的词汇出现的频率和词汇间共同出现的频率,并将两个结 果相比较得出候选关键词。算法首先统计文章中单词的出现次数,选取出高频词集合作为接下来的共现词 提取标准。如果被测单词或词组 w 与高频词集合中的某几个词共同出现的次数更多时,通常认为被测单词 或词组 w 可能代表重要的含义,可以作为候选关键词。但是,当所谓的“高频词”出现频率过小的时候, 上述的统计方法并不可靠,为此共现词算法引入了卡方检验来判断被测单词和高频词的共现倾向。假设 G (高频词集合)中单词的出现次数和位置与单词或词组 w 无关,其计算公式如下: 2 ( freq( w, g )  nw pg ) x 2 ( w)   nw pg gG 其中,nw 表示单词或词组 w 与高频词集合中的所有高频词共同出现的次数,pg 表示预期的可能值, freq(w,g)表示单词或词组 w 与特定高频词 g 共同出现的频率。根据预期假设和计算公式,w 的卡方值越大, 意味着它与某一个或某几个特定的高频词共同出现的倾向越高,w 就越有可能代表更重要的含义。在将所有 的单词或词组的卡方值计算完成后,挑选卡方值高的单词或词组作为文章的候选关键词[6]。 词共现方法中对根据单词出现的次数来采集高频词的做法虽然简单可行,但没有考虑到词语的出现位 置和分布密度等其他综合因素。因此根据高频词计算出的候选关键词有时并不能很好的代表文章的含义。 为了避免上述问题,Salton 引入机器学习,提出 TFIDF 方法。

1.2 TFIDF 方法 TFIDF 的核心思想是:一个词在特定的文档中出现的频率越高,说明它在区分该文档内容属性方面的 能力越强(TF);一个词在文档中出现的范围越广,说明它区分文档内容的属性越低(IDF)。其经典计算公 式为:

Wij  tf ij  idf j  tf ij  log( N / n j ) 其中, tf ij 指特征项 t j 在文档 di 中出现的次数;idfi 指出现特征项 tj 的文档的倒数。N 表示总文档数,nj 指出现特征项 tj 的文档数[7]。 TFIDF 方法通过机器学习综合考虑了单词出现的频率、位置及密度,弥补了传统统计方法提取关键词 的不足。由于其算法逻辑简单,使用方便,经常用于特征选取和离散化等步骤。通过 TFIDF 自动提取得到 的候选关键词更加准确,能够更明确的描述学术论文的研究方法、内容、结果。提高了学术论文的自动分 类和检索,也方便读者查阅。随着机器学习的广泛应用,图论的不断发展和计算机运算水平的提高,一种 由 PageRank 发展而来的 TextRank 方法应用而生。

1.3 TextRank 算法 在 TFIDF 方法的基础之上,TextRank 算法除了使用图表示记录单词间的位置关系和出现频率、密度, 还综合考虑到单词间的“重要度分配”,TextRank 是 PageRank 算法在文本信息处理中的应用,其算法的核 心思想和 PageRank 相同,即在文本网络中节点(词)的重要程度取决于与它相连的单词的分给它的票数 (重要程度),用数学语言表示如下: -2http://www.sjie.org


S (Vi )  (1  d )  d 

jIn (Vi )

1 Out (V j )

S (V j )

其中, In(Vi ) 表示节点 V 的入度, Out(Vi ) 表示节点 V 的出度。节点 V 的得分为表示为 S (Vi ) ,同 pagerank 算法相同,d 是衰减因子,一般取值为 0.85[8]。

1.4 三种方法的比较分析 综合比较三种方法,各有千秋。基于统计规则的方法(以词共现为例)的优势在于统计学已经发展的 较为完善,通过分析学术论文中各种统计指标可以方便的得出各种统计指标结果,根据这些统计指标可以 综合分析得出候选关键词。但由于文章体系结构千变万化,因此这些既定的统计指标有些过于死板,影响 最终结果的准确度。TFIDF 方法综合考虑了单词出现频率、位置、密度等因素,在计算候选关键词时更加 灵活,且逻辑简单,因此经常和统计学方法相结合,应用于特征选取和离散化的步骤中。但 TFIDF 方法也 仅仅考虑了单个单词的出现特征,并没有对整篇文章中互相有联系的词组综合考虑。TextRank 方法是三中 方法中较为复杂的一种,其最初由计算网页重要程度的 PageRank 演变而来,借助于图这种数据结构,综合 考虑单个词的特征和词与词之间的关系,衡量每个单词的重要程度。此方法已较为成熟,且得到的候选关 键词已有很高的可靠性,正在逐渐演变为一种主流的关键词自动提取方法。 从以上介绍可以看出,单文档关键词提取的基本算法已经比较完善,并且都可使用数学语言或者数学 模型描述。

单文档关键词综合提取方法

2

2.1 KEA 算法与只使用文章内部知识来提取关键词的方法的比较分析 2.1.1

KEA 算法

比较已提出的各类提取算法,笔者认为,通过在计算机中预存相关的知识库进行关键词提取的方法最为 简单。这种方法通过预存的关键词表来筛选命中关键词,通过停顿词表(无意义词表)去除文中的一些助词 或承接词,如“的”、“首先”、“总结”等。但是由于算法过于简单,一般不会单独使用。较为著名的是 由 Witten 等人提出[9]的 KEA 关键词提取系统,KEA 算法采用朴素贝叶斯技术对短语离散的特征值进行训 练,进而获取模型的权值,从文档中抽取关键短语。程岚岚等人采用 KEA 算法的思路提出了一种基于朴素 贝叶斯的关键词提取算法,整个算法分为训练阶段和提取阶段两部分。训练阶段包括挑选候选关键词、特征 值计算和构建模型三个步骤。特征值包括 TF-IDF 值,词语第一次出现的位置和词语在文档中平均出现的位 置。[程岚岚,何丕廉,孙越恒. 2005]其中构建模型是核心步骤,需要进行统计训练集中关键词和非关键词个 数、离散特征值、根据是否为关键词计算候选短语在各个离散区间的频率三个操作。训练完成后,将训练所 得模型应用到测试文本集中,完成算法的提取阶段[10]。 2.1.2

只使用文章内部知识来提取关键词的方法

Rachada Kongkachandra[11]提出了一种只使用文章的内部知识提取关键词的方法,不使用其他常用的外 部知识,如词典、语义信息、训练组等。首先对文章标题进行句法分析,将其中的所有名词作为种子关键 词,而在文章中任何与种子关键词相关的词汇都会被标记为候选关键词。然后根据已有的和新生成的关键 词构建语义图,挑选候选关键词并将选择结果与已通过检测的种子关键词一起存入基础知识库,最后根据 种子关键词和基础知识库得到最后的提取结果。Rachada Kongkachandra 的论文摆脱了外部知识库,精简了 算法的空间开销。但由于只使用文章的内部信息,较容易受到语料组织和逻辑的影响。Meng 等人[12]指出传 统的关键词提取方法不能够适应新生词的不断产生,他们改进已有的基于语义提取方法,通过计算得出词 语间的相似值,进而构建相似词典并总结词典中条目的属性,替代人工选定生成的词典,解决了新生关键 词的提取工作。 -3http://www.sjie.org


2.1.3

两种方法的比较分析

通过介绍可知,上述的两种算法都使用了内建知识库或训练模型。基于知识库的提取算法,知识库的 选取或生成是难点,如果知识库的范围过于广泛,其所占系统空间过大,会导致提取算法运行缓慢;如果 知识库过小,又不能满足算法的使用需求,造成提取结果误差。知识库的构建可分为外部导入知识库和内 部自构建知识库两种。外部引用的知识库一般较为成熟稳定,但其修改维护极为麻烦,不能即时地根据不 同的语料做出相应的调整,对新生词和未登录词的处理提取能力不足。与外部导入相对应的是根据语料 (文章)的内部信息生成的知识库,其生成过程中需要使用共现词、词义相似性比较、TFIDF 值测量等多 种词语属性统计手段。内部生成的知识库弥补了外部知识库修改维护不及时不方便的不足,但如果语料本 身存在逻辑模糊或者类似的的缺陷,有可能对知识库的生成和提取结果产生影响。

2.2 PW 算法与 KNN 算法的比较分析 2.2.1

PW 算法

Hu 和 Wu[13]提出了一种新的权重计算方法(PW),根据元组在段落、句子和单词中的 PW 值确定文章的 关键词。方法中对于不同位置的段落、句子给出了不同的初始权重。如主标题的权重为 4,副标题的权重为 3.5,标题句的权重为 4,起始或结论句的权重为 3 等。对于单词,也根据其前后相邻的是否是数字规定了不 同的初始权重。并且使用 TFITF、PWIPW 方法衡量元组的权重。其中 TFITF 和 PWIPW 都是某个单词在其 发现范围和在全文中的权重比,与 TFIDF 类似。在完成 PW 值计算之后,选出 PW 值达到某一高度的元组 作为主题单词。接下来根据主题单词与前后相邻单词之间的相关性进行词组筛选合并,形成备选关键词组 集合。最后综合考虑数字、大小写、单词数、平均单词长度和主题单词选取顺序 5 个因素,对备选关键词进 行评分,并选取得分高的关键词作为最后的结果。该算法考虑到出现位置不同的段落、句子和单词所代表 的初始权重不同这一因素,结合权重测量方法,给出节点单词的综合权重。但是不同的文章有不同的组织 结构,组织结构的不同有可能导致算法规定中的初始权重赋值规则不合理,引起提取误差。以中文文章为 例,有“开门见山,指点主题”的开篇形式,也有“起兴”的形式。对这两种不同的开篇形式使用同一的 初始权重赋值规则明显是不合理的。 2.2.2

KNN 算法

Zhang[14]使用 KNN(K 最近临节点算法)对备选关键词进行排名,首先使用向量空间模型对语料进行 预处理(VSM),使用 TF-IDF 值表示文本节点在组中的权重;然后根据 KNN 算法筛选出候选关键词库;最 后将候选关键词按照 K 值由高到低排名,选出前 N 个候选关键词作为提取结果并对其进行后续处理。Li 等 人 [15] 将共现词和词汇链相结合,将两种经典方法结合互补,提出了一种新的中文网页信息关键词提取方 法。该方法使用共现词算法筛选候选关键词,使用词汇链排除候选关键词中的近义词和同义词,精简候选 关键词集合。Li 等人提出的方法是针对新闻网页的关键词提取算法,由于网页信息的特殊性,算法保留语 料中的动词。算法提出使用语义链筛选近义词,使得提取结果更加准确。 2.2.3

两种方法的比较分析

PW 算法和 KNN 算法提取关键词都是基于统计规则的方法,其中 TFIDF 值、出现位置、平均出现位置 等信息是提取中的重要特征值。而共现词算法则是根据统计规则开发出的关键词提取重要算法。共现词算 法的原理是:对于语料中的高频词集合 G,如果某个单词或词组 w 与某一个或某几个 g 共同出现的次数更 多时,称 w 为 g 的高共现倾向元组,w 有可能代表文章的重要思想,可以成为候选关键词。单词间的共现 倾向可以通过共现矩阵计算,但是当高频词出现频率次数较低时,可能出现统计误差。在共现词算法中, 使用卡方检验算法衡量和提取高共现倾向元组 w,以避免当频率较低时的计算误差。TFIDF 算法在最早被提 出时称为 TFODF 算法(Opposed to Document Frequency),由 Salton 等人修改为 IDF(Inverse Document -4http://www.sjie.org


Frequency)并沿用至今,其核心思想为:如果特征项在所有文档中出现的频率都很高,则它所包含能够代表 特定文档的信息熵就越少,如果特征项的出现较为集中,只在少量文档中有较高的出现频率,则它拥有较 高的信息熵,能够表达特定文档的更多信息。基于统计规则的算法多用于提取过程中的特征选择。

2.3 网络图转换方法 2.3.1

方法介绍

Liu 和 Wang[16]在文中介绍了三种将语料转换为网络图的方法,分别是共现词网络、依赖网络、语义网 络。在完成构建网络图之后,对图应用 pagerank 算法。网络图中的单词作为节点,而其节点间的关系使用 边表示。提取节点处单词的特征值,计算其中节点的权重值,并将权重值较高的单词或词组作为关键词提 取的结果。 基于网络图的算法首先对语料进行预处理,与处理过程通常通过根据统计规则对语料进行特征提取完 成。词共现网络图根据文章中的共现词构建关系;依赖网络图将名词和修饰其的形容词或副词联系起来; 语义网络图则是根据文章内部的语义关系构造的网络。 2.3.2

方法的优劣势分析

不论使用何种方式构图,在网络图构造完毕后都需要使用算法衡量图中节点的得分值,常用的算法有 TextRank 和 PageRank。其中 TextRank 是 PageRank 在文本处理方面的应用,两种排名算法的核心思想是: 图中节点(单词)的重要程度(得分)是由与之联系(边)的节点投给其票数所决定的。每一个节点都会 有相应的初始权重(初始票数),初始权重的高低受到单词出现频率、词义相似性、TFIDF 值等多项特征 值的影响。初始权重越高,表示该节点处的单词越能够更好地表达文章的思想。当图中的每个节点的权重 完成初始化后,就可以使用公式计算得出每个节点的最后得分。这些方法的优势在于提取关键词的过程 中,能够兼顾到文章的类别和行文特点,其缺点是在选取特征值的过程中需要用到统计算法辅助、模型构 造原理较为复杂,要求算法设计人员掌握较丰富的语言学知识和统计学知识。

2.4 汉字重新编码方法 2.4.1

方法介绍

Hui Jiao[17]等提出针对中文关键词的提取方法,与其他的中文关键词提取方法不同的是,其将中文汉字 编码为长度为 4 的字典码,这样一篇文章就由每个字节长度都相同的字典码组成。通过对文章进行重编码, 单个的汉字成为最小的单元,因此中文分词的结果不会对本算法造成影响。在完成重编码之后,该方法仍 然借助于词共现算法提取转换为字典码的关键词。该算法适用于中文文档的关键词提取,且绕过了中文分 词步骤,避免了分词过程中出现歧义而影响提取结果的可能,减小了提取误差。 2.4.2

方法的优劣势分析

在处理中文文档时,对文章进行重编码不失为一种有效地方式。由于中文的文档中没有空白符将单字 和词组分开,分词过程中产生的歧义有可能影响关键词提取结果。重编码解决了这一问题,将所有的汉字 编码为长度相同的二进制或十六进制码,称为字典码。其后将关键词提取算法应用到已经转变为字典码的 语料中。对于同义词的处理,同样也是中文关键词提取需要考虑的地方。

2.5 同义词链法 2.5.1

方法介绍

方俊等人[18]发现,词语的含义的词汇层面和概念层面的不一致经常导致关键词提取的不准确。为了解 决这一问题,提出了使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方 -5http://www.sjie.org


法。该方法使用上下文信息得到候选词的词义,在接下来的合并、特征提取、离散化和评估等常规步骤 中,候选词义之间的语义相关度被用来提高算法的性能。张晨蕨[19]等人提出基于同义词链的中文关键词提 取算法,以解决由于对语义和同义词的不重视而引起的算法性能问题。利用上下文窗口和消歧算法解决词 语在上下文中的语义问题,利用文档中的同义词构建同义词链,简化候选词的选取。蒋昌金 [20]等人使用组 合词和同义词集设计的算法能够识别大多数新词、未登录词,利用组合词识别算法改进过的分词效果为提 高抽取准确率打下了基础。为了避免同义词在提取结果中同现,利用同义词集合并同义词的词频。综合考 虑候选关键词的各项特征,包括位置、长度、词性等特性,得出最后的评分结果。 2.5.2

方法的优劣势分析

同义词链是指文档中根据上下文信息确定词义相同或相似的词的集合。基本思想是:用词义代替词 汇,利用词义相似度确定词汇在具体上下文中的含义,利用义项相似度计算得到一系列的同义词,组成同 义词链。词义相似度计算是构建同义词链的基础,义项相似度计算中每一个单词有一个或多个含义,每个 含义都独立对应一个义项。经常使用 WordNet 或者 HowNet 计算词汇相似度。当词汇有多种含义时,使用 义项相似度替代词义相似度可以达到更好的性能。对候选关键词使用同义词链或者同义词集和分析,可以 有效的避免词义相同的词汇在结果集中共现。

3

未来的热点研究方向 关于关键词的提取研究已经取得了很多优秀成果,但算法的实用性仍有待提高,其中包括可读性、高

速性、学习性和健壮性。关键词自动标注算法的实用性不仅要求算法学术理论上有较高的科研意义,同时 要求算法在工程应用中能有良好的实践效果。其中可读性是指提取结果的输出能够正确向用户传达提取关 键词的含义。在中文关键词的提取中,由于单个汉字或词组的表达能力较为有限,因此如何将提取结果正 确的组合成为需要考虑的重要问题。高速性也是关键词提取算法需要改进的问题,为了使算法达到较高的 智能,通常会使用复杂的模型,统计大量特征值并对其进行离散化。然而一些特殊的语料体裁,如新闻报 道,需要提取算法能够快速标注文本关键词,以达到新闻的实时性要求。因此,在不严重影响提取结果的 前提下,加快提取速度能够使算法有更好的实践效果。学习性或者称为自适应性要求提取系统能够处理广 泛领域的文本,而不仅局限于某些特定领域。随着网络新词、潮流用语不断出现,提取算法需要具备一定 的学习和自适应能力。现有的提取算法绝大多数都仅仅对语料中文本或文字进行训练、统计和提取。然而 在学术论文或或其他体裁中,图表通常也是体现文章思想的重要组成部分。通过分析语料中图片、表格中 所传达的信息,应用到提取模型的建立过程中,开发能够处理中英文混合、文本图片混合、公示图表混合 等混合型语料的提取算法,扩展关键词自动提取系统的使用范围,提高提取系统的健壮性。 开发提取结果简单明了,运行速度快、适用范围广、可以处理混合型语料的关键词自动标注系统,将 是未来研究的热点。

REFERENCES [1] Salton G. and Buckley C., Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5): 513-523, doi:10.1016/0306-4573(88)90021-0 [2] LF Chien. PAT-tree-based keyword extraction for Chinese information retrieval[C]. ACM SIGIR Forum, vol.31, pp.50-58, 1997, doi:10.1145/258525.258534 [3] Luhn H P. A Statistic Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development, vol.1,no.4, pp.309-317,1957 [4] Lois L E. Experiments in Automatic Indexing and Extracting[J]. Information Storage and Retrieval,vol.6, pp.313-334, 1970 [5] Salton G, Wong A, Yang C S.A Vector Space Model for Automatic Indexing[J]. Communications of ACM, vol.18, no.11. pp.613620, 1975 -6http://www.sjie.org


[6] Yutaka Matsuo, Mitsuru Ishizuka. Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information[J]. International Journal on Articial Intelligence Tools, Vol.13, No.1, pp.157-169, 2004 [7] Gerard Salton, Edward A fox, Harry Wu. Extended Boolean Information Retrieval[J]. Communications of the ACM, 1983, 26(12): 1022-1036 [8] Mihalcea R., Tarau, P., Textrank: Bringing order into texts[C]. Proceedings of EMNLP 2004, pp.404-411 [9] Witten I H, Paynt er G W, Frank E, et al. KEA: Practical automatic key phrase extraction[C]. Proc of the 4th ACM Conference on Digital Libraries. pp.254-256 [10] 程岚岚, 何丕廉, 孙越恒. 基于朴素贝叶斯模型的中文关键词提取算法研究[J]. 计算机应用. Vo1.25, No.12, pp.2780-2782, 2005 [11] Rachada Kongkachandra, Chom Kimpant, Thawatchai Suwanapongt and Kosin Chamnongthai. Newly-Born Keyword Extraction under Limited Knowledge Resources based on Sentence Similarity Verification[C]. Communications and Information Technologics (ISCIT 2004) Sapporo. vol.2, pp.1183-1187, 2004. doi: 10.1109/ISCIT.2004.1413905 [12] Meng Wenchao, Liu Lianchen, Dai Ting. A modified approach to keyword extraction based on word similarity[C]. Intelligent Computing and Intelligent Systems, 2009. vol.3, pp.388-392, 2009. doi: 10.1109/ICICISYS.2009.5358135 [13] Xinghua Hu, Bin Wu. Automatic Keyword Extraction Using Linguistic Features[C]. Data Mining Workshops,2006. ICDM Workshops 2006. pp.19-23. doi:10.1109/ICDMW. 2006.36 [14] Zhang Qingguo, Zhang Chengzhi. Automatic Chinese Keyword Extraction Based on KNN for Implicit Subject Extraction[C]. KAM '08 Proceedings of the 2008 International Symposium on Knowledge Acquisition and Modeling, pp.689-692, 2008, doi:10.1109/KAM. 2008.87 [15] Xinghua Li, Xindong Wu, Xuegang Hu, Fei Xie, Zhaozhong Jiang. Keyword Extraction Based on Lexical Chains and Word Cooccurrence for Chinese News Web Pages[C]. Data Mining Workshops, 2008. pp.744-751, 2008. doi:10.1109/ICDMW.2008.122 [16] Jianyi LIU, Jinghua WANG. Keyword Extraction Using Language Network[C]. Natural Language Processing and Knowledge Engineering, 2007. pp.129-134. doi: 10.1109/NLPKE.2007.4368023 [17] Hui Jiao, Qian Liu, Huibo Jia. Chinese Keyword Extraction Based on N-gram and Word Co-occurrence[C]. Computational Intelligence and Security Workshops, 2007. pp.152-155,2007.doi:10.1109/CIS. Workshops. 2007.42 [18] 方俊, 郭雷, 王晓东. 基于语义的关键词提取算法[J]. 计算机科学, vol.35, no.6, pp.148-151, 2008 [19] 张晨蕨, 谢强, 丁秋林. 基于同义词链的中文关键词提取算法[J]. 计算机工程, vol.36, no.19, pp.93-95, 2010 [20] 蒋昌金, 彭宏, 马千里, 严桂夺. 基于组合词和同义词集的关键词提取算法[J]. 计算机应用研究, Vol.27, no.9, pp.2853-2856, 2010

【作者简介】 张越龄(1990-),女,汉,学士,研究方向为机器学习和数据挖掘。公开发表论文 2 篇:XML Storage Model Analysis and Comparison, AISS, 2011 (EI 收录;Comparing four Methods of Storing XML File into RDBMS, CESSE 2011(ISTP 收录)。参加电子书包、云游戏系统、华东师范大学暑期培训班网站等项 目的研究工作。2011 年获得华东师范大学特等奖学金。 Email: yueling671231@163.com

-7http://www.sjie.org

Overview of Keyword Extraction in Single Document  

Keyword, as an significant indicator in defining the subject of an article, is playing an important role in document managing, document clus...