融合特征项类分布的投标项目名称中文短文分类研究外文翻译资料

 2021-10-24 09:10

英语原文共 7 页

融合特征项类分布的投标项目名称中文短文分类研究

Yan Feng1,* ,Gang Qian2

1南京财经大学信息工程学院,南京,中国

2南京财经大学信息工程学院,南京,中国

相应的作者电子邮件: 995261840@qq.com

摘要

在word2vec的框架内,针对汉语的特征在项目名称招标中,本文提出了一个tf-idf-cdw加权word2vec模型,它结合了特征项的类别分布权重(cdw)来生成项目名称的短文本向量。短文本向量有三种构造方式,即平均word2vec模型,tf-idf加权word2vec模型,以及tf-idf-cdw加权word2vec模型。最后,这三种模式被应用到投标项目名称的文本分类.实验结果用来验证新方法的有效性。

1、介绍

随着我国市场化进程的加快,越来越多的企业开始在线使用招标进行工程项目的货物采购和招标.投标资料为经常分散在多个网站上,很难找到。投标资讯网站为专业收集投标信息。由于标书的标题较短,信息集中,手工加工成本高,效率低。以便使投标人能够获得所需的投标信息,并尽快根据到类别。在招标信息网站上解决我国投标项目名称的分类已成为我国投标企业面临的一个迫切问题。

向量空间模型(vsm)[1]是由萨尔顿等人于1975年提出的一种文本表示模型。传统的vsm有几个主要的问题:文本的向量是稀疏的,维度是高的;词与词之间的关系是不考虑的,并且vsm在文本的语义表示方面表现不佳。随着深度学习的发展,为了克服vsm的弱点,HINTON等人提出了分布式表示法[2],解决了传统vsm的高维和稀缺性问题。文本用分布式表示可以使用向量之间的相似性来表示文本的语义相似性。Word2vec [3,4]用分布式表示来表示一个单词向量,是一种将文字转换成文字向量的工具。在大量的短文本实验中,word2vec显示了出色的处理能力,并被广泛应用于中文分词[5,6],pos标记[7],情绪分类[8,9,10]和语法依赖性分析[8,11]。word2vec由于有能力为短文本数据寻找更深层的特征表示,所以越来越受欢迎。

基于word 2vec的常用短文本向量表示模型有:平均值word2vec模型[12]和tf-idf加权word2vec模型。然而,这两种模型在应用到投标项目名称的短文本分类时存在一定的缺陷。平均值word2vec模型认为短文中的每个单词都有相同的重量,因此无法区分文本中单词的重要性;tf-idf加权word2vec模型缓解了这个问题在某种程度上,但是tf-idf[13]中的idf术语没有考虑到在不同类别之间的特征项,因此tf-idf算法可能赋予稀有的词(不是重要的词)在每个类别中均匀分布。所以这个加权word2vec模型在投标项目名称分类中表现不佳。为了解决这个问题,本文提出了一个基于类别的tf-idf-cdw加权word2vec模型分布权重(cdw),cdw主要由两个参数组成,即浓度学位(cd)和分配学位(dd)。最后,通过分类效应实例验证了改进方法的有效性。

2、相关研究

研究投标项目名称的短文本分类,首先要解决的问题是文字表示.文本表示是文本分类的重点和难点。简而言之,它表示文本作为可以由计算机处理的数据格式。最常见的文字目前使用的表示是向量空间模型[1](vsm),它使得文本表示计算机处理的向量。在vsm中,文本被形式化为多维度空间,将文本的处理转化为向量空间中的向量运算,这大大降低了问题的复杂性。然而,vsm有一些问题,它在自然语言处理(nlp)的一些任务中表现不佳。高维数和稀疏性是vsm最大的缺点。高维数通常意味着用vsm表示的文本向量很大,通常可以达到105,这很容易引起'维度诅咒'.稀疏性,通常使用vsm表示的文本向量,会导致大量的'0'个元素,而非零元素则极为罕见。很明显,为了几个任务对于nlp,稀疏的向量是不可接受的。vsm基于这样的假设:关键字是线性独立.它只考虑上下文中单词的统计属性。单词而且词是相互独立的,不考虑词的语义特征,所以vsm有几个限制。

由于vsm的缺点,HINTON等人提出了用分布表示【2】,它将单词映射到一个低维、稠密的实向量空间(空间大小一般为100或200)。意思相似的词越接近,就越接近它们在太空里。解决了传统vsm的高维度和稀缺性问题。用分布式表示的文本向量可以使用向量之间的相似性来表示为表示文本的语义相似性。

随着深入的研究的发展,基于神经网络的单词向量表示自特征提取越来越受到业界和学术界的重视。基于先行者的Mikolov等人在2013年提出的研究。它采用了用分布表示法,它使用特征词与其上下文之间的关系到将特征词表示为低维实数向量。句法和语义,这个词的信息将被很好地表达出来。有两种类型的word2vec模型,即cbow模型和Skip-gram模型。cbow模型使用C(C是整数)字在当前单词T之前和之后预测当前单词T;而跳过-gram模型只是相对的,它使用T字来预测T字前后的每个C字。本文采用cbow模型。

目前,用字表示短文本向量的方法很少。框架内的本文提出了一种结合了世界标准的加权模型。类别分布权重(cdw),用于生成名称的短文本向量。与之相比常用的短文本向量表示,即平均word2vec模型和tf-idf加权word2vec模型,为招标项目的名称寻找更合适的处理方法。

3、算法设计

3.1平均值word2vec模型

经过预处理,通过word2vec投标项目名称中的每个字都被逐字训练成一个向量,然后再加上文字的每个字向量,除以字的量,作为短文字向量代表文本。𝑺𝒊代表第i个文字,𝑲𝒊代表𝑺𝒊文字中的字数,而𝑾𝒊(𝒋)代表了𝑺𝒊文中第j个字的向量。Vi代表第i个文字向量。

3.2 tf-idf加权word2vec模型

tf-idf中的tf是指单词的频率,即一个单词在文本中出现的次数。一个单词出现在文本中的次数越多,它们在文本中的效果就越大。idf指的是文档频率,也就是说,如果一个单词在文本集中出现的频率越高,区分字的能力,文字特征能反映的越少。𝑺𝒊 ,𝑲𝒊 ,𝑾𝒊(𝒋)和𝑽𝒊与上述相似。𝒘𝒘𝒘𝒘𝒊(𝒋)代表𝑺𝒊文字中的第j个字。

3.3 tf-idf-cdw加权word2vec模型

针对上述两种方法的缺陷和招标项目名称的特点,引入了tf-idf-cdw加权word2vec模型,实现了特征分布的集成项目类别.有两个重要的指标来衡量词对短的贡献文本分类:分布度(dd),浓度度(cd)。

分布度(dd)是指词在某一范畴内的分散程度。如果该词统一出现在某一类别中,而不是在该类别的个别文字中,但在许多文本中散布着这个类别,那么这个词就被认为包含了更多的分类信息,区分各类文本的能力更强。它更有价值分类法。公式如下:𝑵𝑪𝒊_𝒕是在𝑪𝒊中含有T字的文字数目。
类,和𝑵𝑪𝒊是𝑪𝒊类中文本的总数。

同时,需要考虑词的浓度(cd)。学位类之间的集中是指类之间的整体分布。文本集。如果词在某一类别中比较集中,而很少出现在其他类别中,然后这个词被认为对区分文本类别很有帮助。公式为后续:𝑵𝑪𝒊_𝒕与以上相同,𝑵𝒕代表所有包含整个文字中的T字集合。

基于类别分布权重的tf-idf-cdw算法如下:

𝑺𝒊是第i个文字,𝑲𝒊代表𝑺𝒊文字中的字数,𝑾𝒊(𝒋)代表字𝑺𝒊文字中的第j个字的向量,𝒘𝒘𝒘𝒘𝒊(𝒋)代表了𝑺𝒊文字中的第j个字。𝑽𝒊

表示第i个文本向量。

tf-idf-cdw算法不仅保留了tf-idf算法的核心思想,而且考虑了特征项的类分布,减少了不合理的权重。

4、结果分析

本实验使用的数据集是从政府招标信息网站中获取的以及各种机构。数据是真实和有效的。共收集了403,328份数据,以及不包括中标的投标名称和同一项目的无效投标名称。有204,757人投标项目名称留下.本文将这些数据作为语料库进行训练,因为数据量越大,包含在字向量。表1是对经过训练的word2vec模型的测试。注:表1中的英文单词为翻译自中文文本。

表1 word2vec模型相似性测试

1

2

3

打印机

复印机0.882753

投影机0.850591

电脑0.842929

绿化

草坪0.881011

园地0.858025

花园0.833426

在这20万个数据中,选择了16000个数据进行人工分类和注释。16,000数据分为8个类别,每个类别2000年。有8种,包括保健、园林景观、工地工程、家居装饰、数码科技、照明、电力动力和交通工具。

首先,数据需要预先处理,主要用于分词、去停用词。本文使用的分词工具是Jieba。以消除在实验结果的基础上,本文采用的分类器是nn和svm[15,16]。word2vec是由genism开源软件实现的。所有实验都进行了使用五点交叉验证。数据集随机分为五个部分,其中四个部分每次进行训练,先测试一部分,然后测试五个分类的平均值结果作为最后结果。

通过正确率(P)、召回率(R)和𝑭𝟏值指标对试验结果进行了评价。结果如下:c1,c2,c3,c4,c5,c6,c7,c8代表了医疗和健康、园林景观、地盘工程、家居装饰、数码科技、照明、电力动力,车辆和飞船。avg表示宏平均值。

表2平均值word2vec模型(%)

表3 tf-idf加权word2vec模型

表四tf-idf-cdw加权word2vec模型

根据表2和表3,在使用knn分类器的情况下,tf-idf加权word2vec模型的精确度比tf-idf-cdw加权word2vec模型精确度高 0.39%,回召速率上升1.54%,𝑭𝟏值上升1.03%;在使用svm分类器的情况下,tf-idf加权模型的准确性比平均word2vec模型高2.88%,召回率上升4.14%,𝑭𝟏值上升3.48%。

根据表3和表4,在使用knn分类器的情况下,tf-idf-cdw加权模型比tf-idf加权模型精确度大4.23%,召回率上升2.84%,𝑭𝟏值上升3.48%;而在使用svm分类器的情况下,tf-idf-cdw加权word2vec模型比tf-idf加权word2vec模型精确度大2.42%,召回率上升1.16%,𝑭𝟏上升1.85%。

图1 不同模型分类效果对比

5、总结

本文针对我国投标项目名称的简短文字分类,对我国投标项目名称进行了分析。均值word2vec模型和tf-idf加权word2vec模型的缺陷投标项目名称分类的应用,提出了tf-idf-cdw加权将特征项类别的分布组合起来的word2vec模型。实验结果证明所提出的方法是有效的。

参考文献

[1] SALTON G, WONG A, YANG C S. A Vector Space Model for Automatic Indexing [M]. Communications of the Acm. 1974: 613-620.

[2] Hinton G E. Learning Distributed Representations of Concepts [C] //Proceeding of the 8th Annual Conference on Cognitive Science Society. Amberst, USA: [s.n.],1986:1-12.

[3] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed Representations of Words and Phrases and Their Compositionality[A] Advances in Neural Information Processing Systems[C],2013: 3111-3119.

[4] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient Estimation of Word Representations in Vector Space[J]. arXiv preprint arXiv, 2013.

[5] Sun Y, Lin L, YangN, et al. Radical-Enhanced Chinese Character Embedding[J]. Lecture Notes in Computer Science,2014,8835:279-286.

[6] Mansur M, Pei W, Chang B. Feature-based Neural Language Model and Chinese Word Segmentation [C]//IJCNLP.2013:1271-1277.

[7] Zheng X, Chen H, Xu T. Deep Learning for Chinese Word Segmentat

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。