搭配发现的方法研究与实现
计算语言学和自然语言信息处理研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。前者从句子表层根据标点注释符分析出词语的结构,判断成分之间的语义关系,结合上下文掌握词语想表达的意思;后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的词与词的搭配。一个特定词的搭配就是对这个词的惯用位置的描述。搭配由有限的复合构词法所描述。在自然语言的表述中,如果可以从各部分的意思推测出整体表述的意思,那么我们称这个语言表述是复合构成的。搭配不完全是复合构成的,因为它通常还有别的含义。通常一个词与词的搭配的意思很接近每部分的组合意思,但是仍然还有别的意义[5]。
这里主要研究对象是公司名及公司名所引申出的变体名。对词语搭配做一个处理,应用于文本分析当中,实现对文本中词语的搭配和消歧。目的是处理公司名和公司变体名之间的搭配问题,可以由一些变名搭配出一些全称。反之,也可以由一些全称搭配出变名,因为公司名都是固定写法。所以需要构建一个通用的大规模高质量标注语料库。
词语搭配指词与词的结伴使用这种语言现象,是一种高度因循性的词语结合,是词语间的典型共现行为。就很多词来说,可与它搭配的词不止一个,只不过有一些更为恰当。抽取更为恰当的、典型的搭配词语成为词语搭配研究的一个重要方面。
所示拟解决的问题是如何对公司名及其变体名进行有规则的搭配。公司的变体名可以有很多种。公司全名可以分割为几部分来识别,所在地,名称,公司的性质等。正规情况下,公司的性质在变体名当中往往被省略,只是把所在地和名称进行改变和搭配。设置搭配规则也需要考虑到上述所说的三个公司全名的特征。
一、 研究(或设计或技术)方案
在这里决定采用统计方法的研究方案,用统计学的方法(计数)来处理公司变体名和公司名之间的搭配。基于频率的搜索方式可以很好地解决固定短语的搭配问题。对于统计里常用的三种方法:搭配词频数统计,MI的统计测量,T值的统计测量。这三种方法都是针对词与词搭配的,需要在设计对象上作一些改变,使对象从词与词之间变成对一个词的判断。
其次还要在Access,SQL Server或MySQL中建立一个数据库以及自己设计统计模型,将几个公司变体名和公司全名存入库中。利用C++程序编写算法,设计一个词性过滤器,让过滤后的结果只能是短语,然后对已经切分好的词进行频率统计,句法结构和语义的分析,词义消歧等工作。如果一个词出现频率极高并且成分与公司变体名一致,那就可以确定这个词就是某个公司的变体名,从而可以搭配出它的公司全名。
以上内容只是毕业设计作品的部分资料介绍,如果了解更多详情请联系客服QQ:57510459
购买帮助>>