《山东大学学报(理学版)》

形式概念分析的粒计算方法及其研究展望

李金海,吴伟志

2017, 52(7): 1-12. doi:10.6040/j.issn.1671-9352.0.2017.279

摘要 ( 2931 )

PDF (1118KB) ( 6786 )

参考文献 | 相关文章 | 多维度评价

形式概念分析是知识表示与处理的一种实用数学方法,因其核心工具概念格的构造代价涉及指数时间复杂度,它在一定程度上导致其处理数据效率不高,这个问题也一直阻碍着该理论的快速发展与广泛应用。粒计算以粒的形成、粒的转移、粒的合成与分解等手段有效解决问题而著称,它允许问题在各个粒化层面上得到处理,并根据实际需要在解决问题的精度与耗时之间做出权衡。形式概念分析的粒计算方法的主要研究目标是将粒计算的这些优势融入传统形式概念分析中以有效解决数据分析与处理问题。具体地,本文从Galois连接的粒计算模型、对象粒化、属性粒化、关系粒化、关系诱导的概念粒化、粒规则、粒约简、粒概念、粒概念学习、概念粒计算系统等角度展示形式概念分析的粒计算方法的主要研究内容,并针对大数据与认知学习提出若干挑战性问题。有关讨论结果将为形式概念分析的粒计算方法的研究与发展提供借鉴。

基于粒辨识属性矩阵的动态形式背景约简更新方法

黄桃林,牛娇娇,李金海

2017, 52(7): 13-21. doi:10.6040/j.issn.1671-9352.4.2017.077

摘要 ( 1636 )

PDF (830KB) ( 1492 )

参考文献 | 相关文章 | 多维度评价

知识约简是知识发现中的一项重要任务,它的研究使得在数据中寻找蕴含规则更加简易,但现实中的信息往往都不是一成不变的,随着时间的推移需要不断地对原有信息进行适当更新。本文主要从粒辨识属性矩阵出发,讨论当所研究的形式背景处于更新状态时,如何由原有的粒协调集更新得到新的粒协调集,并讨论了粒辨识属性矩阵的相关性质。

基于泛系算子的泛系混合并联粗糙集模型

李丽,管涛,林和

2017, 52(7): 22-29. doi:10.6040/j.issn.1671-9352.4.2017.089

摘要 ( 1759 )

PDF (854KB) ( 922 )

参考文献 | 相关文章 | 多维度评价

在泛系混合并联空间概念的基础上,为了操作由任意给定的二元关系对知识进行划分得到的粒子,使用泛系理论的转化思想和转化后的等价关系对目标概念进行近似逼近的方法,提出了基于泛系混合并联等价算子的泛系混合并联粗糙集模型。通过讨论该模型的基本性质,证明了该模型是泛系粗集的一种广义化表现形式。通过实例说明了在不同泛系混合并联等价算子的作用下产生不同知识库的粒子,为深入研究粒度计算提供了一个新的研究方向。

多粒度模糊粗糙近似算子的信任结构与属性约简

胡谦,米据生,李磊军

2017, 52(7): 30-36. doi:10.6040/j.issn.1671-9352.4.2017.130

摘要 ( 1746 )

PDF (808KB) ( 1288 )

参考文献 | 相关文章 | 多维度评价

多粒度是近年来粗糙集领域研究的一个热点方向, 为使多粒度模型更适用于实际数据, 提高模型的可用性, 模糊思想被引入到多粒度粗糙集模型中。本文构建了基于模糊相似关系下的多粒度模糊粗糙集模型, 并建立了模糊信任结构。在该信任结构下根据多粒度模糊粗糙集的上、下近似构造信任函数与似然函数。研究多粒度模糊粗糙集在模糊等价关系下的属性约简, 并给出相关算法。

基于粗糙集的三元概念分析

王霞,张茜,李俊余,刘庆凤

2017, 52(7): 37-43. doi:10.6040/j.issn.1671-9352.4.2017.183

摘要 ( 1653 )

PDF (1387KB) ( 895 )

参考文献 | 相关文章 | 多维度评价

将粗糙集近似算子引入到三元概念分析中,定义了对象定向三元概念和属性定向三元概念。首先,基于三元背景中的三元关系提出了可能性算子和必然性算子,并研究了这两类诱导算子的性质。其次,基于这两类诱导算子定义了对象定向三元概念和属性定向三元概念。最后,构造了三元图更直观地描述对象定向三元概念和属性定向三元概念。

一种基于启发式规则的半监督垃圾评论分类方法

张鹏,王素格,李德玉,王杰

2017, 52(7): 44-51. doi:10.6040/j.issn.1671-9352.1.2016.PC6

摘要 ( 1829 )

PDF (935KB) ( 1390 )

参考文献 | 相关文章 | 多维度评价

互联网业已深入每个人的生活,团购平台、在线商店、在线消费等形式的电子商务平台已成为人们时下最流行的消费方式。几乎所有的电商平台都允许和鼓励用户在消费之后对产品或者服务进行评论,而且用户评论对潜在消费者和商家都具有极高的价值。这使得广告、虚假评论等形式的垃圾评论被人为地夹杂在用户评论中,以期达到虚假宣传、推广产品或者诋毁其他商家信誉的目的。垃圾评论检测和分析便是在这样一种应用背景下,研究如何有效地排除垃圾评论干扰,发挥有效评论价值的方法。针对COAE2015设定的垃圾评论识别任务,利用其提供的语料资源,设计了一种基于启发式规则的半监督垃圾评论分类方法。实验结果证明,提出的方法可以有效地识别垃圾评论,同时能够保持对有效评论的识别精度。

面向情绪分类的情绪词向量学习

杜漫,徐学可,杜慧,伍大勇,刘悦,程学旗

2017, 52(7): 52-58. doi:10.6040/j.issn.1671-9352.1.2016.072

摘要 ( 2271 )

PDF (1291KB) ( 3037 )

参考文献 | 相关文章 | 多维度评价

提出了一种面向情绪分类的融合词内部信息和情绪标签的词向量学习方法。在CBOW模型的基础上,引入词内部成分和情绪标签信息,以适应微博情绪表达的不规范,同时丰富词向量的情绪语义。对于输入文本,按照词的TF-IDF权重对词向量进行加权求和,以作为文本向量表示。以上述词向量或文本向量作为情绪分类器的输入,采用机器学习的分类方法(LR、SVM、CNN),验证本文情绪词向量在情绪分类任务上的实验效果。实验表明,情绪词向量与原始CBOW词向量相比,在准确率、召回率、F值等各项指标上都有更好的表现。

基于语义图优化算法的中文微博观点摘要研究

张聪,裴家欢,黄锴宇,黄德根,殷章志

2017, 52(7): 59-65. doi:10.6040/j.issn.1671-9352.1.2016.PC2

摘要 ( 1777 )

PDF (872KB) ( 1329 )

参考文献 | 相关文章 | 多维度评价

为从海量微博中高效地获取不同话题下的关键信息,微博观点摘要成为自然语言处理领域近期研究的热点之一。基线方法基于TF-IDF算法抽取微博句中的关键词,并据此计算微博的重要性分数,直接筛选出观点摘要;朴素改进方法在基线方法的基础上,增加了情感分类步骤,并利用微博句之间的语义距离,将摘要句候选集中语义重复、重要度较小的句子去除,生成观点摘要;基于语义图优化算法的方法在朴素改进方法的基础上,利用微博句的重要性分数及微博句之间的语义距离构建语义图结构,并通过图优化算法筛选出观点摘要。朴素改进方法在COAE2016评测任务一测试数据集上,10个话题的平均ROUGE-1值达到26.39%,平均ROUGE-2值达到0.68%,平均ROUGE-SU4值达到5.69%,且评测官方公布结果显示,该方法在9项评价指标中获得6项最佳性能。基于语义图优化算法的方法在评测样例数据集上进行了实验,结果显示,该方法比朴素改进方法在ROUGE-1,ROUGE-2,ROUGE-SU4值上分别提升了0.63%, 1.51%, 2.69%。

基于词向量和EMD距离的短文本聚类

黄栋,徐博,许侃,林鸿飞,杨志豪

2017, 52(7): 66-72. doi:10.6040/j.issn.1671-9352.1.2016.123

摘要 ( 2207 )

PDF (1207KB) ( 5069 )

参考文献 | 相关文章 | 多维度评价

短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Movers Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。

基于多特征融合的垃圾短信识别

李润川,昝红英,申圣亚,毕银龙,张中军

2017, 52(7): 73-79. doi:10.6040/j.issn.1671-9352.1.2016.041

摘要 ( 1969 )

PDF (1208KB) ( 1736 )

参考文献 | 相关文章 | 多维度评价

垃圾短信已日益成为影响人们日常生活的严重问题,由于短信属于短文本,长度较短,特征稀疏,尤其是垃圾短信为逃避过滤机制,其结构和内容常常不规范,所以传统的文本特征提取方法并不能完全适用于短信分类。从短信的结构及语义两个角度提取特征项,并建立语义特征词表,采用基于多特征融合的方法来向量化表示短信文本。针对短信数据集中存在的噪声及数据不平衡问题,分别比较了NB、SVM、DT、LR、MLP、RF分类器的性能差别。实验表明,采用RF分类算法,能有效减弱噪声干扰及数据不平衡性所带来的影响。通过在CCF 2015中国好创意竞赛题目“垃圾短信基于文本内容识别”所提供的数据集上进行验证,取得了很好的效果。

微博短文本的情绪分析方法

施寒潇,厉小军,郝腾达,柳虹,朱柳青

2017, 52(7): 80-90. doi:10.6040/j.issn.1671-9352.5.2016.034

摘要 ( 2508 )

PDF (1036KB) ( 2668 )

参考文献 | 相关文章 | 多维度评价

面向微博短文本的情绪分析研究是当前的研究热点。提出了利用依存句法对微博短文本进行分析,抽取关系对,并设计相应的方法用于情感计算,其结果作为特征加入到情绪句判别模型之中;同时设计出情绪句判别规则,在分类模型之前或者之后利用规则进行预处理或者后处理,提高情绪句的判别正确率;最后使用NLP&2013中文微博数据,通过实验证明研究方法的有效性,在性能指标上相比评测最好成绩有了进一步提高。

基于双通道LSTM的用户年龄识别方法

陈敬,李寿山,周国栋

2017, 52(7): 91-96. doi:10.6040/j.issn.1671-9352.1.2016.019

摘要 ( 1525 )

PDF (1440KB) ( 1199 )

参考文献 | 相关文章 | 多维度评价

传统的年龄回归方法不能学习深层次信息,因此利用能充分挖掘上下文关系信息的深度学习方法来识别用户的年龄。具体而言,提出了一种基于LSTM的年龄回归方法,其能够学习长期依赖关系即建立输入值之间的长相关联系。采用了两种不同的特征,即文本特征和社交特征。为了有效地区分这两种特征,充分利用这两种特征之间的信息,进一步提出了基于双通道LSTM的年龄回归方法,具体实现是在神经网络中加入Merge层,将LSTM分别产生的文本特征表示和社交特征表示结合进行集成学习以充分学习文本特征和社交特征间的联系。实验结果表明,基于双通道LSTM的年龄回归方法能够有效地区分文本特征和社交特征,并且较单个LSTM方法能够取得更好的年龄回归性能。

基于网络距离和内容相似度的微博社交网络社区划分方法

张中军,张文娟,于来行,李润川

2017, 52(7): 97-103. doi:10.6040/j.issn.1671-9352.1.2016.007

摘要 ( 1912 )

PDF (1264KB) ( 1147 )

参考文献 | 相关文章 | 多维度评价

现有的微博社交网络社区挖掘方法多是基于网络结构进行,忽略了节点本身行为的重要性,并且不能同时实现对大规模复杂网络结构适应性和社区挖掘的高效性。为缓解上述问题,提出了一种基于网络距离和内容相似度的微博社交网络社区划分方法,该方法在考虑微博社交网络结构的同时兼顾了网络中节点的历史微博内容,通过对历史微博数据的分析提高社区划分的精确度。文中对Louvain算法和其模块性的修改使用,保证了该方法能够处理大规模网络数据,同时又能保证社区挖掘的效率。实验证明,该方法能够高效地挖掘微博网络社区结构,对学术研究和商业应用都有十分重要的意义。

一种同态密文域可逆隐藏方案

丁义涛,杨海滨,杨晓元,周潭平

2017, 52(7): 104-110. doi:10.6040/j.issn.1671-9352.2.2016.212

摘要 ( 1785 )

PDF (2570KB) ( 1159 )

参考文献 | 相关文章 | 多维度评价

利用Paillier加密的加法同态性质,构造了一个密文域可逆隐写方案。图像拥有者对图像进行预处理,为嵌入消息预留空间,尔后用图像接收者的公钥对图像进行Paillier加密并发送给消息嵌入者;消息嵌入者在接收到密文图像后,利用密钥解密部分信息并将要潜入信息的密文与原图像的密文进行一个同态密文操作;接收者在接收到密文图像后,利用私钥对其进行解密,得到均衡化后的图像,若接收者拥有提取密钥,则可以利用提取算法对消息进行提取并恢复出原始图像。通过MATLAB实验验证了该方案的正确性和良好的嵌入率。

当期目录