《山东大学学报(理学版)》

网页作弊与反作弊技术综述

李智超,余慧佳,刘奕群,马少平

2011, 46(5): 1-8.

摘要 ( 1599 )

PDF (775KB) ( 1534 )

相关文章 | 多维度评价

随着网络信息爆炸式的增长,搜索引擎成为人们首选的获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置,将在一定程度上决定网页的访问量。一些网站并不是通过提高网页质量来提高其在搜索引擎中的排名,而是根据搜索引擎自身的特点,采用欺骗手段来提高排名,这就是网页作弊。网页作弊是搜索引擎面临的重大挑战之一。本文将结合常见的网页作弊的方法,阐述当前已经存在的比较有效的反作弊技术。

协同Web搜索综述

孙静宇,陈俊杰,余雪丽,李鲜花

2011, 46(5): 9-15.

摘要 ( 1202 )

PDF (633KB) ( 889 )

相关文章 | 多维度评价

目前,协同Web 搜索的研究处在探索阶段,研究问题和方向尚不够清晰。为此,本文在回顾协同Web搜索的提出与分类基础上,总结了目前有关协同Web搜索的理论研究和实践,进而指出了目前研究存在的问题与不足,并展望了未来的研究方向。

产品评论挖掘研究综述

郗亚辉,张明,袁方,王煜

2011, 46(5): 16-23.

摘要 ( 1208 )

PDF (582KB) ( 1107 )

相关文章 | 多维度评价

描述了产品评论挖掘的基本概念,介绍了产品评论挖掘工作的一般框架,将产品评论挖掘划分为4个子任务,介绍了国内外学者对每个子任务的研究成果,并给出了该领域进一步的研究方向。

面向分布式搜索引擎的索引库动态维护算法

曾剑平,吴承荣,龚凌晖

2011, 46(5): 24-27.

摘要 ( 1372 )

PDF (467KB) ( 683 )

相关文章 | 多维度评价

分布式搜索引擎在实际运行中存在大量的用户,同时索引更新频繁,而索引更新过程的复杂度使得用户的检索请求响应出现较大的延迟。本文提出一种基于内存映射表的索引库动态维护算法,按照一定时间粒度组织索引库,在内存中维护一个当前可用的子索引库列表,实现索引的透明更新。实验表明,该算法能够保证及时地对新数据建立索引,同时有效降低用户检索请求的响应时间。

基于非结构化P2P网络用户模型的协同过滤推荐机制

刘健1,尹春霞2*,原福永3

2011, 46(5): 28-33.

摘要 ( 1246 )

PDF (498KB) ( 783 )

相关文章 | 多维度评价

协同过滤是当前应用在信息推荐系统中最成功的技术之一。但随着用户数量和所需过滤信息的增加,计算复杂度迅速增长,大多数推荐系统都因集中式的体系结构而面临可扩展性差的问题。本文提出了一种基于非结构化P2P网络的协同过滤推荐机制,采用基于词汇链的方法构建资源对象描述向量,建立由偏好资源对象集合构成的用户模型,并且根据用户的兴趣变化,通过动态邻居重组的方法获得实时的个性化推荐。实验数据表明采用基于非结构化P2P网络的协同过滤推荐机制较传统集中式推荐方案有更好的可扩展性和预测准确性。

Web数据的深度定向采集

夏天1,2

2011, 46(5): 34-38.

摘要 ( 1093 )

PDF (750KB) ( 620 )

相关文章 | 多维度评价

通过模拟人类访问网页的浏览行为,提取定向爬行子页面集限定爬虫的爬行方向;引入页面继承关系,并通过爬行条目的属性继承实现跨页面复合对象的数据关联关系;设计实现了支持深度定向采集的通用爬行流程。面向天涯热帖的舆情采集实验结果表明:该方法可以在整体处理流程不变的前提下,实现复杂对象的数据采集,并具有较高的采集效率。

基于信任和信息流模型的隐私保护方法

高枫1,何泾沙2

2011, 46(5): 39-43.

摘要 ( 1259 )

PDF (870KB) ( 757 )

相关文章 | 多维度评价

目前基于信任的隐私保护方法将信任等级与隐私信息敏感等级简单进行映射以控制隐私信息的披露,所以不能反映信任和隐私信息的动态性和上下文相关性等特点。为解决此问题,提出一个基于信任的信息流模型,并分析证明了该模型是合理和安全的。结合该模型和隐私信息访问粒度控制,进一步提出了一种基于信任和信息流模型的隐私保护方法,该方法将信任运用在隐私保护中,能有效实现对隐私信息安全的保护。

基于HITS算法的查询结果多样化方法

陈飞，张敏，刘奕群，马少平

2011, 46(5): 44-48.

摘要 ( 1306 )

PDF (944KB) ( 840 )

相关文章 | 多维度评价

现有的查询结果多样化研究很难准确得到用户多样性需求并提供与用户查询各个方面需求相关的文档。针对这个问题，本文基于HITS算法的网页间链接分析特性，根据网页链接图直接计算查询结果列表中的文档可能满足用户多样性需求的程度，并将其应用到结果列表的重排序中以实现搜索结果多样性。在TREC大规模数据集合上的实验结果表明了该方法的有效性。

基于用户兴趣及术语间关系的查询扩展方法

徐建民1,3,陈振亚2,崔琰3

2011, 46(5): 49-53.

摘要 ( 1158 )

PDF (517KB) ( 821 )

相关文章 | 多维度评价

针对传统查询扩展方法无法根据不同用户的需求进行检索的不足,提出一种基于用户兴趣和术语间关系进行查询扩展的方法。通过对用户浏览的网页文档及得到的网页日志进行挖掘得到一系列代表用户兴趣的术语,根据与初始查询词存在同义关系的用户兴趣术语及其权重对初始查询词权重进行调整,利用兴趣术语中与初始查询词存在本体关联关系的术语对初始查询进行扩展。实验结果表明,该方法相对于传统查询扩展方法在一定程度上提高了信息检索的查全率和查准率。

基于Markov网络团的信息检索扩展模型

石松1,王明文1,涂伟2,何世柱1

2011, 46(5): 54-57.

摘要 ( 1241 )

PDF (609KB) ( 799 )

相关文章 | 多维度评价

全局分析方法是一种常用而能有效改善信息检索效果的查询扩展方法。通过计算词间相似度构造Markov网络模型;然后由此模型加强候选词集中的词相关性描述,并提取了在Markov网络中词间的团结构;通过在查询中加入查询词所在团中的其他候选词进行查询扩展。实验表明基于Markov网络团的信息检索模型的检索效果优于基于一般的相似性矩阵查询扩展的检索效果;基于团提取方法的查询扩展的检索效果优于普通的基于提取方法的查询扩展检索效果。

结合相关类别信息的大规模文本层次分类研究

何世柱,王明文,周军军,石松

2011, 46(5): 58-62.

摘要 ( 1179 )

PDF (1338KB) ( 667 )

相关文章 | 多维度评价

深层分类模型是一种解决大规模文本层次分类问题的有效范式。本文基于该范式提出一种改进型模型,首先将一种新方法用于单独评价搜索阶段的效果;然后利用类别和文档信息共同选择候选类别;最后基于类中心训练Rocchio分类器,同时利用相关类别的分类结果确定最终类别。在ODP数据集上的实验表明,相对于最新型的深层分类方法,该模型具有一定优势。

融合显著区域和非下采样Contourlet变换的图像检索方法

张慧云,张新明,李双,郭文鹭

2011, 46(5): 63-66.

摘要 ( 1006 )

PDF (827KB) ( 529 )

相关文章 | 多维度评价

为了提高图像的检索性能,基于显著区域直方图和非下采样Contourlet变换技术，提出了一种图像检索新方法。首先,以兴趣点为基础实现图像显著区域和背景区域的划分,并提取这两个区域的直方图作为颜色特征;其次,对图像进行非下采样Contourlet分解,获得高频子带的均值和方差作为图像的纹理信息;最后,将得到的颜色特征和纹理信息有机结合对图像进行检索。实验结果表明,该方法性能稳定,具有较高的检索效率。

基于Apriori算法的Deep Web网页关系挖掘研究

李贵,韩子扬,郑新录,李征宇

2011, 46(5): 67-70.

摘要 ( 1241 )

PDF (925KB) ( 696 )

相关文章 | 多维度评价

利用Apriori算法对Deep Web网站中最大频繁关联关系网页进行识别,并对非最大频繁项网页进行剪枝,再遍历Deep Web网站网页,从而获取所有最大频繁关联关系网页。对某房地产Deep Web网站的实验结果验证了该算法的可行性和有效性。

基于聚类的垃圾邮件识别技术研究

蒋盛益1,庞观松2,张建军3

2011, 46(5): 71-76.

摘要 ( 1446 )

PDF (787KB) ( 864 )

相关文章 | 多维度评价

随着垃圾邮件数量日益攀升,如何有效识别垃圾邮件已成为一项非常重要的课题。为克服k最近邻(k-nearest neighbor, kNN) 分类法在垃圾邮件识别中的缺陷,本文基于聚类算法提出了一种改进kNN识别方法。首先使用基于最小距离原则的一趟聚类算法将训练邮件集合划分为大小几乎相同的超球体,每个超球体包含一个类别或多个类别的文本;其次，采用投票机制对得到的聚类结果进行簇标识,即以簇中最多文本的类别作为簇的类别,得到的识别模型由具有标识的簇组成;最后,结合最近邻分类思想,对输入的邮件进行自动识别。实验结果表明,该方法可大幅度地降低邮件相似度的计算量,较TiMBL、Naïve Bayesian、Stacking等算法效果要好。同时,该方法是一种可增量式更新识别模型的方法,具有一定的实用性。

面向电信的客户流失预测模型研究

蒋盛益1,王连喜2

2011, 46(5): 77-81.

摘要 ( 1182 )

PDF (778KB) ( 1298 )

相关文章 | 多维度评价

针对现有客户流失预测模型预测准确率低下的问题,本文结合基于统计学习的客户聚类分析和分类预测技术来构建客户流失预测模型。根据模型计算结果,可以辨别出客户类别及流失倾向,并在此基础上提出了预防客户流失的保持措施,从而为电信企业运营商的客户关系管理提供决策依据。

面向相关多敏感属性的隐私保护方法

李立,袁方,郗亚辉

2011, 46(5): 82-85.

摘要 ( 1188 )

PDF (349KB) ( 1035 )

相关文章 | 多维度评价

将现有的敏感属性隐私保护方法直接应用于相关多敏感属性的隐私保护中会导致隐私数据的泄漏。本文借鉴有损连接对隐私数据进行保护的思想,对表中的记录进行聚类,保证了关系表中的记录按敏感等级划分。其次,对已划分的记录按照频率比较策略进行分组,提出了一种基于聚类的相关多敏感属性数据分组算法。实验结果表明该算法可以有效地防止隐私泄露,增强了数据发布的安全性。

动态网络中基于局部介数的重叠社区发现算法

王莉,张景阳,徐李恒

2011, 46(5): 86-90.

摘要 ( 1216 )

PDF (915KB) ( 646 )

相关文章 | 多维度评价

针对现有静态网络社区发现算法的失真和动态网络社区发现算法时间复杂度较高的问题,本文提出了一种动态网络中的重叠社区发现算法。在网络中，边介数最大的边或分割介数最大的节点是网络中的关键边或点，即联系最不紧密的边或节点,因此，该算法利用去除最大边介数的边和分裂最大分割介数的节点的方法,并将网络社区的动态变化和重叠性考虑在内进行社区发现。最后利用模块度对社区发现进行控制,使发现的社区结构更加合理。

基于物种的自适应多模态粒子群优化算法

刘宇,吕明伟,李维佳,李文涛

2011, 46(5): 91-96.

摘要 ( 1092 )

PDF (523KB) ( 612 )

相关文章 | 多维度评价

通过对粒子群优化问题、小生境技术和多模态粒子群优化算法的深入研究,提出了一种自适应的多模态粒子群优化算法——ASPSO(adaptively species-based particle swarm optimization)。对ASPSO算法进行了综合测试,并与经典的多模态粒子群优化算法ANPSO和SPSO进行了比较。实验表明,ASPSO在处理低维测试函数与ANPSO和SPSO具有同样高的成功率和峰值覆盖率,并且ASPSO在处理高维复杂测试函数时,表现出的性能比其他已经存在的多模态粒子群优化算法更好。

一种求解属性约简优化的协同粒子群算法

丁卫平1,2,3,王建东2,段卫华2,施佺1

2011, 46(5): 97-102.

摘要 ( 1111 )

PDF (680KB) ( 559 )

相关文章 | 多维度评价

针对粗糙属性约简优化问题,利用粒子群寻求最优解的优势,提出一种改进的粗糙集属性约简优化的协同粒子群算法(AR-CPSO)。在最优属性寻求过程中,该算法使粒子群在属性空间通过约简集向量的分解和邻域簇的协同学习提高其寻优能力,并利用自适应约束强化罚函数较好地收敛到最优目标属性约简集。该算法能始终保持种群的多样性、协作性,并避免过早地陷入局部最优。相关仿真实验表明,AR-CPSO算法能有效地找到全局最优属性约简集,具有较强的属性协同约简优化性能。

模糊知识中否定知识处理的一种改进的集合描述

张胜礼1,潘正华2

2011, 46(5): 103-109.

摘要 ( 1106 )

PDF (464KB) ( 676 )

相关文章 | 多维度评价

模糊知识中的否定关系可分为矛盾否定关系、对立否定关系和中介否定关系,FScom是区分这3种否定关系的模糊集。本文在此基础上,对模糊知识及其各种否定的集合描述进一步研究,提出了一种改进的模糊集IFScom,并讨论了IFScom的特征、运算及相关性质。

一种主动式的半监督最近邻学习方法

杨洋,王立宏*，刘其成

2011, 46(5): 110-115.

摘要 ( 1244 )

PDF (2872KB) ( 677 )

相关文章 | 多维度评价

同时使用标号点和成对约束信息,设计了半监督的最近邻分类算法。为了解决可能无法为某些数据点分配类标号的问题,提出了ratio排序方法以降低冲突点的个数，并采用基于Citation-kNN评分的主动式学习策略,通过获取一些与周围数据点不一致的点的标号来改善半监督学习的效果,以寻找有价值的监督信息。实验结果表明,本文的学习策略可以提高算法的聚类效果,其CRI指标好于COP-kmeans和CCL算法。

大豆外源基因转化体系建立及条件优化研究

姬丹丹,王鹏,向凤宁*

2011, 46(5): 116-122.

摘要 ( 1235 )

PDF (1593KB) ( 524 )

相关文章 | 多维度评价

建立了适用于多个大豆品种的萌动胚真空渗透辅助的外源基因转化方法,对影响农杆菌介导转化的有关参数进行了比较研究。确定的优化条件为:预培养3d,在菌种活化液的OD600值为0.6并加以200μmol·L^-1乙酰丁香酮的农杆菌菌种活化液,侵染时间为6h,共培养3d。在优化条件下,将携带GUS基因的35S启动子驱动的表达载体pCAMBIA1304的根癌农杆菌菌株GV3101分别转入鲁豆11和潍6823中,获得510株鲁豆11再生植株和591株潍6823再生植株,其中,抗性再生植株分别为444株和462株。通过PCR和GUS检测,证明分别获得了13株和15株转基因植株,转化率分别为2.2％和2.5％。

应用Hill-Marty推论对异构多核处理器设计的分析

边栋,曾鸣,曾凡太

2011, 46(5): 123-126.

摘要 ( 1148 )

PDF (478KB) ( 766 )

相关文章 | 多维度评价

利用Hill-Marty的多核处理器加速比的推论(芯片中用于共享缓存、互连网络和内存控制器等片上资源不考虑在内),在异构多核处理器中的强内核和弱内核分别与同构多核处理器中的内核性能相同的情况下,计算得出使得异构多核处理器比同构多核处理器性能更优的等价基本核的结构分配方式,从而提出了最优的异构多核处理器核结构配比的设计方案。

当期目录