高爽
- 作品数:11 被引量:16H指数:2
- 供职机构:山东师范大学更多>>
- 发文基金:山东省自然科学基金国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文学文化科学更多>>
- 通过网页多视图数据关联组合识别垃圾网页的方法
- 本发明涉及一种通过网页多视图数据关联组合识别垃圾网页的方法。它首先提取已标记网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法,获取内...
- 张化祥高爽
- 基于多视图典型相关分析的垃圾网页检测被引量:4
- 2013年
- 首先将垃圾网页特征分为两个不同的视图,即基于内容特征的视图和基于链接特征的视图,利用典型相关分析及其相关改进方法进行特征提取,生成两组新的特征;再对新生成的两视图特征采用不同组合方式产生单视图数据,并用这组数据作为训练数据构建分类算法。实验结果表明,将垃圾网页看成两视图数据,并应用多视图典型相关分析技术,可有效提高垃圾网页的识别精度。
- 高爽张化祥房晓南
- 关键词:特征抽取
- 通过网页多视图数据关联组合识别垃圾网页的方法
- 本发明涉及一种通过网页多视图数据关联组合识别垃圾网页的方法。它首先提取已标记网页的内容特征数据及超链接特征数据,分别称为内容视图及链接视图,并表示为已标记网页的内容矩阵和链接矩阵;利用典型相关分析及其相关改进方法,获取内...
- 张化祥高爽
- 文献传递
- 原初体验与萧红小说
- 生命的内容以体验的世界得以呈现,因而,文学的深度在一定程度上是作家体验的深度。丰富的人生历程会影响作家的创作,对一生短暂但经历曲折的萧红而言尤是如此。本论文提出从“原初体验”这一新的生命体验视角来研究萧红,试图全面地概括...
- 高爽
- 关键词:小说创作主流话语
- 多视图学习在垃圾网页检测中的应用研究
- 现在网络极大地改变了人们表达自己和与他人互动的方式,已经成为最主要的信息检索方式。正因如此,向HTML页面或其他网络文件添加信息也变得越来越容易,同时用户就会更难分辨准确和不准确的信息或可信赖和不可靠的信息,因此创建一个...
- 高爽
- 关键词:垃圾网页支持向量机
- 文献传递
- 基于独立成分分析和协同训练的垃圾网页检测
- 高爽张化祥房晓南
- 文献传递
- 基于生活观察的初中记叙文写作教学策略研究
- 写作是学生联系生活、表达想法的重要载体,写作的过程就是学生对生活、世界再认识和再创造的过程。结合课程标准对于初中写作教学的目标与要求,“写作要有真情实感”“多角度观察生活,能抓住事物特征”“写记叙性文章,表达意图明确,内...
- 高爽
- 关键词:初中语文记叙文写作教学策略
- 文献传递
- 基于组对深度特征学习的多视图三维模型检索方法及系统
- 本发明公开了基于组对深度特征学习的多视图三维模型检索方法及系统,包括:获取待检索三维模型不同角度的二维视图,提取每一个二维视图的初始视图描述符;对上述的多个初始视图描述符进行聚合,获得最终的视图描述符;分别提取最终的视图...
- 刘丽陈秀秀张龙张化祥高爽刘冬梅
- 基于独立成分分析和协同训练的垃圾网页检测被引量:1
- 2013年
- 垃圾网页检测具有重要意义,由于只有少量标记网页,所以可使用半监督协同训练方法检测垃圾网页。将网页特征分为两个视图,即内容视图与链接视图。首先使用独立成分分析分别提取两视图特征的独立成分,然后进行协同训练。实验结果表明,该方法可有效提高垃圾网页检测精度,同时验证了对两个视图分别进行独立成分分析相比于其他方法更为有效。
- 高爽张化祥房晓南
- 基于SMOTE和随机森林的Web spam检测被引量:12
- 2013年
- Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先使用SMOTE过抽样方法平衡数据集,再利用随机森林算法训练分类器。通过对常见的单分类器和集成学习分类器的对比实验,发现SMOTE+RF方法表现较为突出,并根据实验结果优化了方法中的重要参数,对使用SMOTE方法后AUC值提高的原因进行了分析。在WEBSPAM UK2007数据集上的实验证明,该方法可以显著提高分类器的分类效果,其AUC值已经超过了Web Spam Challenge 2008上的最好成绩。
- 房晓南张化祥高爽
- 关键词:SMOTE搜索引擎作弊