合肥学院计算机科学与技术系网络与智能信息处理重点实验室
- 作品数:8 被引量:24H指数:3
- 相关机构:中国科学院合肥智能机械研究所内蒙古大学计算机学院(软件学院)内蒙古大学蒙古学学院更多>>
- 发文基金:国家自然科学基金安徽省高校省级自然科学研究项目教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术一般工业技术更多>>
- 基于向量空间模型的网页文本句子对齐方法研究
- 张贯虹乌达巴拉巩政
- 关键词:句子对齐向量空间模型蒙古文中文
- 基于信息熵的不完备数据特征选择算法被引量:5
- 2014年
- 在分析已有不完备信息熵的基础上,提出一种基于相似关系的不完备信息熵,并证明该信息熵的若干性质.给出一个不完备数据特征选择算法,算法以改进的不完备信息熵作为特征选择准则,直接对不完备数据的特征进行熵值分析,并采用顺序前向浮动选择方法解决特征间的相关性问题.最后在UCI实测数据集上的实验表明,文中算法具有更高的准确率和更快的特征选择速度.
- 陈圣兵王晓峰
- 关键词:不完备数据不完备决策表
- 智能公交中基于条件映射的到站时间预测算法被引量:2
- 2012年
- 针对传统公交车到站时间预测算法精度较低的问题,提出一种利用条件映射进行时间预测的模型。在兼顾拟合度和泛化能力的同时,模型直接将交通信息映射为到站所需时间。采用基于范例的推理技术,给出条件映射预测模型的实现算法,并用实测数据对预测算法进行比较。实验结果表明,在正常时段和高峰期,该算法的预测精度分别为100%和85%,平均误差分别为13 s和30.5 s。
- 陈圣兵李正茂王晓峰
- 关键词:智能公交
- 基于向量空间模型的网页文本句子对齐方法研究
- 平行网页文本中除了互为对照的内容,还存在一 些无关的噪声,因此利用网页结构相似的方法解决平行网 页中句对齐问题受到一定的限制.通过引入互译词典或同 类词典的方法可以提高句对齐质量,但是双语词典的规模 是有限的,不能覆盖所...
- 关键词:句子对齐向量空间模型蒙古文中文
- 文献传递网络资源链接
- 基于判别式模型的蒙英词对齐方法被引量:1
- 2012年
- 词对齐是自然语言处理领域的基础性研究课题之一.文中提出基于链式条件随机场(CRF)判别式模型的蒙古文-英文词对齐方法.该方法根据蒙古文和英文之间的差异,选择词形、词汇、词性等信息作为特征,建立双层CRF词对齐模型:在第1层利用CRF模型实现子块的对齐;在第2层利用CRF模型得到块内词之间的对齐结果.通过人工构建的词对齐语料开展相应实验.实验结果表明,该方法有效提高蒙英词对齐质量.
- 张贯虹乌达巴拉巩政
- 关键词:词对齐语言特征
- 基于样本差异度的SVM训练样本缩减算法被引量:6
- 2012年
- 为了对大规模训练样本进行缩减,提出了k近邻向量,给出了一种新的样本差异度的计量方法,证明了该差异度关于噪声识别和类边界距离的几个性质。依据此性质提出了一个高效的SVM训练样本缩减算法,算法首先根据样本差异度的性质剔除噪声样本,然后用类间差异度近似表示类边界距离,结合样本相似性,直接从原始样本空间剔除次要的训练样本。仿真结果表明,减样算法可以有效缩减样本,提高训练效率。
- 陈圣兵王晓峰
- 关键词:去噪支持向量机
- 基于向量空间模型的网页文本句子对齐方法研究
- 张贯虹乌达巴拉巩政
- 关键词:句子对齐向量空间模型蒙古文中文
- 融合形态特征的最大熵蒙古文词性标注模型被引量:10
- 2011年
- 最大熵模型以其能够较好地包容各种约束信息及与自然语言模型相适应等优点在词性标注研究中取得了良好的效果.因此,将其作为基本框架,提出了一种融合语言特征的最大熵蒙古文词性标注模型.首先,根据蒙古文构词特点及统计分析结果,定义并选取特征模板,利用训练语料提取了大量的候选特征集合,针对错误或者无效的特征通过设置一些规则筛选特征.然后,训练最大熵概率模型参数.实验结果表明,融合蒙古文形态特征的最大熵模型可以较好地标注蒙古文.
- 张贯虹斯.劳格劳乌达巴拉
- 关键词:最大熵模型蒙古文词性标注参数估计