赵亚慧
- 作品数:68 被引量:101H指数:5
- 供职机构:延边大学更多>>
- 发文基金:国家语委科研项目吉林省高等教育教学研究课题吉林省科技发展计划基金更多>>
- 相关领域:自动化与计算机技术文化科学轻工技术与工程文学更多>>
- 基于编辑距离的中文机构名简称检索方法研究被引量:1
- 2010年
- 文章针对基于中文机构名简称的检索方法,研究了机构名的结构特征,提出了中文机构名简称和全称匹配的一种新算法的应用,通过计算中文机构名简称与机构名全称的编辑距离,达到快速检索目标机构的目的。仿真实验结果表明:所提的方法准确性较好,首选准确率较高,达到了适用要求。
- 赵亚慧
- 关键词:文本分类分词算法
- 一种快速的随机分块文本检索算法
- 2010年
- 针对向量空间模型(VSM)在信息检索中存在脱离上下文语境的缺陷,提出一种新的随机分块文本检索算法。该算法利用潜在语义分析技术在低维空间中对检索文本与待检索文本的各个段落进行投影,使用SVD技术对其进行了降维处理,得到文本特征,然后依据该文本特征进行相似的匹配,获得检索结果。由于充分考虑了文本的上下文语义信息,算法能够有效提高检索效率。实验结果表明,该算法在检索时间、查准率、召回率及综合性能等方面均得到较好的效果。
- 赵亚慧刘金广崔荣一
- 关键词:向量空间模型文本相似度
- 高校教学质量定量评价系统的研究被引量:2
- 2017年
- 本文介绍了构建高校教师教学质量定量评价指标体系及其量化处理方法以及教学质量智能化定量评价系统的研究和实现方法,探索了发现可测因素对教学质量的评价所具有的有效性的技术途径,所获成果对教学质量的科学评价具有重要的实践意义。
- 赵亚慧崔旭崔荣一
- 关键词:人工神经网络
- 基于机器学习的高考信息与大学程序设计课程成绩相关性分析研究被引量:1
- 2020年
- 为研究学生高考信息与计算机程序设计课程(C语言)成绩的相关性,提出了一种基于随机森林算法的相关性预测与分析模型.首先,对2014—2016年延边大学计算机科学与技术专业的学生相关数据进行了清洗和筛选,并将C语言考试成绩分成5类;其次,将学生的高考信息作为特征训练随机森林分类模型;最后,使用LIME解释性模型对影响随机森林的主要特征进行了相关性分析.实验结果表明,影响C语言成绩的主要特征为生源、总成绩、民族、数学和语文.该研究结果可有效识别不同学生学习成绩的主要相关因素,为教师针对不同学生群体设计合理教学模式提供参考依据.
- 金城崔荣一赵亚慧
- 关键词:影响因素决策树
- 跨语言文献相似度的分析方法被引量:2
- 2016年
- 对不同语言的句对齐文献资料进行分析,提出了基于多语主题模型的跨语言文献相似度的计算方法.首先,对收集整理的不同语言(中文、英文、韩文)文献构建数据模型,通过分词、分词结果修正及选择、词权重计算等预处理工作构造词项-文档矩阵.其次,建立多语主题语义空间,将译成3种不同语言的文献映射到语义空间,在语义空间中每一主题都由3种语言构成.最后,通过其语义空间中对应的主题计算比较不同语言间的文献相似度.实验结果显示,不同语言之间的文献相似度可以直接在语义空间中计算,且相似度计算的准确性在90%以上,验证了本文方法在跨语言文献相似度计算时的有效性.
- 刘娇崔荣一赵亚慧张振国
- 关键词:跨语言语义相似度
- 基于多粒度表征的朝汉神经机器翻译方法
- 本发明公开了基于多粒度表征的朝汉神经机器翻译方法,包括:采集朝鲜语语料的文本数据并进行预处理,获得语料文本数据的多粒度序列表示;构建神经机器翻译模型,基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译,获得目...
- 赵亚慧金晶崔荣一金国哲张振国李德李飞雨姜克鑫王苑儒刘帆夏明会鲁雅鑫赵晓辉
- 基于共现词映射的中英韩跨语种文档相似度计算
- 2018年
- 该文采用中英韩跨语种文本数据研究不同语种文档间相似度的计算方法。首先,通过共现词映射将某语种空间中的文档向量表示成另一语种空间中的文档向量;其次,利用潜在语义分析补充了不同语言间一词多义现象造成的向量缺失;最后,在具有等价语义信息的同一语种空间中计算了两个文档之间的余弦相似度。该文工作避开了外部词典和知识库,利用中英韩三个语种的对齐语料库,建立了不同语种词汇间的对应关系。结果表明,共现词映射对计算不同语种文档之间的相似度具有较大影响,对同语义的不同语种文档(即译文)的检索准确率达到95%,验证了该方法的有效性。
- 刘娇崔荣一赵亚慧
- 关键词:潜在语义分析
- 基于机器学习的高校毕业论文课题信息分析方法被引量:2
- 2021年
- 为协助教师详细了解毕业论文的课题分布情况,指导学生合理选择毕业论文课题,提出了一种基于机器学习的高校毕业论文课题信息分析方法.首先,对收集的论文课题信息文本进行规范化、去重、删除无关数据、分词等预处理,并通过人工筛选建立专业术语词典;其次,基于逆文档频率和专业术语确定特征词,利用TF-IDF算法和专业术语因子计算特征词的权重并构造归一化文档向量;最后,采用DBSCAN算法进行聚类,并采用Rand指数进行聚类评价,以此提取出Top-K高频特征词,并将其作为类簇描述的关键词.实验结果表明,该方法可有效分析论文课题内容的分布情况,进而为评价和设计毕业论文课题提供有效的依据.
- 李路军赵云崔荣一赵亚慧
- 关键词:文本聚类DBSCAN聚类算法
- 基于自联想记忆与卷积神经网络的跨语言情感分类被引量:3
- 2018年
- 该文提出了一种以商品评论为对象的基于语义融合的跨语言情感分类算法。该算法首先从短文本语义表示的角度出发,基于开源工具Word2Vec预先生成词嵌入向量来获得不同语言下的信息表示;其次,根据不同语种之间的词向量的统计关联性提出使用自联想记忆关系来融合提取跨语言文档语义;然后利用卷积神经网络的局部感知性和权值共享理论,融合自联想记忆模型下的复杂语义表达,从而获得不同长度的短语融合特征。深度神经网络将能够学习到任意语种语义的高层特征致密组合,并且输出分类预测。为了验证算法的有效性,将该模型与最新几种模型方法的实验结果进行了对比。实验结果表明,此模型适用于跨语言情感语料正负面情感分类,实验效果明显优于现有的其他算法。
- 刘娇崔荣一赵亚慧
- 关键词:自联想记忆词共现卷积神经网络
- 基于自动机的用户名合法性检测方法
- 2022年
- 针对现有方法检测用户名合法性效率较低的问题,提出了一种基于自动机的用户名合法性检测模型.该模型利用映射函数对用户名字符串进行映射,以此实现由字符串向映射串的转化;利用构造的计数自动机实现对映射串的合法性检测.研究表明,该模型具有检测效率高、性能稳定等优点,因此该方法可应用于用户名合法性的检测中.
- 刘帆赵亚慧崔荣一
- 关键词:自动机理论自动机用户名同态映射