公共文化服务平台

首都师范大学中国语言智能研究中心: 作品数：24 被引量：54H指数：4; 相关机构：中国科学院计算机网络信息中心电子科技大学计算机科学与工程学院北方工业大学信息工程学院更多>>; 发文基金：国家自然科学基金国家社会科学基金国家语委科研项目更多>>; 相关领域：自动化与计算机技术文化科学语言文字更多>>

合作机构

DPENet:轻量化文档姿态估计网络被引量：1: 2022年; 现有的用于矫正透视倾斜变形文档的深度学习模型存在空间泛化性差、模型参数量大、推理速度慢等问题。从姿态估计的角度出发,提出一种轻量化文档姿态估计网络DPENet(lightweight document pose estimation network),以优化上述问题。将文档图像中的单一文档视为一个姿态估计对象,将文档的四个角点视为文档对象的四个姿态估计点,采用兼具全连接回归与高斯热图回归优点的DSNT(differentiable spatial to numerical transform)模块实现文档图像角点的高精度定位,并通过透视变换处理实现透视变形文档图像的高精度矫正。DPENet采用轻量化设计,以面向移动端的MobileNetV2为主干网络,模型体量只有10.6 MB。在SmartDoc-QA(仅取148张文档图像)数据集上与现有的三种主流网络进行了对比实验,实验结果表明,DPENet的矫正成功率(96.6%)和平均位移误差(mean displacement error,MDE)(1.28个像素)均优于其他三种网络,同时其平均矫正速度也有良好的表现。在保持轻量化和速度快的条件下,DPENet网络具有更高的变形文档矫正成功率和矫正精度。; 韩晶吕学强张祥祥郝伟张凯

语言智能技术发展与语言数据治理技术模式构建: 2022年; 当前人类社会正处于从信息时代到智能时代的过渡期,智能技术给人类生活带来了深远影响和美好前景。在人类不断探索智能技术的过程中,数据资源的重要性日益凸显,数据“管理”也逐渐走向数据“治理”。这意味着以语言符号体系为基础构成的各种数据将在开放的视野中被重新审视。语言智能、语言数据治理均以语言符号为起点。; 张凯薛嗣媛周建设; 关键词：智能技术语言智能数据资源语言符号信息时代

聚类标注和多粒度特征融合的基金新闻分类: 2024年; 针对人工标注类别耗时耗力、效率低,以及现有文本分类方法忽略词语、句子之间关系,未对文本分类关键特征赋予更高权重等问题,提出了一种基于聚类加权标注和多粒度特征融合的基金新闻分类方法.基于聚类加权的类别标注算法将K-Means和DBSCAN的聚类结果进行加权计算并自动标注基金文本数据,辅以少量人工校对,为后续基金新闻分类提供数据支撑.多粒度特征融合的分类算法首先从词粒度出发构建停用词表、扩展词典;其次从句粒度出发抽取新闻摘要,捕捉更具有语义关联的文本信息;最后将多头注意力机制嵌入BERT模型,对关键特征赋予更高权重,以提高分类的准确性.本文从多个角度进行了充分地实验,该方法具有高效的处理能力和有效性,其分类精确率可达到95.21%,优于现有方法.; 胡菊香吕学强吕学强周建设; 关键词：多粒度文本分类

像素特征与粘连人体分割结合的人数统计方法被引量：1: 2019年; 针对类似电影院、教室之类的人体间遮挡较少的场景,提出一种像素特征与粘连人体分割相结合的人数统计方法,为更好地处理粘连人体的分割问题,提出归一化距离度量的聚类算法与基于动态掩膜的投影法。当区域内人员较少时,通过建立区域内归一化后像素数与区域人数间的对应关系实现间接人数统计;当区域内人数增多且高于一定程度时,借助简单场景中人员特定的位置信息,进行粘连人体分割并对分割结果进行计数统计。在处理粘连人体分割问题上,针对人体连通区域的不同特点,分别使用归一化距离度量的聚类算法和改进的投影法进行人体粘连区域的行列分割。通过在影院影厅进行实验验证了该算法的有效性。; 杨林吕学强张鑫张凯; 关键词：红外图像聚类算法投影法

我国科技期刊数据政策制定研究: 2023年; 【目的】提出适用于我国科技期刊的关联数据存缴共享政策模板,为我国科技期刊制定数据政策提供基本要素、结构框架和主要内容参考。【方法】通过文献调研、实证研究等方式,分析我国科学数据管理规范体系,研究梳理国际出版商期刊数据政策、国际组织期刊数据政策框架建议、我国科学数据管理体系等内容,分析我国科技期刊数据政策基本要素。【结果】根据调研分析,提出一套通用型科技期刊数据政策模板,该模板可依据期刊实际需要自由组合、个性定制,可为不同期刊制定数据政策提供参考。【结论】目前已有44种期刊采用此模板,此模板帮助部分科技期刊“从无到有”制定数据政策,有利于论文关联数据的开放共享和长期存储。; 张泽钰姜璐璐高瑜蔚李成赞王鹏尧周园春; 关键词：科学数据科技期刊

一种融合密集连接与注意力的遥感建筑物分割网络被引量：1: 2021年; 为了提取遥感图像中的建筑物信息,提出了一种编码—解码结构的深度神经网络模型,在编码阶段通过卷积层和池化层提取高维语义特征,在解码阶段通过跳跃链接融合高维和低维细节特征,并使用密集连接块降低模型的参数量,以及使用CBAM机制提高网络的准确率。在WHU航空建筑物数据集上进行了实验,结果表明模型能够有效地对建筑物进行分割,准确率、交并比、F_(1)值三项指标均优于当前主流的分割网络。; 林雨琦李宝安韩晶张凯游新冬吕学强; 关键词：图像分割遥感图像

大语言模型在汉语写作智能评估中的应用研究: 2024年; 研究旨在评估大语言模型在写作自动评分、智能评语生成两个典型写作智能评估任务中的性能。研究以汉语二语学习者为研究对象,采用了3种不同提示策略验证大语言模型在写作自动评分和自动评语反馈方面的有效性,包括标准提示、思维链提示以及自洽思维链提示。结果显示,尽管大语言模型在写作自动评分任务中表现出一定的潜力,其稳定性和可靠性仍有待提高,但通过不断优化这些提示策略,可以显著增强模型处理写作评分和评语生成的能力。此外,这3种提示语会产生不同的效果,以提示的方式评估大语言模型的性能表现存在主观性,还不能完全替代教师独立开展评估测试,但现阶段可以作为辅助工具提高教师评估作文的效率。本研究的发现为大语言模型在汉语写作智能评估领域的应用提供了有力支持,为未来开发更高效、更精准的汉语写作智能评估系统提供参考。; 薛嗣媛周建设; 关键词：自动作文评分

基于孪生神经网络的行文一致性测评研究被引量：1: 2022年; 针对目前的篇章级行文一致性度量模型只考虑了待测作文的全文行文一致性,无法捕捉文本语义块的隐含语义特征及其之间的一致性问题,提出了一种通用的作文行文一致性测评模型.该模型借鉴孪生神经网络的思想,创新性地同时提取作文中核心人物的性格、形象特征以及故事情节特征并进行相似度度量,从而获取文本的中心思想以及行文一致性的匹配分数;使用无监督主题模型Biterm-LDA(Latent Dirichlet Allocation)对作文进行主题特征提取,解决了对手工标注的依赖。实验结果表明提出的模型评分与人工标注结果多数一致,且优于普通神经网络模型.; 刘杰刘杰李亚光张逸超周建设

语言智能场景下在线课程学习行为情感语义分析与效果评价: 2023年; 利用语言智能技术解决在线课程学生学习行为情感语义分析存在的数据量大、分析耗费时间多、处理繁杂等问题,有助于实时掌握学习效果、改善教学方式。基于此,文章提出一种基于语言智能场景的学习行为情感语义分析ESAM-LI方法,该方法在梳理学习行为情感语义类型的基础上,首先获取在线课程学习行为文本信息并以基于Albert的微调模型方式进行模型训练;然后结合文本语言处理的BiLSTM模型和条件随机场CRF模型构建学习行为情感语义分析专业领域模型,同时构建情感信息标注标准并识别课程及教学知识点相关实体,获取学习行为情感语义极性类型;最后结合课程实体和教学知识点实体情感语义类型建立教学效果满意度评价模型并开展实证研究。实证效果表明,在课程效果评价和教学知识点评价上,ESAM-LI方法与传统教学效果评价方法两者高度一致,但ESAM-LI具有传统方法难以企及的处理速度,且能够克服人工主观误差,可为改善在线课程教学效果提供重要的借鉴。; 周楠周建设; 关键词：在线课程语言智能情感分析教学评价

基于逻辑图像理论的机器智能辅助阅读定量模型构建及其验证被引量：2: 2019年; 本文从逻辑图像理论出发,在讨论了影响阅读量的相关因素特征后,提出了基于逻辑图像理论的智能辅助阅读定量模型,并以290名小学生和50名高校生作为实验分析对象,分别就阅读速度、心像信息量获取曲线等内容进行拟合和分析,设计出不同类型的智能辅助阅读定量初始化原型,并给出后续定量生长曲线方向。本文为机器智能辅助阅读系统的定量考核提供基础模型和实验分析说明,是智能辅助阅读"六定模型"中的重要组成部分。; 周建设张文彦张凯马鲁妮

首都师范大学中国语言智能研究中心

合作机构

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

首都师范大学中国语言智能研究中心

合作机构

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈