公共文化服务平台

共 6 条记录，以下是 1-6

全选清除导出

排序方式：

基于迭代算法的新词识别被引量：7: 2014年; 新词识别是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来较大困难。受对偶原理的启发,提出一种基于迭代算法的新词识别算法。对目标语料进行分词和词性标注,通过两遍扫描进行字符串统计并提取重复模式。结合词语结构的特征,迭代使用重复模式互信息、左(右)熵,左(右)邻右(左)平均熵等特征进行新词识别,获得候选新词列表。利用中文词语搭配库对候选新词列表进行最后一次过滤得到最终新词列表。实验结果表明,利用该方法进行新词识别,P@10值达到100%,P@100值提高至90%,左(右)邻右(左)平均熵可在一定程度上提高新词识别的准确率。; 赵小宝张华平; 关键词：对偶原理新词识别迭代算法信息熵

基于微博文本的个性化兴趣关注点及情绪变迁趋势研究被引量：1: 2015年; 随着社交网络的快速发展,人们可利用微博平台发表、分享自己的观点以及抒发某种情绪,进而产生了大量针对不同话题的博文和情绪信息,但传统的文本挖掘算法在处理这些短小且具富含个性化情感信息的微博文本方面有所欠缺。在此提出一种基于微博文本的特征权重计算方法,可据此得到博主在不同时间段的关注点,通过情绪分类,分析用户在不同时间段内的情绪变迁情况。实验结果证明此方法具有一定的可行性。; 王九硕高凯赵捷高国江; 关键词：自然语言处理

面向话题的中文微博观点倾向性分析研究被引量：7: 2014年; 随着微博快速崛起,每天数以千万的人通过微博分享自己对各类话题的观点与情感,如何自动感知微博社区对特定话题的观点倾向性,已经成为中文微博计算亟待解决的问题。由于微博内容短小且不规范,传统的情感分析效率低下且效果很难满足实际需求。现提出一种将情感词典分类的方法进行实验研究,针对腾讯微博20个话题约17 500条微博32 000个句子的数据进行实验,实验结果表明提出的情感词典分类方法效果很好。; 李清敏张华平

以主体为中心的微博计算方法——微博计算微革命:从“信息”中心到以“人”为本: 2012年; 针对以微博为对象的分析挖掘,提出了"以人为本"的微博计算模型,即以微博主体为微博计算的主要对象,研究微博博主个性化表示模型,博主情绪感知算法、及微博内容分析等关键技术,综述了微博计算已有的研究进展。创新之处在于突破了纯粹内容分析的局限,更好地适应了微博计算的需求。; 张华平商建云赵燕平; 关键词：数据可视化

Big Data Modeling and Analysis of Microblog Ecosystem被引量：6: 2014年; Recent progress of Web 2.0 applications has witnessed the rapid development of microblog in China, which has already been one of the most important ways for online communications, especially on sharing information. This paper tries to make an in-depth investigation on the big data modeling and analysis of microblog ecosystem in China by using a real dataset containing over17 million records of SinaWeibo users. First, we present the detailed geography, gender, authentication, education and age analysis of microblog users in this dataset. Then we conduct the numerical features distribution analysis, propose the user influence formula and calculate the influences for different kinds of microblog users. Finally, user content intention analysis is performed to reveal users most concerns in their daily life.; Hua-Ping ZhangRui-Qi ZhangYan-Ping ZhaoBao-Jun Ma

面向社会媒体的开放领域新词发现被引量：15: 2017年; 随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低了内存的使用,从而能够实时处理社会媒体所产生的大规模数据。在6.6GB社会媒体文本语料中的新词发现准确率达到了87.2%,在普通计算机上新词发现速度可达2.6 MB/s。与传统算法相比,该算法在社会媒体领域的大规模语料中速度及精度上均有较好的效果。; 张华平商建云; 关键词：社会媒体新词发现条件随机场

全选清除导出

共1页<1>

国家自然科学基金(61272362)