张晓勇
- 作品数:2 被引量:7H指数:2
- 供职机构:杭州师范大学更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学经济管理更多>>
- 面向在线社交网络用户生成内容的饮食话题发现研究被引量:4
- 2016年
- 【目的】通过大规模文本聚类技术进行话题检测,并自动拣选优质话题。【方法】以新浪微博上与饮食相关的微博内容为数据源,结合文本聚类与深度学习知识进行话题检测。通过匹配微博发布的月份,将微博划分为四季微博;使用向量空间模型和文本聚类方法,对不同季节的微博进行话题检测,获得候选话题;结合深度学习知识,提出主题覆盖率概念,用以自动评价话题质量,去除低质量话题。【结果】基于主题覆盖率的话题筛选结果符合人工拣选预期,抽取获得主题覆盖率高于0.5的优质话题。【局限】话题检测质量的评价主要以定性评价为主。【结论】通过计算主题覆盖率来自动选择优质话题,该方法效率高,通用性强,获得的话题便于理解,较好地揭示了四季中饮食微博的话题分布。
- 张晓勇周清清章成志
- 关键词:用户生成内容
- 基于电商产品评论的产品概念层次体系自动构建研究被引量:3
- 2016年
- 丰富的电商领域的产品概念层次体系,有助于全面了解产品属性,进行产品信息的深度挖掘,从而进一步用于挖掘消费者需求,辅助商业决策等。传统的手工构建方法效率低、成本高。现今,海量的电商评论信息包含了大量的产品属性信息,能够用于构建产品概念层次体系。因此,文章以电商评论为数据来源,利用条件随机场抽取产品候选术语;然后结合深度学习与聚类方法生成产品的概念层次体系。该方法效率高,动态更新难度低,而且通用性比较强。实验结果表明:产品术语抽取的准确率、召回率以及F1值分别为:90.17%、70.87%、79.47%,生成的两层概念层次体系共包含87个概念。与已有概念层次体系相比,该概念体系层次清晰,易于理解,同时直接利用产品评论数据,获得的术语关注度高,更贴近产品评论挖掘的实际应用需要。
- 张晓勇章成志周清清
- 关键词:电子商务术语抽取