Micro-blog noise filtering and topic detection
-
摘要: 针对微博中充斥着的大量广告信息和其它的噪声微博,本文提出了基于C4.5决策树分类算法的用户分类过滤机制和基于特征值的计分过滤方法。利用微博文本的实时性和微博话题的时效性,还提出了一个基于时间参数的相似度计算方法。实验结果表明,该方法能提高对噪声过滤和话题检测的准确率和效率。Abstract: Aiming at the big amount of advertising messages and other noise tweets, the paper proposed a user classification filtering mechanism based on C4.5 Decision Tree Classification Algorithm and a scoring filtering method based on characteristic value. Taking advantage of the instantaneity of micro-blog text and timeliness of micro-blog topic, the paper put forward a similarity calculation method based on time parameter. Experiments showed that this mechanism could detect topics and filter noise with better accuracy and efficiency compared to the traditional approach.
-
Keywords:
- noise filtering /
- C4.5 Decision Tree /
- characteristic value /
- similarity calculation
-
-
[1] 郑斐然,苗夺谦,张志飞,高 灿. 一种中文微博新闻话题 检测的方法[J].计算机科学,2012,39(1). [2] Shota Ishikawa, Yutaka Arakawa, Shigeaki Tagashira, Akira Fuku- da. Hot Topic Detection in Local Areas Using Twitter and Wiki- pedia [J]. ARCS Workshops (ARCS), 28-29 Feb. 2012. [3] 邱 洋. 微博数据提取及话题检测方法研究[D].大连:大连 理工大学,2013. [4] Yukino Ikegami, Kenta Kawai, Yoshimi Namihira, Setsuo Tsuru- ta. Topic and Opinion Classification based Information Credibi- lity Analysis on Twitter[C]. 2013 IEEE International Conference on Systems, Man, and Cybernetics, 13-16 Oct. 2013. [5] 陆 旭.文本挖掘中若干关键问题研究[M]. 合肥 : 中国科学 技术大学出版社,2008. [6] Hao Tu, Jin Ding. An Efficient Clustering Algorithm for Microb- logging Hot Topic Detec-tion. Computer Science & Service Sys- tem (CSSS)[C]. 2012 International Conference on Computer Science and Service System, 11-13 Aug. 2012. [7] 刘 涛. 用于文本分类和文本聚类的特征选择和特征抽取方 法的研究[D].天津:南开大学,2004. [8] Jing Xie, Gongshen Liu, Wei Ning. A Topic Detection Method for Chinese Microblog[C]. 2012 Fourth International Symposium on Information Science and Engineering, 14-16 Dec. 2012. [9] 周 刚,部鸿程,熊小兵,等.MB-SinglePass:基于组合相似 度的微博话题检测[J].计算机科学,2012,39(10):198- 202. [10] Feifei Peng, Xu Qian, Hui Meng, Dan Zhou. Research on Algori- thm of Extracting Micro-blog’s Hot Topics. Electronics[C]. Communications and Control (ICECC), 2011 International Con- ference on Communications and Control, 9-11 Sept. 2011. [11] 程显毅,朱 倩.文本挖掘原理[M]. 北京:科学出版社, 2010. [12] Xiangying Dai, Qingcai Chen, Xiaolong Wang, Jun xu. Online Topic Detection and Track-ing of Financial News based on Hierar- chical Clustering[C]. Proceedings of the Ninth Interna-tional Con- ference on Machine Learning and Cybernetics, Qingdao, 11-14 July 2010. -
期刊类型引用(11)
1. 宋岩,王凌. 基于版本更替的列控数据自动校验生成工具设计. 铁道通信信号. 2024(12): 98-104 . 百度学术
2. 黄健,李倩,李方晴,张奕男. 基于XSD的配置工具数据处理安全平台. 铁路计算机应用. 2023(07): 62-67 . 本站查看
3. 赵峰,冯飞. 联调联试信号系统列控数据管理分析与建议. 铁路技术创新. 2021(03): 57-61 . 百度学术
4. 谭冠华,徐田华,王海峰,张路,吕继东. 基于Prolog的列控工程数据验证方法. 铁道学报. 2019(06): 91-99 . 百度学术
5. 卢铃冉,张勇. 基于CSP的CTCS-1级列控系统RDC数据验证的研究. 铁路计算机应用. 2019(07): 52-58 . 本站查看
6. 熊飞. 列车进路数据表编制软件的设计. 铁路计算机应用. 2019(07): 59-61 . 本站查看
7. 徐强,崔龙,黄琨. CTCS3无线闭塞中心工程化数据生成方法与实现. 铁路计算机应用. 2019(08): 52-56+74 . 本站查看
8. 卫晴雯. 基于Python的区间综合监控系统工程数据校验方法与应用. 铁路计算机应用. 2019(10): 39-44 . 本站查看
9. 徐红阳,齐超. 列控系统工程数据现场测量方法. 铁路通信信号工程技术. 2018(04): 5-9 . 百度学术
10. 陈颖,张敏,林洁,周健,徐宁,许豪勤. 避孕药具不良事件报告计算机自动审核效果的评估与探讨. 国际生殖健康/计划生育杂志. 2017(06): 470-473 . 百度学术
11. 余云飞. 铁路信号数据一体化配置系统设计及实现. 铁路通信信号工程技术. 2017(06): 27-30+35 . 百度学术
其他类型引用(4)
计量
- 文章访问数: 88
- HTML全文浏览量: 0
- PDF下载量: 116
- 被引次数: 15