• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

基于聚类分析算法的铁路通信设备厂商信息智能分类

赵颖, 王华伟

赵颖, 王华伟. 基于聚类分析算法的铁路通信设备厂商信息智能分类[J]. 铁路计算机应用, 2018, 27(7): 75-79.
引用本文: 赵颖, 王华伟. 基于聚类分析算法的铁路通信设备厂商信息智能分类[J]. 铁路计算机应用, 2018, 27(7): 75-79.
ZHAO Ying, WANG Huawei. Intelligent classification of railway communication equipment manufactures information based on cluster analysis[J]. Railway Computer Application, 2018, 27(7): 75-79.
Citation: ZHAO Ying, WANG Huawei. Intelligent classification of railway communication equipment manufactures information based on cluster analysis[J]. Railway Computer Application, 2018, 27(7): 75-79.

基于聚类分析算法的铁路通信设备厂商信息智能分类

基金项目: 中国铁路总公司科技研究开发计划重点课题 (2017X004-G)
详细信息
    作者简介:

    赵 颖,助理研究员;王华伟,副研究员。

  • 中图分类号: U285:TP39

Intelligent classification of railway communication equipment manufactures information based on cluster analysis

  • 摘要: 针对铁路通信大数据平台中设备厂商信息不规范的问题,提出一种采用聚类分析算法对厂商信息智能分类的方法,介绍聚类分析算法、相似度计算方法和聚类性能度量等理论,通过分词处理、构建词袋模型、权值转换等数据预处理技术,将文本转换为适合分类的权值向量,采用K-均值聚类、层次聚类算法分别对部分样本进行聚类分析,比较测试结果,最终选择层次聚类算法对所有样本进行聚类分析。该算法可以将不规范的厂商信息进行合理的分类,从而为形成厂商信息字典提供数据支持。
    Abstract: In order to solve the nonstandard problems of equipment manufacture information in railway communication big data platform, this paper put forward a method of intelligent classification based on cluster analysis. The paper introduced the theories of cluster analysis, similarity calculation method, and clustering performance measurement. By using the data preprocessing technologies such as word cuts, bag of words model, weight conversion, text can be converted to weight vector. The K-Mean clustering and hierarchical clustering algorithm were used to analyze some of the samples, compare the result, the hierarchical clustering algorithm was chosen to analyze all samples. The manufacture information can be classified by hierarchical clustering algorithm reasonable, provide support for making data dictionary.
  • [1] 王华伟,史天运,蒋荟,等.铁路运输设备技术状态大数据平台研究[J].铁道运输与经济,2018(2):38-43.
    [2] 周志华. 机器学习[M].北京:清华大学出版社,2016:197-219.
    [3] 张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018(1):102-112.
    [4] 林丹,刘建明,谷志瑜.一种基于关键词的微博话题聚类算法[J]. 计算机应用与软件,2018(1):264-268.
    [5] 黄建宇,周爱武,肖云,等.基于特征空间的文本聚类[J].计算机技术与发展,2017(9):75-77,81.
    [6] Peter Harrington.机器学习实践[M].李锐,李鹏,曲亚东,等,译.北京:人民邮电出版社,2013:184-193.
    [7] 张芸芸. 基于模糊C均值聚类的交通状态判别研究[J].铁路计算机应,2013,22(4):4-6.
    [8] 王日宏,崔兴梅.融合集群度与距离均衡优化的K-均值聚类算法[J].计算机应用,2018(1):104-109,115.
    [9] J.E.Judinl,J.Jayakumari.Distributed Document Clustering Analysis Based on a Hybrid Method[J].中国通信(英文版),2017(2):131-142.
    [10] 万广琦,史峰,邓连波.基于因子-聚类分析的高铁开行方案评价研究[J].铁道科学与工程学报,2017(12):2509-2515.
  • 期刊类型引用(1)

    1. 赵颖,樊智伟,罗浩,柳青红,耿航芳. 重载铁路通信设备数字化及全寿命周期管理技术研究. 铁道运输与经济. 2023(11): 48-57 . 百度学术

    其他类型引用(1)

计量
  • 文章访问数:  75
  • HTML全文浏览量:  1
  • PDF下载量:  38
  • 被引次数: 2
出版历程
  • 收稿日期:  2018-05-09
  • 刊出日期:  2018-07-24

目录

    /

    返回文章
    返回