Research on data security and protection technologies in intelligent railway applications
-
摘要:
数字化、网络化和智能化构成了铁路新质生产力的基础特征,而数据安全则是确保新质生产力持续发展的重要保障。随着人工智能技术在铁路行业的广泛应用,相关技术的进步显著提升了铁路运营的效率和安全性,同时也暴露出亟须重视的数据安全问题。文章结合铁路的智能应用场景,分析了铁路中存在的数据安全风险与防护需求,介绍了数据脱敏、隐私计算和数据加密等数据安全与防护技术,并探讨了这些技术在铁路业务场景中的应用。最后,文章对当前铁路数据安全与防护技术的发展方向进行了阐述,指出随着数据复杂性的加剧及人工智能和大模型的快速发展,铁路的数据安全面临着更为严峻的挑战。研究结果旨在为铁路数据安全与防护工作提供技术支持,助力铁路行业在智能化转型过程中建立更加安全可靠的数据保护体系。
Abstract:Digitization, networking, and intelligence constitute the fundamental characteristics of railway new productive force, and data security is an important guarantee for ensuring the sustainable development of new productive force. With the widespread application of artificial intelligence technology in the railway industry, the progress of related technologies has significantly improved the efficiency and safety of railway operations, while also exposed the urgent need to pay attention to data security issues. This paper combined the intelligent application scenarios of railways to analyze the data security risks and protection requirements in railways, introduced data security and protection technologies such as data desensitization, privacy computing, and data encryption, and explores the application of these technologies in railway business scenarios. It elaborated on the current development direction of railway data security and protection technology, pointed out that with the increasing complexity of data and the rapid development of artificial intelligence and big models, railway data security was facing more severe challenges. The research results aim to provide technical support for railway data security and protection work, and help the railway industry establish a more secure and reliable data protection system in the process of intelligent transformation.
-
Keywords:
- railway intelligent application /
- data security /
- data encryption /
- privacy computing /
- big data
-
新质生产力以科技创新为核心,依托新兴和未来产业,成为推动高质量发展和中国式现代化的重要动力。在铁路行业的发展中,随着信息化和智能化技术的不断突破,传统的铁路业务逐渐与智能技术相结合,利用智能控制系统替代人工操作,大幅降低了人力成本,同时显著提升了铁路运营效率和管理水平。国家铁路局发布的《“十四五”铁路科技创新规划》[1]中指出,应利用人工智能信息技术推动前沿技术与铁路领域的深度融合与创新。
人工智能相关技术需要大量数据作为基础支撑。在利用铁路业务产生的海量数据的同时,也可能对铁路数据安全带来一定风险,包括个人隐私泄露、开源框架的安全漏洞、数据资源的滥用及智能化网络攻击等问题。这些风险不仅威胁个人利益,也可能对社会秩序和国家安全造成影响。近年来,国家高度重视数据安全与隐私保护,先后颁布了《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》,为完善数据治理体系提供了理论依据[2]。国家铁路局在规划中也强调了要加强数据安全保护。
综上,本文结合铁路智能应用的业务场景,分析铁路智能应用中产生的数据安全需求,介绍当前的数据安全与防护关键技术,以及典型铁路数据安全与防护技术应用,同时总结了未来铁路数据安全的发展方向。
1 铁路智能应用数据安全需求分析
1.1 铁路日常业务数据管理
铁路的日常运营会产生大量数据,包括乘客购票时的个人信息、列车运行的时间与速度、监控设备产生的图像数据等。日常业务数据真实地反映铁路各项业务的运营状态,是铁路各项智能应用开发的基础。而在智能应用开发的过程中,往往需要对多种数据进行综合分析,这些数据可能横跨多主题、多模态、多部门、多密级,对数据的管理质量提出了较高的要求。而铁路的日常业务数据来源广、格式多样、数量极大,数据大量涉及隐私和敏感信息,保密等级分布复杂,管理难度较大。
1.2 铁路智能应用中数据的流转保护
铁路业务遍及全国各地的车站及轨道线路,具有分布范围广、数量大和分布零散的特点。如果希望对某一地区的铁路业务进行综合数据分析或智能应用开发,就需要将所有相关数据收集起来统一分析,客观上存在远距离数据流转的需求。此外,某些日常的智能应用对数据的实时性要求较高,比如列车在站运行状态安全监测预警系统,需要实时监控列车的运行状态,对出现的故障作出即时响应,这对数据流转的速度提出了较高的要求,进一步增加了数据在传输过程中被截获的可能性。因此,需要一套完善的措施对数据的流转进行保护,保证数据顺畅、安全地流转。
1.3 铁路敏感数据保护
铁路数据涉及大量的公民个人隐私信息及国家机密信息。在智能应用开发时,往往需要采集大量的数据进行信息提取,客观上存在敏感信息泄露的风险。因此,铁路数据需要实施严格的分类分级管理及数据访问控制,在使用数据时必须充分评估数据包含的信息及保密等级,切实保障敏感数据不泄露。
1.4 大模型训练的数据风险防范
大模型的应用为铁路行业带来了智能化升级,提升了运营效率和安全水平,优化了旅客体验,显著推动了铁路行业的数字化转型。中国铁道科学研究院集团有限公司已尝试利用铁路业务中的作业指导书、技术手册等文本内容,训练针对铁路业务的大语言模型[3]。然而,大模型会对数据安全产生新的挑战,训练大模型可能存在严重的隐私泄露风险,因为大模型的训练通常需要海量的数据,这些数据可能含有较多敏感信息。另外,大模型的训练所需要的海量数据来自全国各地的多个部门,对铁路部门数据安全流转的能力也提出了较大考验。
2 数据安全与防护关键技术
经过多年的发展,数据安全与防护技术已在数据的采集、传输、处理和存储等多个环节中形成了丰富的技术体系。根据不同的应用场景,这些技术体系可分为数据安全管理技术、数据泄漏防护技术和数据篡改防护技术,如图1所示。结合前文对铁路智能应用数据安全需求的分析,本章节重点介绍与日常业务管理相关的数据分类分级技术和云平台安全防护技术、数据流转中的数据加密和安全连接技术、敏感数据保护中的数据脱敏技术,以及大模型计算用到的隐私计算技术。
2.1 数据分类分级技术
数据分类分级技术是将数据根据其敏感性和重要性进行系统化管理的过程,通常包括对数据进行分类(如根据数据含义、用途等进行划分)和分级(如根据敏感和机密等级进行划分)。通过制定分类标准、标记数据及实施相应的访问控制,该技术能够有效保护敏感信息、降低数据泄露风险,并确保合规性。传统数据分类分级采用人工作业,效率较低,且存在主观偏差;自动化数据分类分级方法尚在探索中。
2.2 云平台安全防护技术
云平台安全防护机制与传统数据库安全防护机制存在显著差异,主要源于云计算环境的动态性、虚拟化和多租户架构等特性。相比传统数据库的静态、安全边界明确的防护机制,云安全需要应对更多的动态变化和共享资源环境,因此需要采用更加灵活、分布式且自动化的安全技术和策略。
2.2.1 多租户隔离
云环境中的多租户架构意味着多个用户共享同一物理基础设施。云安全防护技术通过虚拟化隔离(如虚拟私有云、容器安全等)确保不同租户的数据和资源相互隔离,防止未经授权的访问[4]。这在传统数据库中通常不需要考虑,因为每个企业通常有独立的数据库实例。
2.2.2 动态资源调配
云计算支持资源的动态分配和按需扩展,因此安全防护技术也需要具备动态适应性。云中的自动化安全策略(如动态防火墙规则、自动化补丁管理等)可在资源扩展或缩减时自动调整,而传统数据库通常在固定资源配置下进行防护。
2.2.3 零信任架构
零信任架构是一种网络安全模型,强调“从不信任,始终验证”的原则[5]。该架构假设无论是内部还是外部网络的请求,都可能是潜在威胁,因此,每次访问都需要经过严格的身份验证和权限控制,实施最小权限原则。通过持续监控、网络分段、数据保护和设备安全等手段,零信任架构能够显著提高整体安全性,适应现代云计算环境,减少攻击面,有效防止数据泄露事件发生。
2.3 数据加密技术
数据加密技术是保护信息安全的重要手段,主要包括对称加密、非对称加密和哈希加密等3种形式。此外,随着量子物理的不断进步,量子加密技术也在逐步发展。
2.3.1 对称加密
对称加密是一种使用相同密钥进行数据加密和解密的方法,发送方和接收方必须共享相同的密钥以确保通信的安全性。这种加密方式的处理速度通常较快,适合加密大量数据。然而,密钥的安全存储和管理是对称加密面对的一大挑战,若密钥泄露,数据的安全性将受到威胁。常见的对称加密算法包括AES(Advanced Encryption Standard)、DES(Data Encryption Standard)、3DES(Triple DES)及基于3DES的优化加密算法DeCrypt[6],广泛应用于文件加密、数据库加密及VPN(Virtual Private Network)连接等场景。
2.3.2 非对称加密
非对称加密是一种使用一对密钥(公钥和私钥)的加密方法,公钥用于加密数据,而私钥用于解密,公钥可以公开而私钥则需要保密。这种加密方式的安全性较高,即使公钥被公开,只有拥有私钥的用户才能解密数据。此外,非对称加密不仅可用于数据加密,还能实现数字签名,验证数据的完整性和来源。常见的非对称加密算法包括RSA(Ron R., Adi S.,Leonard A.)、DSA(Digital Signature Algorithm)、ECC(Elliptic Curve Cryptography),广泛应用于SSL(Secure Socket Layer)协议、TLS(Transport Layer Security)协议、电子邮件加密和身份验证等场景。
2.3.3 哈希加密
哈希加密是一种单向加密方法,将输入数据(无论大小)转换为固定长度的哈希值,无法从哈希值反向推导出原始数据。这种加密方式具有单向性和抗碰撞性,即不同输入数据不应产生相同的哈希值,使其在数据完整性校验中具有重要意义。常见的哈希算法包括SHA-256(Secure Hash Algorithm-256)、SHA-1和MD5(Message-Digest Algorithm 5)等。哈希加密广泛用于数据完整性验证、密码存储(将密码哈希后存储而非明文)及数字签名等场景。
2.3.4 量子加密
量子加密是一种基于量子力学原理的前沿加密技术。其核心技术是量子密钥分发(Quantum Key Distribution),利用光子的量子状态来生成和传输加密密钥。由于量子态的不可复制性和测量时会被破坏的特性,任何第三方的窃听行为都会被立即发现,从而显著提高通信的安全性。相比传统加密方法,量子加密能够抵御未来量子计算机的破解威胁,具有极高的安全保障水平和广泛的应用前景。
2.4 安全连接技术
安全连接通常采用TLS协议,它结合了对称加密和非对称加密,通过使用密钥交换算法(如Diffie-Hellman[7])和消息认证码(MAC,Message Authentication Code),确保数据在网络传输过程中的机密性和完整性。
2.5 数据脱敏技术
数据脱敏技术是一种通过对敏感数据进行变形、隐藏或混淆,从而保护个人隐私和机密信息安全的技术。在针对音频、图像、文本和数值数据时应采用不同的数据处理方式进行脱敏。
2.5.1 文本与数值型数据脱敏
文本与数值型数据的脱敏方法主要包括字符替换、数据掩码、加密、混淆、截断和泛化等技术。k匿名技术通过对数据进行分组和泛化,确保每个组内至少有k个具有相同属性的记录,从而防止单个记录被唯一识别[8]。
2.5.2 音频数据脱敏
音频数据的脱敏处理涉及声纹模糊化和敏感词汇替换。声纹模糊化通过改变说话者的声音特征来掩盖其身份,而智能语音识别技术则可检测和替换音频中的敏感词[9],从而降低泄露风险。
2.5.3 图像数据脱敏
视频数据脱敏利用像素化、模糊处理和深度学习模型,自动识别并遮盖视频中涉及隐私的区域。通过这些技术,可以在保持视频整体内容和结构的情况下,有效保护隐私信息。生成式对抗网路技术经常被用于进行图像数据脱敏,例如Mahmoud 等人设计了一个智能匿名平台,结合区块链技术和CIAGAN(Conditional Identity Anonymization GAN)方法,旨在解决与人脸识别系统相关的隐私问题[10]。
2.6 隐私计算技术
隐私计算技术是一种旨在保护敏感数据安全的计算方法,它允许在不泄露原始数据的情况下进行数据分析和处理。该技术通过多种方式实现隐私保护,例如同态加密、联邦学习、安全多方计算等。同态加密允许对加密数据进行直接计算,不需要解密;联邦学习使多个数据持有者可在本地进行模型训练,只分享模型参数而非原始数据,降低了数据泄露的风险;安全多方计算允许参与方在不共享各自隐私数据的前提下共同计算某个函数,保护各方的隐私。通过这些技术,隐私计算为大数据分析、机器学习和人工智能等领域提供了安全的解决方案,使得个人隐私得到有效保护,同时又能促进数据的共享与合作,从而推动信息技术的健康发展。
2.7 数据安全防护相关技术总结
在当今信息技术领域,数据加密、数据脱敏及安全连接等关键数据安全技术已广泛应用于各个行业的数据管理体系。随着云平台的兴起及云边协同计算的普及,基于云平台的安全防护方案和多方安全计算等技术也不断得到实践与发展。因此,明确技术的用途、特点及局限性,对于有效解决数据安全问题具有重要的理论与实践意义。相关技术的基本信息如表1所示。
表 1 数据安全防护技术相关信息技术名称 适用领域 关键特性 优势 局限性 使用场景 依赖 相关工具/框架 云平台安全
防护云计算 多租户隔离、动态调配、
自动化策略灵活、自动化、
分布式管理配置管理复杂、
动态适应挑战多租户云环境 虚拟化技术、
动态资源管理OpenStack、AWS 数据加密 数据传输、存储 对称加密、非对称加密、
哈希加密、量子加密高安全性,
确保数据完整性密钥管理复杂、
加密计算资源消耗大文件加密、数据
传输、存储密钥管理系统、
加密算法支持OpenSSL、GPG 安全连接 网络通信 传输层安全协议、
对称与非对称加密数据在传输中的机密性
和完整性协议配置复杂、
可能存在漏洞HTTPS、VPN、
远程连接TLS/SSL协议、
认证机制OpenSSL、Let's Encrypt 数据脱敏 数据隐私保护、
共享数据变形、混淆、
泛化、字符替换隐私信息保护、
支持数据共享数据处理复杂、隐私
保护与数据可用性平衡数据共享、数据库
隐私保护数据处理算法、
数据分级管理k匿名、DLP工具 隐私计算 大数据分析、
隐私保护同态加密、联邦学习、
多方安全计算在不泄露数据的情况下
进行计算计算开销大、
性能瓶颈多方数据协作、
隐私数据分析高性能计算设备、
加密算法支持Crypten、TF Encrypted 3 铁路数据安全与防护技术应用实践
3.1 铁路敏感数据处理
在铁路智能应用过程中,需要处理大量敏感数据,因此在调用数据时,需要遵循严格的安全和隐私保护措施,确保数据的机密性、完整性和可用性。在数据的采集阶段,广泛使用加密传输技术确保数据在网络传输中的安全,并通过有效的数据分级策略对敏感数据进行识别与标记,分级标准参考全国信息安全标准化技术委员会2021年发布的《网络安全标准实践指南——网络数据分类分级指引》,根据数据的重要程度及遭到破坏可能造成的危害程度进行级别划分[11];在数据存储阶段,对敏感数据使用强加密算法(如AES、RSA)进行加密存储,且仅授权的人员和系统能够访问解密密钥。如中国国家铁路集团有限公司在设计实现调度应急系统时,基于国产密码的安全架构方案,为本系统提供了有效的数据保护与访问控制服务。此外,在对数据进行操作前,需要采用数据脱敏技术,铁路数据管理部门需要对不同格式、不同内容的数据采取针对性脱敏,有效降低数据敏感性,确保数据分析和处理过程中不暴露原始敏感信息。
3.2 铁路多部门联合隐私计算
部分铁路智能分析应用中,需要综合多部门数据进行计算。例如,车辆检修与故障预测所需要的数据来自铁路多个部门,完成相关计算需要从动车组车载信息无线传输系统、动车组管理信息系统、动车组空心车轴探伤管理信息系统等多个系统获取车辆不同方面的描述数据[12]。由于数据安全、技术保密等问题,各部门和统建信息系统均不便进行数据共享,因此,需要借助隐私计算技术完成相关计算。隐私计算技术允许多方在不暴露自身机密数据的同时合作完成计算,主要使用多方安全计算和联邦学习技术统筹各部门数据,并通过同态加密、差分隐私等手段对各部门数据进行保密计算。目前,隐私计算技术已在铁路多项业务中得到了应用,如潜在货源挖掘计算和高速铁路智能调度计算等[13],在保障各部门数据安全的同时,有效提高了铁路智能计算能力。
3.3 铁路云平台安全防护机制分析
我国各铁路云平台在数据安全防护方面实施了全面且多层次的策略,以确保云端数据的安全性。在数据存储方面,华为智能铁路云通过AES强加密算法对静态数据进行加密,并严格管理密钥;铁信云在数据存储时也提供加密选项。在数据传输过程中,铁信云采用TLS/SSL等成熟的安全传输协议,保障数据传输的安全性。为应对网络攻击,铁信云综合运用防火墙、入侵检测系统和DDoS攻击防护等多种网络安全技术,采用零信任架构,有效阻止非法流量,处理恶意活动。为应对突发状况,中国铁路主数据中心制定了网络安全事件应急预案,并定期开展演练。此外,各铁路云平台还在推进国产密码应用和国产化替代等工程,增强网络安全防护的自主可控能力。
4 铁路智能应用中数据安全与防护技术发展方向
随着铁路业务数据量的持续增加及大模型的开发与应用,巨大的数据规模和复杂性对安全防护算法的运行效率与防护质量构成了严峻挑战。同时,网络攻击手段的不断演变也迫使铁路智能应用在安全防护策略上持续更新,以应对新兴威胁。
未来,铁路智能应用的数据安全与防护技术主要发展方向为:
(1)加强智能手段在铁路防护体系中的作用,包括自动化的分级分类管理和基于工作日志及员工行为分析的安全风险预警;
(2)深化零信任架构和最小权限原则建设,确保所有用户和设备进行严格的身份验证与授权,并对数据进行加密存储;
(3)增强跨部门合作,建立信息共享机制,形成覆盖各部门的数据安全管理体系;
(4)利用铁路行业大模型强化数据安全防护,提供基于业务数据分析的决策建议,帮助安全管理人员制定更有效的安全策略与应急预案。
5 结束语
随着铁路新质生产力的不断发展及智能化水平的不断提高,数据安全问题必须得到足够的重视。铁路业务的特殊性和复杂性导致了数据的复杂性和敏感性,因此,在对铁路数据进行开发利用的过程中,必须采取审慎的态度处理这些数据,避免发生数据的泄露和篡改,危害国民生命财产安全。本文结合铁路数据安全需求及当前数据安全防护技术,介绍了现存数据安全防护技术在铁路实际业务场景中的应用,并对未来铁路数据安全与防护的发展方向进行总结。数据安全与防护机制不仅是铁路智能应用的基础保障,更是推动铁路行业健康发展的关键因素,需要始终严格遵守数据安全防护机制,并随着技术的发展不断革新相关机制。
-
表 1 数据安全防护技术相关信息
技术名称 适用领域 关键特性 优势 局限性 使用场景 依赖 相关工具/框架 云平台安全
防护云计算 多租户隔离、动态调配、
自动化策略灵活、自动化、
分布式管理配置管理复杂、
动态适应挑战多租户云环境 虚拟化技术、
动态资源管理OpenStack、AWS 数据加密 数据传输、存储 对称加密、非对称加密、
哈希加密、量子加密高安全性,
确保数据完整性密钥管理复杂、
加密计算资源消耗大文件加密、数据
传输、存储密钥管理系统、
加密算法支持OpenSSL、GPG 安全连接 网络通信 传输层安全协议、
对称与非对称加密数据在传输中的机密性
和完整性协议配置复杂、
可能存在漏洞HTTPS、VPN、
远程连接TLS/SSL协议、
认证机制OpenSSL、Let's Encrypt 数据脱敏 数据隐私保护、
共享数据变形、混淆、
泛化、字符替换隐私信息保护、
支持数据共享数据处理复杂、隐私
保护与数据可用性平衡数据共享、数据库
隐私保护数据处理算法、
数据分级管理k匿名、DLP工具 隐私计算 大数据分析、
隐私保护同态加密、联邦学习、
多方安全计算在不泄露数据的情况下
进行计算计算开销大、
性能瓶颈多方数据协作、
隐私数据分析高性能计算设备、
加密算法支持Crypten、TF Encrypted -
[1] 佚 名. "十四五"铁路科技创新规划[J]. 铁道技术监督,2022,50(1):9-15,20. [2] 张维真,任 爽. 铁路数据安全与隐私保护技术体系研究[J]. 铁路计算机应用,2023,32(11):45-50. DOI: 10.3969/j.issn.1005-8451.2023.11.10 [3] 史天运,李新琴,代明睿,等. 铁路自然语言大模型关键技术研究及应用展望[J]. 中国铁路,2024(7):7-14. [4] Kim J G. Analysis of data isolation methods for secure web site development in a multi-tenancy environment[J]. Convergence Security Journal, 2024, 24(1): 35-42.
[5] Edo O C, Ang D, Billakota P, et al. A zero trust architecture for health information systems[J]. Health and Technology, 2024, 14(1): 189-199. DOI: 10.1007/s12553-023-00809-4
[6] Chowdhury D, Dey A, Garai R, et al. DeCrypt: a 3DES inspired optimised cryptographic algorithm[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(5): 4745-4755. DOI: 10.1007/s12652-022-04379-7
[7] Ajeena R K K. A proposed modification of Diffie-Hellman key exchange based on integer matrices[J]. International Journal of Mathematics and Computer Science, 2024, 19(1): 211-218.
[8] De Capitani di Vimercati S, Foresti S, Livraga G, et al. k-anonymity: from theory to applications[J]. Transactions on Data Privacy, 2023, 16(1): 25-49.
[9] Dhanjal A S, Singh W. A comprehensive survey on automatic speech recognition using neural networks[J]. Multimedia Tools and Applications, 2024, 83(8): 23367-23412.
[10] Al-Khasawneh M A, Mahmoud M. Safeguarding identities with GAN-based face anonymization[J]. Engineering, Technology & Applied Science Research, 2024, 14(4): 15581-15589.
[11] 饶 伟,李碧秋,任宸莹,等. 铁路数据分类分级保护路径研究[J]. 铁道通信信号,2023,59(11):49-54. [12] 黄 磊,姜德友. 铁路数据隐私计算体系构建研究[J]. 铁路计算机应用,2023,32(8):17-22. DOI: 10.3969/j.issn.1005-8451.2023.08.03 [13] 赵宏涛. 面向数据隐私的高速铁路智能调度大数据运用方案研究[J]. 铁道运输与经济,2024,46(6):81-86,96.