国产大模型如何引领铁路智能化发展

doi:10.3969/j.issn.1005-8451.2025.03.16

国产大模型如何引领铁路智能化发展

计量
- 文章访问数: 107
- HTML全文浏览量: 46
- PDF下载量: 62
出版历程
- 刊出日期: 2025-03-24

摘要

摘要:
人工智能技术蓬勃发展，尤其以大模型为代表的生成式人工智能进步更加引人瞩目。2025年初，DeepSeek大模型成为国内外科技界的瞩目焦点，其卓越的技术创新和深度思考能力在多个业务领域表现出强大的应用潜力，人工智能技术已逐步从感知智能走向认知智能，从弱人工智能走向强人工智能。

HTML全文

为推进大模型技术在铁路应用的广度和深度，赋能智能铁路发展，中国铁道学会智能铁路委员会依托会员单位编写大模型赋能智能高铁简报，旨在明确智能铁路人工智能应用场景，联合路内外相关单位开展大模型应用协同创新，加快智能铁路科技创新的步伐。

1 大模型基本概念及技术发展

1.1 大模型基本概念

大模型是指参数量巨大、计算复杂度高、训练数据规模庞大的深度学习模型，具有高维稀疏、数据依赖性强、计算资源消耗大等特点。在人工智能应用领域中，大模型具有强大的表示能力和泛化能力，能够处理复杂的任务和大数据，包括自然语言大模型、计算机视觉大模型与多模态大模型三类。

自然语言大模型：用大量文本数据训练的海量参数文本模型，可以理解输入的自然语言文本的含义并生成文本回复，完成文本生成、文本摘要、问答、翻译等文本相关任务。

计算机视觉大模型：具有海量参数的视觉人工智能模型，通过预训练学习图像和视频中的高层次视觉表征，支持图像分类、人脸识别、目标检测、情感分析、目标分割等任务。

多模态大模型：能够理解文本、图像、音频等多种类型数据的人工智能大模型，通过跨模态对齐和联合训练实现信息融合，具备文生图、视频描述、多模态问答等跨模态推理能力。

与早期的人工智能模型相比，大模型实现了三大跃迁：参数规模从百万级跃升至万亿级，构建复杂的知识表征网络；训练范式从人工标注转向数据驱动，自主构建动态知识体系；任务泛化从单一场景扩展至跨领域多任务处理。这一转变标志着人工智能从“工具”向“认知伙伴”的进化，为工业智能化提供了新范式。

1.2 大模型技术发展历程

大模型技术从2017年的萌芽至今经历了井喷式的发展。2017年前的专用小模型时代，以RNN、CNN为代表的模型在长程依赖建模、全局建模等方面存在局限性。2017年，谷歌提出了Transformer架构和自注意力机制，奠定了大模型的技术基础。2018年以后，自然语言处理领域开始探索大模型架构，涌现出以BERT、GPT、XLNet等为代表的不同架构大语言模型^[1]。2020年，GPT-3以1750亿参数验证了“规模效应”，使得解码器架构为代表的大模型技术在自然语言处理领域进入快速发展阶段。2022年11月，OpenAI推出了基于GPT-3的生成式人工智能聊天机器人ChatGPT。ChatGPT可以生成类似人类的对话响应，为用户提供信息、回答问题和协助创作。ChatGPT的出现加速了大模型技术的发展，并催生了Gemini、Claude、LLaMa和Grok等一系列生成式大模型^[2]。2023年以来，随着多模态技术的发展，GPT-4V、Sora等大模型实现了跨模态推理，不断推动工业场景落地，标志着人工智能领域迎来通用大模型时代。如图1所示。

图 1 大模型技术发展的四大阶段

下载: 全尺寸图片幻灯片

当前大模型技术已经构建起“感知−认知−决策”的智能闭环。在自然语言处理领域，大模型不仅能够生成流畅的文本，更具备语义理解、情感分析和知识推理能力。计算机视觉技术的突破则让机器拥有了“看得懂”的能力，可以实现对环境的感知和识别。多模态大模型的出现标志着技术融合的新阶段。这类模型能够同时处理文本、图像、语音、传感器数据等多种输入形式，并建立跨模态的语义关联。以深度学习、大数据和算力突破为驱动，人工智能技术范式正从“小模型+定制化”向“大模型+通用化”演进，催生出具备跨领域知识理解、复杂决策支持和动态场景适应能力的通用人工智能底座。

人工智能大模型以其强大的通用能力和泛化能力，在金融、医疗、制造、教育、能源等领域得到广泛应用。在金融领域，大模型支撑智能投顾系统构建与高频交易风险实时监控；在医疗领域，大模型用于医学影像智能分析、基因序列解析及创新药物分子生成；在制造领域，大模型可以赋能生产流程仿真优化、设备故障预测性维护及供应链动态调度；在教育领域，大模型能够驱动个性化学习路径规划与跨学科知识图谱构建；在能源领域，大模型应用于电网负荷动态预测、分布式能源协同调度及碳足迹智能核算。大模型技术正在推动产业智能化转型进入规模化落地阶段。

2 DeepSeek大模型技术

2.1 DeepSeek大模型简介

在人工智能技术加速向垂直行业渗透，推动全球产业智能化升级的背景下，DeepSeek系列大模型的发布引发了全球热议。2024年12月26日，DeepSeek-V3宣布开源，凭借创新的混合专家（MoE）架构与混合精度训练技术，以低训练成本优势实现技术突破，引发高度关注。2025年1月20日，DeepSeek-R1全量推理模型正式发布，以超越GPT-4o的性能表现、完全本土化开源特性及纯国产团队研发背景，形成了广泛的传播效应，获得了多国政府，OpenAI、NVIDIA（英伟达）等国际厂商的重点关注^[3-4]。

DeepSeek系列模型由杭州深度求索人工智能基础技术研究有限公司（简称深度求索公司）开发，支持自然语言处理、代码生成和多模态数据处理等功能。自成立以来，深度求索公司陆续发布了一系列大模型，其最受瞩目的产品为DeepSeek-V3和DeepSeek-R1。DeepSeek-V3是一款通用的自然语言处理模型，旨在提供高效、可扩展的解决方案，适用于客户服务、文本摘要、内容生成等多个领域。DeepSeek-R1基于DeepSeek-V3架构，进一步利用思维链和强化学习技术提升其逻辑推理能力，从而在数学问题求解、代码生成、逻辑推理和逐步问题解决等复杂任务中具有更好的表现。在编程领域，DeepSeek-R1 能够处理复杂的编程任务，通过思维链技术，它能够生成详细的代码注释和解释，帮助开发者更好地理解代码逻辑。在金融领域，它能够快速解析股市行情、政策变动等复杂因素，生成高效的决策建议。在科学研究中，DeepSeek-R1 能够处理复杂的科学问题，通过思维链技术，它能够生成详细的推理过程，帮助科学家更好地理解科学现象。这些新应用不仅展示了 DeepSeek-R1 的强大推理能力，还为各行业带来了新的发展机遇。在多模态理解和生成领域，深度求索公司发布了开源多模态大模型Janus-Pro，主要应用于文本−图像生成领域，Janus-Pro通过优化训练策略、扩展训练数据以及扩大模型规模，在多模态理解和文本-图像指令遵循能力方面取得了显著进步^[5,6]。

2.2 关键技术创新

DeepSeek大模型的技术创新主要体现在以下五大方面：

（1）思维链技术

DeepSeek-R1大模型采用的思维链（CoT）技术可将复杂问题分解为多步骤进行逐步推理，并可根据实际反馈动态优化推理路径，提供更具深度、更强准确性的解题思路。思维链技术通过将复杂问题分解为多个简单子问题，使模型能够更专注于每个问题的核心步骤，从而提高计算资源的使用效率。与传统通用大模型相比，思维链大模型在推理能力上表现出色，尤其是在需要逻辑推理和复杂决策的任务中，能够提供更准确、更可靠的结果。与以Open AI o1为代表的商业思维链大模型使用的隐藏式思维链相比，DeepSeek-R1大模型的思维链是完全开放的，这意味着用户可以看到模型在推理过程中每一步的逻辑，充分满足对决策精准性与逻辑严谨性的严苛要求^[7]。

（2）模型蒸馏技术

由于DeepSeek- R1全量671 B大模型的硬件占用相对较高，为满足不同硬件条件用户的使用需求，DeepSeek团队通过高效的模型蒸馏技术，训练了1.5 B、7 B、14 B、30 B和70 B等不同参数量的蒸馏模型。模型蒸馏（Model Distillation）是一种让小型高效模型（学生模型）学习大型复杂模型（教师模型）的中间输出，从而将教师模型的知识迁移到学生模型的技术。蒸馏模型在具备更少参数量的情况下，最大程度的保留了DeepSeek全量模型的思考与推理能力。根据从个人电脑到大型服务器的不同环境，可以自由选择不同体量的蒸馏模型，最大程度体验大模型技术的发展，开展大模型技术的应用^[4]。

（3）模型架构创新

DeepSeek大模型采用了混合专家（MoE）架构和多头潜在注意力（MLA）机制，能够在保持高性能的同时大幅降低计算成本。MoE架构的原理可看作分工明确的专家团队，不同“专家”模块处理不同任务，避免全员加班。MLA的原理则是通过给AI装上“聚光灯”，自动聚焦文本关键部分，阅读上下文高效且不漏重点，在不丢失重要信息的前提下减少计算负担，同时还确保了结果的相关性和准确性。DeepSeek大模型拥有6710亿参数，但每次输入仅激活370亿参数，显著降低了显存消耗，提升了推理效率^[3,8]。

（4）训练范式创新

在训练过程中，DeepSeek大模型采用了多令牌预测（MTP）和群体相对策略优化（GRPO），在降低训练负担的同时显著提高了训练速度。多令牌预测让模型不再逐字“挤牙膏”，而是像人思考一样连续生成多个词。MTP设计不但使模型能更充分地利用上下文信息，提升生成文本的连贯性和准确性，减少了所需的训练步骤，缩短了整体训练时间，提升了模型的泛化能力。同时，通过GRPO算法比较多个解答的性能，优化策略网络，绕过了构建复杂价值模型的需求，使得模型参数量减少了40%～60%，减轻了网络负担，并加快了收敛速度^[3,9]。

（5）底层硬件突破

英伟达GPU的指令系统分为三层：顶层CUDA、中间层PTX及底层SASS。深度求索团队在训练DeepSeek大模型时，通过直接操作PTX层，优化模型训练过程，实现了技术突破：首先，通过寄存器重分配将流处理器中的寄存器使用率提高，增加了计算资源的有效利用率；其次，线程束重组优化了指令序列，减少了计算单元的闲置时间，增强处理能力；最后，内存访问优化缩短了全局内存访问延迟，加快了数据处理速度并提升了系统响应能力。

3 DeepSeek大模型技术在智能高铁中的应用

3.1 典型应用场景

为加快铁路新质生产力的发展，紧密围绕国家重大战略需求以及铁路六个现代化体系建设目标，中国铁道学会智能铁路委员会结合2023和2024年发布的两批铁路人工智能应用20大场景，如图2所示。依据智能高铁体系架构，系统梳理形成了智能建造、智能装备、智能运营等板块的大模型应用场景^[10-11]。

图 2 智能高铁应用场景示意图

下载: 全尺寸图片幻灯片

DeepSeek大模型的出现为智能高铁的总体应用带来了新的技术手段，其强大的自然语言理解和生成能力，以及多模态数据处理能力，为智能建造、智能装备、智能运营三大板块的应用提供了有力支持^[12]。在智能建造板块，DeepSeek能够通过多模态数据融合，优化工程勘察设计，提升施工效率和质量。在智能装备板块，其预测性维护和智能分析能力，有助于提高动车组的运行安全性和可靠性。在智能运营板块，应用DeepSeek智能问答和数据分析能力，实现铁路智能客服、运营数据挖掘与预测，提升旅客的出行体验和运营效率。

3.1.1 智能建造大模型应用

（1）勘察设计

利用生成式大模型，结合多模态数据融合、语义分割等技术，智能识别地下岩层、断裂带、地下水分布及地表覆盖类型，实现不良地质条件下灾害风险的精准评估；运用生成式人工智能、大模型、知识图谱等技术，融合设计案例、设计专家的经验和决策知识，自动生成路桥隧等工点级设计方案、设计图纸等，实现铁路工程智能设计。

（2）工程施工

应用大模型推理能力，分析施工过程中的各种数据，如地质条件、设备运行状态、人员工作效率等，提前预测潜在问题，并提供精准的优化方案。在隧道施工中，大模型根据实时监测数据，动态调整施工顺序和资源配置，优化施工方案，提高施工效率和安全性。

（3）建设管理

构建涵盖地质、气象、设备状态的多维特征向量空间知识库，应用大模型综合数据分析能力，实现铁路施工风险预测，提升施工风险主动预测能力。融合人工智能技术解析工程建设标准文件，构建智能审查知识中枢，实现铁路BIM模型健康智能评价，创新数字工程检测模式。

3.1.2 智能装备大模型应用

（1）移动装备

运用大模型、多传感器融合感知、物联网、云孪生等技术，全面态势感知动车组、基础设施、外部环境的实时状态，实现动车组服役性能及运营环境状态精准评估、环境自主适应、故障预测报警、导向安全控制、健康状态自修复和轮轨一体化预测性维修，实现高水平拟人化自主驾驶，以及旅客服务全面可视化和智能自助化的智能动车组。

（2）通信信号

基于高速动车组、基础设施、外部环境等全要素融合感知，攻克高铁控车算法自适应、车−车协同、自主决策等关键技术，实现高速列车无人驾驶。

（3）牵引供电

综合运用大模型、综合位姿感知、计算机视觉引导、多维路径规划等先进技术，研制牵引供电设备安装和配线，接触网及零部件参数测量和外观状态检测机器人，实现牵引供电设备智能施工和牵引供电设备故障智能诊断。

（4）检测监测

综合运用物联网传感、空天地感知、北斗定位、大小模型协同等技术，实现铁路基础设施重点区段监测、关键部件病害识别，动车组车辆运行异常故障智能识别及辅助维修，自然灾害及异物侵限的智能识别与处置，提升铁路安全风险预警能力。

3.1.3 智能运营大模型应用

（1）客运服务

基于语音识别、意图理解、语音合成和多轮对话等人工智能技术，实现12306多语言和多方言的自助购票，提升客服的智能化水平。结合人工智能代理、机器人具身智能、群体智能决策及动态知识图谱构建等技术，研发适合铁路客运服务场景的人工智能对话与服务数字人，实现铁路客站全龄畅行个性化无障碍助行服务。

（2）运输组织

针对大规模复杂路网条件下列车运行图编制中场景多样化、约束耦合高、决策组合复杂等难点，基于运筹学与人工智能的列车运行时空径路优化、运行图自动生成大模型、多种运力资源协同理论方法，研发基于自学习的列车运行图智能编制系统，实现大规模复杂路网条件下列车运行图高效率、高质量编制。

（3）运维管理

构建铁路跨专业设备运维知识库，基于大模型语义理解、知识生成能力，实现运维知识智能问答、设备故障诊断、维修措施推荐、分析报告生成等应用；利用数据采集、大模型、数据融合分析等技术，实现动车组设备故障预测预警、健康状态评估、视情维修决策，实现从计划预防修向数字化状态修、预测性维修转变。

3.2 DeepSeek大模型物理部署与安全保障

3.2.1 DeepSeek大模型的物理部署方案

DeepSeek系列模型遵循MIT开源软件许可协议，MIT许可协议是一款宽松的许可协议，允许任何人免费获得随意使用、复制、修改、出版发行和贩售被许可软件的权利。这意味着DeepSeek系列大模型允许企业和开发者任意进行商业应用和二次开发，打破了技术巨头在大模型领域的闭源垄断格局。

在部署支持方面，DeepSeek大模型具有良好的国产信创环境适配性，其全量模型及不同参数量的蒸馏模型均可在国产信创服务器上完成部署。由于完整DeepSeek-R1模型参数量较大（全量参数达到6710亿），私有化部署对硬件要求较高，其中未经量化的DeepSeek-R1全量大模型的显存需求超过1500 GB。为适应不同硬件环境，DeepSeek还提供量化版本及多种蒸馏模型部署方案，有效降低了部署门槛，提高了国产化应用的可行性。不同模型的具体部署需求如表1所示。

表 1 DeepSeek大模型私有化部署需求表

分类	模型名称	参数量^[4]	量化	显存需求^[13]
语言大模型	DeepSeek-V3	671 B	无	～ 1543 GB
	DeepSeek-R1	671 B	无	～ 1543 GB
	DeepSeek-R1	671 B	4 bit	～ 436 GB
	DeepSeek-R1	671 B	1.58 bit	～ 160 GB
	DeepSeek-R1-Distill-Llama-70B	70 B	无	～ 181 GB
	DeepSeek-R1-Distill-Llama-70B	70 B	4 bit	～ 46 GB
	DeepSeek-R1-Distill-Qwen-32B	32 B	无	～ 82 GB
	DeepSeek-R1-Distill-Qwen-32B	32 B	4 bit	～ 21 GB
	DeepSeek-R1-Distill-Qwen-14B	14 B	无	～36 GB
	DeepSeek-R1-Distill-Qwen-14B	14 B	4 bit	～ 9 GB
	DeepSeek-R1-Distill-Llama-8B	8 B	无	～ 21 GB
	DeepSeek-R1-Distill-Llama-8B	8 B	4 bit	～ 5 GB
	DeepSeek-R1-Distill-Qwen-7B	7 B	无	～ 18 GB
	DeepSeek-R1-Distill-Qwen-7B	7 B	4 bit	～ 4.5 GB
	DeepSeek-R1-Distill-Qwen-1.5B	1.5 B	无	～ 3.9 GB
	DeepSeek-R1-Distill-Qwen-1.5B	1.5 B	4 bit	～ 1 GB
多模态大模型	DeepSeek-Janus-Pro-7B	7 B	无	～ 24 GB
多模态大模型	DeepSeek-Janus-Pro-1B	1.5 B	无	～ 8 GB

下载: 导出CSV

| 显示表格

DeepSeek大模型在性能表现、成本效益、开源可控和国产化支持方面的优势，使其可以作为行业/企业大模型基础模型，支持行业/企业集成应用。

3.2.2 基于DeepSeek的数据安全保障机制

随着人工智能技术的快速发展，其安全性也面临新的挑战。为促进生成式人工智能健康发展和规范应用，维护国家安全和社会公共利益，保护公民、法人和其他组织的合法权益，国家网信办于2023年7月发布了《生成式人工智能服务管理暂行办法》，以防范生成式人工智能服务风险，促进生成式人工智能健康发展。在基于DeepSeek大模型开展铁路人工智能应用过程中，需要保障铁路数据安全、模型安全、系统安全、资产安全和模型内容安全^[14]。

在数据安全层面，DeepSeek大模型支持本地化部署，数据存储在本地服务器，无需上传至第三方云端，避免了数据在传输过程中可能存在的风险，确保敏感信息不出内网。除此之外，还需通过设置严格的访问控制，确保只有授权用户才能访问数据，保障铁路数据在标注、存储、使用过程中的安全，防止数据泄露、篡改或非法获取。

在模型安全层面，需要重点解决算法误判、恶意攻击等安全隐患。深入研究模型的内部机制，模拟各种极端条件和异常情况，确保其在处理各种复杂情况时都能保持清晰、准确的判断，提高模型的可解释性；针对算法误判问题，通过鲁棒优化算法提高模型鲁棒性；针对模型可能遭受的恶意攻击，采用先进的对抗样本防御技术，使得模型能够在受到恶意攻击时仍能正确识别和处理信息，从而保障模型的安全。

在系统安全层面，采用防火墙、入侵检测、权限管理等技术，建设安全可靠的运行环境，提高系统整体的稳定性和安全性；在应急处置与持续监控方面，建立健全应急响应预案，实时监测人工智能系统运行状态，及时发现并有效应对各类安全事件，降低潜在风险，保障系统的稳定性和安全性。

资产安全方面，通过提示词攻击防御技术，防止模型被恶意提示词诱导泄露铁路敏感信息，降低攻击者通过模型输出反推训练数据的可能性；针对模型结构和模型权重参数安全，采用模型信息防窃取、版权保护、模型文件保护等方法，防止铁路人工智能模型的核心结构、权重参数等涉及核心知识产权的信息被恶意复制或解析，确保模型资产的安全。

内容安全层面，需要加强输入输出内容筛选，利用内容过滤、提示词安全评测以及意图识别等相关技术，对用户输入的内容进行干预筛选，确保输入内容与铁路大模型业务的关联性；通过微调技术利用铁路大模型样本库中的可靠数据对大模型进行微调，提高大模型生成内容的质量和安全性；通过大模型输出内容安全检测与筛选技术，确保模型输出内容正确且严格遵循法律法规和道德准则。

4 结束语

基于智能高铁体系架构和DeepSeek大模型技术应用发展现状，智能铁路委员会围绕大模型基本概念及发展历程、DeepSeek技术创新及智能高铁典型应用场景发布2025年第一期简报。后续，智能铁路委员会将根据各会员单位大模型应用现状及需求，丰富智能建造、智能装备、智能运营等场景应用案例，陆续发布多期简报，欢迎各会员单位积极献计献策，共同参与后续简报的编制工作。

图 1 大模型技术发展的四大阶段

下载: 全尺寸图片幻灯片

图 2 智能高铁应用场景示意图

下载: 全尺寸图片幻灯片

表 1 DeepSeek大模型私有化部署需求表

分类	模型名称	参数量^[4]	量化	显存需求^[13]
语言大模型	DeepSeek-V3	671 B	无	～ 1543 GB
	DeepSeek-R1	671 B	无	～ 1543 GB
	DeepSeek-R1	671 B	4 bit	～ 436 GB
	DeepSeek-R1	671 B	1.58 bit	～ 160 GB
	DeepSeek-R1-Distill-Llama-70B	70 B	无	～ 181 GB
	DeepSeek-R1-Distill-Llama-70B	70 B	4 bit	～ 46 GB
	DeepSeek-R1-Distill-Qwen-32B	32 B	无	～ 82 GB
	DeepSeek-R1-Distill-Qwen-32B	32 B	4 bit	～ 21 GB
	DeepSeek-R1-Distill-Qwen-14B	14 B	无	～36 GB
	DeepSeek-R1-Distill-Qwen-14B	14 B	4 bit	～ 9 GB
	DeepSeek-R1-Distill-Llama-8B	8 B	无	～ 21 GB
	DeepSeek-R1-Distill-Llama-8B	8 B	4 bit	～ 5 GB
	DeepSeek-R1-Distill-Qwen-7B	7 B	无	～ 18 GB
	DeepSeek-R1-Distill-Qwen-7B	7 B	4 bit	～ 4.5 GB
	DeepSeek-R1-Distill-Qwen-1.5B	1.5 B	无	～ 3.9 GB
	DeepSeek-R1-Distill-Qwen-1.5B	1.5 B	4 bit	～ 1 GB
多模态大模型	DeepSeek-Janus-Pro-7B	7 B	无	～ 24 GB
多模态大模型	DeepSeek-Janus-Pro-1B	1.5 B	无	～ 8 GB

下载: 导出CSV

参考文献(14)

[1]	Zhao W X, Zhou K, Li J Y, et al. A survey of large language models[DB/OL]. arXiv, 2023[2025-03-02]. http://arxiv.org/abs/2303.18223.
[2]	OpenAI. Introducing ChatGPT[EB/OL]. (2024-03-13)[2025-03-02]. https://openai.com/index/chatgpt/.
[3]	DeepSeek-AI, Liu A X, Feng B, et al. DeepSeek-V3 technical report[DB/OL]. arXiv, 2024[2025-03-02]. http://arxiv.org/abs/2412.19437.
[4]	DeepSeek-AI, Guo D Y, Yang D J, et al. DeepSeek-R1: incentivizing reasoning capability in llms via reinforcement learning[DB/OL]. arXiv, 2025[2025-03-02]. http://arxiv.org/abs/2501.12948.
[5]	DeepSeek(人工智能企业)[EB/OL]. [2025-03-02]. https://baike.baidu.com/item/DeepSeek/65258669.
[6]	Chen X K, Wu Z Y, Liu X C, et al. Janus-pro: unified multimodal understanding and generation with data and model scaling[DB/OL]. arXiv, 2025[2025-03-02]. http://arxiv.org/abs/2501.17811.
[7]	Wei J, Wang X Z, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[C]//Proceedings of the 36th International Conference on Neural Information Processing Systems, 28 November-9 December, 2022, New Orleans. Red Hook, NY, USA: Curran Associates Inc. , 2022: 1800.
[8]	Dai D M, Deng C Q, Zhao C G, et al. DeepSeekMoE: towards ultimate expert specialization in mixture-of-experts language models[DB/OL]. arXiv, 2024[2025-03-02]. http://arxiv.org/abs/2401.06066.
[9]	Shao Z H, Wang P Y, Zhu Q H, et al. DeepSeekMath: pushing the limits of mathematical reasoning in open language models[EB/OL]. arXiv, 2024[2025-03-02]. http://arxiv.org/abs/2402.03300.
[10]	王同军. 智能高速铁路概论[M]. 北京:高等教育出版社,2023.
[11]	王同军. 中国智能高速铁路2.0的内涵特征、体系架构与实施路径[J]. 铁路计算机应用,2022,31(7):1-9. DOI: 10.3969/j.issn.1005-8451.2022.07.01
[12]	王同军,王万齐,李平,等. 模数一体化平台赋能下的智能高铁2.0关键技术展望[J]. 中国铁路,2024(7):1-6.
[13]	Hannah F. DeepSeek System Requirements Guide For Mac OS (V3, R1, All Variants)[EB/OL]. [2025-03-02]. https://apxml.com/posts/deepseek-system-requirements-mac-os-guide.
[14]	国家互联网信息办公室,中华人民共和国国家发展和改革委员会,中华人民共和国教育部,等. 生成式人工智能服务管理暂行办法[EB/OL]. [2025-03-02]. https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm.

施引文献

资源附件(0)

图(2) / 表(1)

计量

文章访问数: 107
HTML全文浏览量: 46
PDF下载量: 62
被引次数: 0

1 大模型基本概念及技术发展
1.1 大模型基本概念
1.2 大模型技术发展历程
2 DeepSeek大模型技术
2.1 DeepSeek大模型简介
2.2 关键技术创新
3 DeepSeek大模型技术在智能高铁中的应用
3.1 典型应用场景
3.1.1 智能建造大模型应用
3.1.2 智能装备大模型应用
3.1.3 智能运营大模型应用
3.2 DeepSeek大模型物理部署与安全保障
3.2.1 DeepSeek大模型的物理部署方案
3.2.2 基于DeepSeek的数据安全保障机制
4 结束语

1 大模型基本概念及技术发展
1.1 大模型基本概念
1.2 大模型技术发展历程
2 DeepSeek大模型技术
2.1 DeepSeek大模型简介
2.2 关键技术创新
3 DeepSeek大模型技术在智能高铁中的应用
3.1 典型应用场景
3.1.1 智能建造大模型应用
3.1.2 智能装备大模型应用
3.1.3 智能运营大模型应用
3.2 DeepSeek大模型物理部署与安全保障
3.2.1 DeepSeek大模型的物理部署方案
3.2.2 基于DeepSeek的数据安全保障机制
4 结束语

参考文献(14)

施引文献

资源附件(0)