Anti counterfeiting detection technology based on large model and its application progress in field of intelligent railway
-
摘要:
各类智能铁路管理系统在运行过程中会产生海量数据,深度伪造技术严重威胁这些数据的真实性,为此,开展针对深度伪造的防伪检测技术及其在智能铁路领域应用进展的研究。文章梳理深度伪造技术及其特点,分析防伪检测方法的研究现状和发展趋势,重点介绍了基于大模型的防伪检测技术研究进展,并比较不同防伪检测技术的优缺点;结合铁路场景特征,分析多模态大模型的应用潜力,构建多模态大模型驱动的防伪检测架构,并指出其在监控识别、调度语音验证、票务身份核验等关键业务场景的技术难点。该研究可为智能铁路防伪检测提供理论支撑。
Abstract:Various intelligent railway management systems generate massive amounts of data during operation, and deepfake technology seriously threatens the authenticity of this data. Therefore, this paper conducted research on anti-counterfeiting detection technology for deepfake and its application progress in the field of intelligent railways. The paper sorted out the deepfake technology and its characteristics, analyzed the research status and development trends of anti-counterfeiting detection methods, focused on the research progress of anti-counterfeiting detection technology based on large models, compared the advantages and disadvantages of different anti-counterfeiting detection technologies, combined the characteristics of railway scenarios to analyze the application potential of multimodality large models, constructed a multimodality large model driven anti-counterfeiting detection architecture, and pointed out its technical difficulties in key business scenarios such as monitoring and recognition, scheduling voice verification, and ticketing identity verification. This study can provide theoretical support for intelligent railway anti-counterfeiting detection.
-
Keywords:
- deepfake /
- anti-counterfeiting detection /
- large model /
- intelligent railway /
- multi-modal fusion
-
随着“交通强国、铁路先行”战略深入推进及“智能高速铁路体系架构2.0”[1]的提出,我国铁路系统正加速构建高度网络化、智能化的管理体系。铁路监控系统、调度指挥系统、票务系统对图像、视频、语音等多模态数据的依赖日益增强。与此同时,深度伪造技术的快速发展对数据安全构成严峻挑战。该技术利用深度学习技术生成伪造的图像、视频、音频或文本,达到以假乱真的目的。随着生成伪造模型架构和计算能力的不断优化,深度伪造合成质量越来越接近真实内容,其语义信息与真实场景也更加匹配,以至于单纯靠人工难以直接判断真伪。
铁路系统信息交互过程中,通信协议的完备性、新旧系统之间的兼容性及数据传输时链路的抗风险性等环节较薄弱[2],给伪造数据的非法入侵提供机会。有案例显示,攻击者可借助中间人攻击(MITM,Man-in-the-MiddleAttack)技术篡改摄像头传输的监控画面[3-4]。随着实时人脸伪造开源工具不断涌现,不法分子可将伪造视频与MITM技术相结合,实现对监控视频的实时伪造[5]。此外,攻击者还可使用虚拟摄像头技术伪造影像,借用伪造人脸绕过身份验证机制[6],这种攻击方法对于采用摄像头进行人脸身份验证的铁路12306互联网售票系统而言,构成直接安全威胁。
综上,研究高效防伪检测技术已成为保障铁路系统稳定运行和维护公众信任的重要课题[7]。本文聚焦智能铁路系统领域,围绕深度伪造检测技术的研究进展、应用现状及未来走向展开论述:归纳当前深度伪造技术及其特点;对主流防伪检测方法进行阐述,重点探讨以大模型为驱动的防伪检测关键技术;针对智能铁路领域,剖析当前防伪检测技术的应用难题。
1 深度伪造技术
深度伪造技术按核心架构可分为基于自编码器(AE,AutoEncoder)[8]、生成对抗网络(GAN,Generative Adversarial Network)[9]及扩散模型(DMs,Diffusion Models)[10]等3类方法。
1.1 基于AE的深度伪造方法
AE是一种无监督学习的神经网络模型,其由编码器和解码器构成。编码器将输入数据映射为潜在特征空间表示;解码器重建原始数据,从而让模型学习到输入数据的关键特征。基于自编码器的深度伪造原理[11]如图1所示。换脸伪造模型由2个AE构成,二者的编码器共享参数。在训练阶段,2个自编码器分别学习重建源人脸与目标人脸;在测试阶段,使用者只需将源人脸的潜在特征输入用于重建目标人脸的解码器,即可实现人脸交换的效果。
AE也可用于音频生成。以文本到语音合成为例,生成模型通过编码器提取语音风格的潜在特征,结合文本内容一同输入到解码器中,从而生成对应风格的语音。
但若想生成高分辨率、高度逼真的内容,AE存在一定局限性,其生成的样本往往存在细节缺失问题,尤其面对复杂场景时,模型的生成质量难以达到理想状态。
1.2 基于GAN的深度伪造方法
GAN由生成器和判别器组成,二者通过对抗训练生成数据,在深度伪造生成中得到了广泛应用,并取得了显著成果。基于生成对抗网络的深度伪造原理[12]如图2所示。
对于人脸合成、图像风格转换等任务来说,GAN表现出色。以人脸合成为例,StyleGAN[13]等模型通过优化生成器结构或设计潜在空间可以更加精细控制人脸属性,其输出图像在细节、纹理等方面能达到较高水平。
GAN还可以生成视频,无论是人物动作视频还是虚拟场景视频,该技术结合时间序列信息和对抗训练机制,保证生成视频在时间维度上具有连贯性,即可伪造出逼真的动态内容。然而,GAN训练过程中易出现模式崩溃等问题。
1.3 基于DMs的深度伪造方法
DMs是近年来深度伪造生成技术的重要发展方向。其基本原理是基于正向扩散和反向扩散过程,逐步将噪声添加到真实数据中,再通过学习反向过程从噪声中恢复原始数据,从而实现生成任务。
DMs仅需要输入文本描述即可生成相应高质量图像,以Stable Diffusion[14]模型为例,该模型在前向扩散阶段,先向初始随机噪声中逐步添加高斯噪声,使数据分布逐渐趋近于标准正态分布,接着对随机噪声逐步去噪,并引导噪声分布朝着文本语义描述的图像特征空间收敛,最终输出与文本语义高度对齐的逼真图像。其原理如图3所示。该方法生成的图像在语义理解和视觉效果上都有较好的表现。DMs生成视频时会新增时间维度来生成连贯的视频内容。
DMs的优势在于,对复杂数据分布的建模能力强,能生成丰富且质量高的伪造数据,但其训练过程计算成本较高,推理速度较慢。
2 深度伪造的防伪检测方法研究
早期防伪检测技术基于手工特征与物理规律进行研究,但其对新型攻击手段几乎无效,检测效果较差。随着深度学习的兴起,基于深度学习模型的防伪检测方法成为主流,其通过神经网络自动提取特征。进入大模型时代后,由于大模型的跨模态推理和语义理解能力较强,研究者们便融合视觉、语音及文本等数据,研发出一系列跨模态对齐与推理统一架构的多模态大模型。
本文梳理针对深度伪造的防伪检测方法,对其技术原理、适用场景及数据类型等进行对比,如表1所示。
表 1 防伪检测方法对比方法 传统方法 基于深度学习模型 基于大模型 技术原理 利用物理和数字特征的异常表现,如面部关键点、照明一致性、阴影分布等进行分析 利用CNN、RNN、LSTM等深度学习模型,从数据中学习空间和时间特征 利用LLM和多模态大模型,结合跨模态推理和语义理解能力进行检测 适用场景 简单伪造内容,如早期图像合成、人脸交换 图像、音视频社交媒体内容监测、司法鉴定等 适用于复杂的多模态数据环境,能处理多种数据类型,适合需要高层语义分析的场景 数据类型 图像、视频帧、音频,依赖明显的伪造痕迹 处理图像、视频和音频等多种数据类型,适应不同质量和压缩水平的数据 处理多模态数据,包括文本、音频、图像和视频,具备跨模态分析能力 检测准确率 检测准确率低,对新型攻击手段几乎无效 检测准确率较高,依赖数据集质量和攻击类型,对已知伪造技术有良好性能 检测准确率高,具备零样本识别潜力,能够应对未见过的深度伪造技术 优势 实现简单、计算成本低、可解释性强,适合资源受限的环境 检测准确率高,能够学习复杂的模式和特征 语义理解能力强,适应性高,支持多任务联合建模,具备持续学习能力 局限性 特征设计依赖专家经验,易受压缩、噪声影响,难应对复杂伪造技术 需要大量标注数据,可能存在过拟合问题,跨模态能力有限 算力资源需求高,部署成本大,需要解决实时性与推理效率问题 2.1 传统防伪检测方法
传统防伪检测方法主要依赖于物理和数字特征的异常表现。早期深度伪造内容大多有明显的物理特征缺陷[15],物理特征包括图像或视频中照明一致性、阴影分布和反射特征等;同时,从信号级别分析图像或视频的特征,伪造数据会出现噪声分析、压缩伪影检测和颜色分布等异常。
传统防伪检测方法基于手动设计的特征提取器,结合支持向量机、随机森林树等经典分类算法进行检测,这类方法对计算资源要求较低,但在处理高维特征和复杂模式时表现不佳,难以应对高度逼真的深度伪造结果。
2.2 基于深度学习模型的防伪检测方法
深度学习为防伪检测带来自主特征学习能力。在图像防伪检测中,卷积神经网络(CNN,Convolutional Neural Network)是图像领域最常使用的基础架构[16],其代表性变种有Xception[17]、EfficientNet[18]等,它们均可通过多层卷积操作提取出人脸区域局部纹理和边缘特征。Zhao等人[19]认为真实人脸和伪造人脸间的区别体现在局部细节当中,故提出纹理增强模块、注意力生成模块与双线性注意力池化模块,以引导模型更多地关注人脸纹理细节。
He等人[20]提出一种基于局部—全局时间缺陷的检测方法,以长短时记忆网络(LSTM,Long Short Term Memory)[21]为基础架构,从局部层面捕捉相邻帧间像素运动的不一致性,从全局层面构建时序依赖网络,通过时间逻辑的断裂判断视频真伪。Vahdati等人[22]发现伪造方法易在特定频域留下伪造痕迹,故利用傅里叶变换来捕获帧与帧之间的频率异常。
基于深度学习模型的防伪检测方法适合计算资源受限的情况,但由于铁路是一个多样化场景,不同模态数据的分布差异大,因而该方法往往难以胜任跨设备、跨场景的检测任务。此外,其难以适应新的伪造模式,检测由DMs生成的未知伪造内容时检测效果往往不佳,即具有较差的泛化能力。
2.3 基于大模型的防伪检测方法
基于大模型的防伪检测方法拥有强大的表征学习与跨模态推理能力,可得到更鲁棒、更准确的防伪检测结果。
2.3.1 单模态防伪检测方法
(1)文本级防伪检测
大语言模型能生成结构清晰、逻辑通顺的文本内容,导致很难将其与人类撰写的文本区分开来。Mitchell等人[23]提出的DetectGPT,其核心思想是对输入文本加入轻微扰动,再借助语言模型评估其生成概率的曲率差异,从而区分人类与机器生成的文本。在追溯生成模型来源方面,Habibzadeh等人[24]结合困惑度与突发性2个维度,量化文本的复杂程度,从而判定文本内容的来源;Venkatraman等人[25]通过构建风格表征空间以识别特定模型生成特征,提出GPT-Who方法,得到伪造文本的生成来源。Liu等人[26]引入可解释性机制,借助大模型的内在注意力分布来输出伪造判断的依据,为伪造检测系统提供可解释能力。
(2)图像级防伪检测
对于未知伪造手段生成的高逼真视觉内容,传统图像纹理分析与基于深度学习的方法都难以准确检测出真伪,而大模型却可实现高效检测。研究者普遍采用对比语言−图像预训练(CLIP,Contrastive Language-Image Pretraining)[27]模型来提取图像特征。Liu等人[28]提出了CLIPMoLE模型,如图4所示,该模型利用低秩专家混合模型来增强CLIP-ViT在深度伪造检测中的潜力,旨在保留预训练知识的同时增强模型的适应性;Moskowitz等人[29]证明了CLIP的零样本迁移能力,仅微调CLIP图像编码器,结合简单线性分类器就可区分真实与伪造图像,并且在未知生成图片上的检测表现优于专门设计的检测器;Smeu等人[30]冻结CLIP视觉编码器,通过卷积解码器提取局部特征,进行局部篡改定位,尤其对DMs生成图像检测效果好;Yermakov等人[31]利用CLIP的ViT-L/14视觉编码器,结合参数高效微调技术,在多个深度伪造人脸数据集上取得了较好结果。
(3)音频级防伪检测
Buch等人[32]将音频转换为梅尔频谱图等视觉表征,再利用预训练视觉模型进行分类判别。Combei等人[33]通过对WavLM模型进行微调,经数据增强和微调后,可进行音频深度伪造检测;Liu等人[34]提出Nes2Net轻量级架构,直接利用音频大模型的高维特征,嵌套多尺度设计和自适应融合特征来增强跨通道交互,从而实现高效语音防伪检测。
2.3.2 多模态深度伪造的防伪检测方法
多模态生成技术的发展使得伪造内容不再局限于单一模态。例如,通过图文扩散模型同时生成图片与配文,或利用音视频生成模型合成唇音同步的视频内容。这类复合型伪造方式对防伪检测方法提出更高要求,也激发基于多模态大模型防伪检测方法的快速发展。因此,研究者们开始构建能够处理图像、文本、音频、视频等多模态混合输入的防伪检测系统,多模态深度伪造的防伪检测系统架构如图5所示。
该架构先以各种模态编码器为基础,分别对多种类型数据进行特征提取;再通过大语言模型(LLMs,Large Language Models)实现多模态特征的统一理解和推理,从而进一步处理目标检测、视觉问答(VQA,Visual Question Answering)及语音识别等多种子任务;最后,通过语义一致性分析、音频一致性分析及图文一致性分析等机制,综合判断不同模态内容之间的关联性与真实性。
(1)视觉—文本伪造的防伪检测
该检测任务旨在识别图像与对应文本间的语义一致性与真伪关联,主要使用视觉语言模型或多模态大模型来完成语义对齐与伪造识别。例如,Liu等人[35]提出了ForgeryGPT模型,将检测任务转化为视觉问答任务,并通过3阶段训练策略和多模态对齐数据集提升场景泛化能力,即使是复杂伪造也能得到检测、定位与解释的一体化结果;Huang等人[36]提出的SIDA架构,融合了视觉与文本模态特征,仅微调文本编码器和跨模态交互层,在保持性能的同时显著减少训练参数,并结合掩膜机制来定位伪造区域;Tan等人[37]整合深度伪造的通用语义概念,并将其作为类别通用提示注入CLIP的文本编码器中,以引导图像编码器学习到伪造本质特征,而非数据集特有的偏差,实现跨场景的泛化检测。
(2)音频—视频/文本伪造的防伪检测
该检测主要聚焦于语音与视频帧之间的同步一致性问题,如口型与语音是否匹配。Oorloff等人[38]采用2阶段框架AVFF,第1阶段使用A2V与V2A网络以自监督方式捕获音频—视频跨模态关系;第2阶段对部分模块微调并接入分类器网络,实现真伪视频的分类。
音频与文本的伪造检测更关注语音内容是否真实,相关方法通常先通过语音识别模型将音频内容转写为文本,再借助语言模型判断其是否符合人类语言表达风格。Gu等人[39]提出ALLM4ADD框架,将音频深度伪造检测转为为音频问答,通过文本提示引导音频大语言模型理解任务目标,并结合监督微调和LoRA技术优化模型参数,以此输出真伪结果;Li等人[40]提出SafeEar框架,通过音频编解码器将语音解耦为语义和声学信息,仅利用声学令牌就可进行防伪检测,并通过瓶颈层随机打乱处理这些令牌,以避免内容泄露。
3 基于大模型的防伪检测技术在智能铁路中的应用
3.1 深度伪造的潜在危害与影响路径
智能铁路涉及大量多媒体数据,深度伪造滥用可能对关键业务系统造成严重危害。攻击者可能运用伪造技术替换原监控视频画面,以此掩盖设备异常进行违规操作;就票务系统而言,不法分子会使用人脸合成图像或伪造二维码图像,从而绕过铁路身份验证实现非法乘车;对于调度与客服语音系统,攻击者使用提前准备好的声纹克隆或伪造语音,来冒充管理人员或调度人员发出虚假指令,这可能会导致列车运行冲突,引发行车安全事故;深度伪造还可操控公共舆情,制造虚假信息来篡改铁路官方发布内容,影响公众对铁路系统的信任。
3.2 基于大模型的防伪检测技术应用可行性分析
前面所述智能铁路中的潜在危害都发生在复杂多样环境中,而传统防伪检测与基于深度学习模型的防伪检测方法难以处理跨模态融合场景,且在面对未知伪造手段时,准确率大幅下降。因此,具备强跨模态识别、语义推理与少样本适应能力的大模型技术更能应对铁路场景问题。文献[41]中的铁路大模型使用多模态诊断技术,可实现98%以上的动车组故障识别准确率,为铁路安全智能化提供支撑。
目前,基于大模型的防伪检测技术还未广泛部署于铁路领域,但在其他领域已有成功案例:例如文献[42]推出的AIGC伪造检测系统,支持多种深度伪造检测,利用多模态分析技术,检测准确率处于业内较高水平,实际延迟较低,实时应用能力强,适合公共安全和媒体监管等领域;文献[43]中的AIGC-Safe平台采用大模型技术对抗深度伪造,多次公开测试结果显示误报率低,还能达到毫秒级响应,当前已将其嵌入WPS Office商用,并收获到较好市场反馈。
从这些实践可以看到,多模态大模型技术能有效检测到伪造数据,还可满足实时性与泛化性等多重需求,较适用于铁路场景,但若要将大模型防伪检测技术落地应用,仍需要解决兼容性及成本等关键问题。
3.3 铁路场景下的多模态防伪检测应用架构
本文设计一种端到端一体化架构,铁路场景下的多模态防伪检测应用架构如图6所示。该架构采用传感器收集铁路各个场景中的多种模态数据信息,依托算力集群运行智能检测算法,同时各模态信息交互对接,最终实时检测伪造内容。
具体来说,利用监控系统来检测入侵的伪造影像;利用票务系统对疑似伪造人脸进行图文匹配核验,识别虚拟摄像头回传的假人脸数据;利用语音系统防止伪造的指令干扰调度中心操作。铁路人工智能平台各管理模块确保算法持续更新,以适配多场景,从而全面维护铁路各管理系统数据的安全。
3.4 主要技术难点和挑战
智能铁路下的防伪检测作为一个新兴的跨领域融合方向,其研发与应用仍面临诸多挑战:因铁路数据采集频率与传输路径不同,模型的时间对齐与跨模态理解能力要求更加严格;大模型计算资源消耗大,难以部署在车站与列车载体等终端设备,难以满足实时响应要求;多个子系统间适配稳定性与可解释性;开发专用接口以实现与现有系统数据对接的技术成本等。这些挑战需要在技术、应用、实施等层面统筹思考,逐步应对。
4 结束语
智能铁路系统作为国家基础设施的重要组成部分,承担着大量乘客与核心交通资源的重要信息,保护这些信息不遭受伪造攻击,对维护铁路系统的稳定运行和国家安全至关重要。本文系统梳理了深度伪造技术的发展历程,介绍并比较了现有防伪检测技术的特点,接着重点分析了基于大模型防伪检测方法在铁路场景下的可行性,构建了面向铁路系统核心业务场景的多模态防伪检测应用架构,指出了全面部署防伪检测的挑战和难点。
智能铁路中大模型防伪检测的研究与应用是一项复杂的系统工程,本文的探索只是迈出的第一步。未来还须持续攻克核心技术,健全应用生态,优化实施路径,贴合实际需求,紧跟技术前沿,共同推进理论创新和工程实践,构建鲁棒性强、响应速度快和可信度高的防伪检测系统,持续为智能铁路安全保驾护航。
-
表 1 防伪检测方法对比
方法 传统方法 基于深度学习模型 基于大模型 技术原理 利用物理和数字特征的异常表现,如面部关键点、照明一致性、阴影分布等进行分析 利用CNN、RNN、LSTM等深度学习模型,从数据中学习空间和时间特征 利用LLM和多模态大模型,结合跨模态推理和语义理解能力进行检测 适用场景 简单伪造内容,如早期图像合成、人脸交换 图像、音视频社交媒体内容监测、司法鉴定等 适用于复杂的多模态数据环境,能处理多种数据类型,适合需要高层语义分析的场景 数据类型 图像、视频帧、音频,依赖明显的伪造痕迹 处理图像、视频和音频等多种数据类型,适应不同质量和压缩水平的数据 处理多模态数据,包括文本、音频、图像和视频,具备跨模态分析能力 检测准确率 检测准确率低,对新型攻击手段几乎无效 检测准确率较高,依赖数据集质量和攻击类型,对已知伪造技术有良好性能 检测准确率高,具备零样本识别潜力,能够应对未见过的深度伪造技术 优势 实现简单、计算成本低、可解释性强,适合资源受限的环境 检测准确率高,能够学习复杂的模式和特征 语义理解能力强,适应性高,支持多任务联合建模,具备持续学习能力 局限性 特征设计依赖专家经验,易受压缩、噪声影响,难应对复杂伪造技术 需要大量标注数据,可能存在过拟合问题,跨模态能力有限 算力资源需求高,部署成本大,需要解决实时性与推理效率问题 -
[1] 王同军. 中国智能高速铁路2.0的内涵特征、体系架构与实施路径[J]. 铁路计算机应用,2022,31(7):1-9. DOI: 10.3969/j.issn.1005-8451.2022.07.01. [2] Ibadah N, Benavente-Peces C, Pahl M O. Securing the future of railway systems: a comprehensive cybersecurity strategy for critical on-board and track-side infrastructure[J]. Sensors, 2024, 24(24): 8218. DOI: 10.3390/s24248218
[3] Vennam P, T C P, B M T, et al. Attacks and preventive measures on video surveillance systems: a review[J]. Applied Sciences, 2021, 11(12): 5571.
[4] Forescout. Video: how to hijack surveillance cameras using fake video streams[EB/OL]. (2021)[2025-05-12]. https://forescout.wistia.com/medias/g4zigiuzo9.
[5] Hacksider. Deep-Live-Cam: real-time deepfake using only one image[EB/OL]. (2023)[2025-05-12]. https://github.com/hacksider/Deep-Live-Cam.
[6] VIDA. Understanding code injection[EB/OL]. (2023-11-06)[2025-05-12]. https://vida.id/en/blog/understanding-code-injection.
[7] 彭轶华,刘明远,郜 帅,等. 轨道交通行业网络空间安全现状与未来发展[J]. 中国工程科学,2023,25(6):137-149. DOI: 10.15302/J-SSCAE-2023.06.005. [8] Kingma D P, Welling M. An introduction to variational autoencoders[J]. Foundations and Trends® in Machine Learning, 2019, 12(4): 307-392.
[9] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 2, 8-13 December, 2014 Montreal, Canada. Cambridge, MA, United States: MIT Press, 2014.
[10] Croitoru F A, Hondru V, Ionescu R T, et al. Diffusion models in vision: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(9): 10850-10869. DOI: 10.1109/TPAMI.2023.3261988
[11] 梁瑞刚,吕培卓,赵 月,等. 视听觉深度伪造检测技术研究综述[J]. 信息安全学报,2020,5(2):1-17. DOI: 10.19363/J.cnki.cn10-1380/tn.2020.02.01. [12] Goyal H, Wajid M S, Wajid M A, et al. State-of-the-art AI-based learning approaches for deepfake generation and detection, analyzing opportunities, threading through pros, cons, and future prospects[J]. arXiv preprint arXiv: 2501.01029, 2025.
[13] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 15-20 June, 2019, Long Beach, USA. New York, USA: IEEE, 2019: 4396-4405.
[14] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 18-24 June, 2022, New Orleans, USA. New York, USA: IEEE, 2022: 10674-10685.
[15] Chen Y H. Convolutional neural network for sentence classification[D]. Waterloo: University of Waterloo, 2015.
[16] Luan T. A survey on deepfake detection technologies[J]. International Journal of Emerging Technologies and Advanced Applications, 2025, 2(1): 1-9.
[17] Chollet F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 21-26 July, 2017, Honolulu, USA. New York, USA: IEEE, 2017: 1800-1807.
[18] Tan M X, Le Q V. Efficientnet: rethinking model scaling for convolutional neural networks[C]//Proceedings of the 36th International Conference on Machine Learning, PMLR, 2019: 6105-6114.
[19] Zhao H Q, Wei T Y, Zhou W B, et al. Multi-attentional deepfake detection[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 20-25 June, 2021, Nashville, USA. New York, USA: IEEE, 2021: 2185-2194.
[20] He P S, Zhu L Y, Li J X, et al. Exposing AI-generated videos: a benchmark dataset and a local-and-global temporal defect based detection method[J]. arXiv preprint arXiv: 2405.04133, 2024.
[21] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv: 2010.11929, 2020.
[22] Vahdati D S, Nguyen T D, Azizpour A, et al. Beyond deepfake images: detecting ai-generated videos[C]//Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 17-18 June, 2024, Seattle, USA. New York, USA: IEEE, 2024: 4397-4408.
[23] Mitchell E, Lee Y, Khazatsky A, et al. Detectgpt: zero-shot machine-generated text detection using probability curvature[C]//Proceedings of the 40th International Conference on Machine Learning, PMLR, 2023: 24950-24962.
[24] Habibzadeh F. GPTZero performance in identifying artificial intelligence-generated medical texts: a preliminary study[J]. Journal of Korean Medical Science, 2023, 38(38): e319. DOI: 10.3346/jkms.2023.38.e319
[25] Venkatraman S, Uchendu A, Lee D. GPT-who: an information density-based machine-generated text detector[C]//In Findings of the Association for Computational Linguistics: NAACL 2024, 16-21 June, 2024, Mexico City, Mexico. New York: Association for Computational Linguistics, 2024: 103-115.
[26] Liu Z Y, Yao Z J, Li F J, et al. Check me if you can: Detecting ChatGPT-generated academic writing using CheckGPT[J]. arXiv preprint arXiv: 2306.05524, 2023.
[27] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proceedings of the 38th International conference on machine learning, PMLR, 2021: 8748-8763.
[28] Liu Z H, Wang H Y, Kang Y Y, et al. Mixture of low-rank experts for transferable ai-generated image detection[J]. arXiv preprint arXiv: 2404.04883, 2024.
[29] Moskowitz A G, Gaona T, Peterson J. Detecting AI-generated images via CLIP[J]. arXiv preprint arXiv: 2404.08788, 2024.
[30] Smeu S, Oneata E, Oneata D. DeCLIP: decoding CLIP representations for deepfake localization[C]//2025 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 26 February, 2025 - 06 March, 2025, Tucson, USA. New York, USA: IEEE, 2025: 149-159.
[31] Yermakov A, Cech J, Matas J. Unlocking the hidden potential of CLIP in generalizable deepfake detection[J]. arXiv preprint arXiv: 2503.19683, 2025.
[32] Buch S, Eyzaguirre C, Gaidon A, et al. Revisiting the “video” in video-language understanding[C]//Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 18-24 June, 2022, New Orleans, USA. New York, USA: IEEE, 2022: 2907-2917.
[33] Combei D, Stan A, Oneata D, et al. WavLM model ensemble for audio deepfake detection[J]. arXiv preprint arXiv: 2408.07414, 2024.
[34] Liu T C, Truong D T, Das R K, et al. Nes2Net: a lightweight nested architecture for foundation model driven speech anti-spoofing[J]. arXiv preprint arXiv: 2504.05657, 2025.
[35] Liu J W, Zhang F R, Zhu J Y, et al. Forgerygpt: Multimodal large language model for explainable image forgery detection and localization[J]. arXiv preprint arXiv: 2410.10238, 2024.
[36] Huang Z L, Hu J W, Li X T, et al. SIDA: social media image deepfake detection, localization and explanation with large multimodal model[J]. arXiv preprint arXiv: 2412.04292, 2024.
[37] Tan C C, Tao R S, Liu H, et al. C2P-CLIP: Injecting category common prompt in CLIP to enhance generalization in deepfake detection[C]//Proceedings of the 39th AAAI Conference on Artificial Intelligence, February 25–March 4, 2025, Philadelphia, Pennsylvania. Washington, USA: AAAI Press, 2025: 7184-7192.
[38] Oorloff T, Koppisetti S, Bonettini N, et al. AVFF: audio-visual feature fusion for video deepfake detection[C]//Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 16-22 June, 2024, Seattle, USA. New York, USA: IEEE, 2024: 27092-27102.
[39] Gu H, Yi J Y, Wang C L, et al. ALLM4ADD: unlocking the capabilities of audio large language models for audio deepfake detection[J]. arXiv preprint arXiv: 2505.11079, 2025.
[40] Li X F, Li K, Zheng Y F, et al. SafeEar: content privacy-preserving audio deepfake detection[C]//Proceedings of the 2024 on ACM SIGSAC Conference on Computer and Communications Security, October 14 - 18, 2024, Salt Lake City UT USA. New York, United States: Association for Computing Machinery, 2024: 3585-3599.
[41] 闫跃龙. 当盘古大模型遇到铁路检测,中国铁路“智变”加速度[EB/OL]. (2024-03-15)[2025-04-28]. https://zhuanlan.zhihu.com/p/687263197. [42] 浩瀚深度. 浩瀚深度推出AI内容伪造检测系统,抵御深度合成风险的保障[EB/OL]. (2025-02-06)[2025-04-28]. https://www.sohu.com/a/856185286_122118475. [43] 新华网. 新华网发布“AIGC-Safe全域内容安全与模型安全综合服务平台” 护航AI技术向善[EB/OL]. (2025-09-20)[2025-04-28]. https://www.news.cn/digital/20240920/ddb92f45cc8b442aab5e2e966a6e3f8e/c.html#. -
期刊类型引用(2)
1. 邵华,李海荣,马海梅. 一种改进的基于迭代学习控制的移动机器人轨迹跟踪算法研究. 机电工程技术. 2024(09): 177-179+217 . 百度学术
2. 吕泽军. 基于超局部模型的列车速度位移跟踪控制研究. 现代城市轨道交通. 2024(10): 56-60 . 百度学术
其他类型引用(5)