Sora文生视频的横空出世使得视频伪造的门槛大幅降低,深度伪造的视频更加逼真,达到了以假乱真的地步,而深度伪造会带来大量的虚假信息,这给决策者带来了认知困境。伪造的视频可能被用于传播虚假信息、干预选举、破坏个人声誉、制造社会不安定因素,甚至严重影响到国家政治、军事、经济等多领域的安全。2024年1月,OpenAI更新了使用条款,不再禁止技术用于军事和战争目的,特别是美国高科技公司与美国国防部及情报部门合作。这也意味着AI技术将成为一把锋利的双刃剑,将产生严重的安全问题。由于深度伪造技术可能对信息真实性带来颠覆性的影响,包括政治舆论操纵、军事战争虚假信息等,这些都严重威胁到了社会稳定与国家安全。因此,有效防范与化解Sora文生视频深度伪造所带来的风险是当务之急。
基于Sora文生视频深度伪造的安全风险主要涉及以下三个方面。
训练数据风险。数据是文生视频的核心,而Sora模型数据包括预训练数据、人工标注数据、抓取数据、人机交互数据等。这些处于不同阶段的数据存在的风险亦有差异。一是AI预训练数据来源合法性。作为视频生成式AI需要大量文字、图像及视频等训练数据,预训练中的数据一旦来源不合法、审查不到位即会影响结果。二是抓取虚假数据或非法数据。Sora通过自动收集文字、图片、视频、语音等数据,不断自我优化生成能力,向更高的智能化阶段迈进。Sora能够以自我抓取的方式搜集互联网的数据,不依赖于人类干预,无差别地进行数据积累。一些深度伪造视频、虚假信息等数据被抓取会导致虚假数据或非法数据进入模型训练数据库。这些来源不合法、非真实性的数据将导致严重的失实风险。
人工操纵风险。训练数据标注员使用特定的标注工具或者手段,为图片、视频、语音与文本数据添加分类、注释等标记,这些标记后的数据可以被用于算法模型的训练,提升模型训练效果。数据标注作为大模型训练学习的关键部分,也是风险产生的源头。一是可能引发算法异化风险。数据标注员可能有意无意地将个人偏好数据、来源不明数据以及带有歧视性的数据等标注为模型的训练数据集。二是数据标注员的价值观可能影响生成视频的价值导向。数据标注员以欧美价值观为标准,难免体现出欧美社会的偏好。三是由于数据标注员标注的数据多来自英文语境、英文视频等数据库,训练出来的模型更加符合欧美国家的语境、场景应用的习惯与价值。这些人为因素使得Sora生成视频的真实性和可信性遭受质疑。
技术黑箱风险。在深度伪造视频中,事实和真相不断被伪装和改造,产生了情感煽动和认知偏见的问题。深度伪造技术开始在人们预期之内获得了确定的结果,但在这些结果之外也造成了影响社会发展的风险问题,比如造成认知偏见和人际交往的断裂等。在技术的发展过程中,我们不可能穷尽所有的可控情况从而实现对技术的全面掌控,而技术自主的进步所造成的问题都只能在一段时间之后得以显现。因此,我们需要认识到技术自主性,也要积极应对其所带来的风险问题,做到自主性与可控性的辩证统一。如此才有可能走出不可预测性的迷途。
基于Sora文生视频的深度伪造治理是一个复杂且多维的问题,我们提出从事前、事中、事后三个环节对治理机制进行分析,通过形成一个循环的闭环构建良好数据生态。
事前精准治理。事前精准治理聚焦于上线前的风险管控,核心在于对风险的有效防范,进而达成风险的精准把控。一是深度融合元宇宙模拟特性。利用元宇宙的强大模拟能力,对多源数据进行地毯式梳理整合,全面考虑数据的合法性、真实性、关联性和时效性。二是搭建深度伪造“指纹库”。通过技术深度挖掘过往海量深度伪造视频案例,聚焦图像细微纹理偏差、音频衔接处不自然痕迹、语义叙述逻辑漏洞等关键维度,提取典型特征,为后续可疑信息筛查储备“参照样本集”。三是实时捕捉敏感信息。紧密贴合互联网舆情动态与社交媒体热门风向标的实时走势,敏锐捕捉那些极易催生深度伪造的敏感信息“火种”。四是预演式筛查过滤。依托深度学习算法,在虚拟仿真场景里对海量Sora文生视频数据进行预演式筛查过滤,凭借“火眼金睛”锁定可疑风险的“蛛丝马迹”,确保潜在风险刚“冒头”便无所遁形。
事中敏捷治理。事中敏捷治理专注于运行中的风险应对,关键在于对风险的即时处理,通过依托于多元数据库开展事中敏捷治理,可以实现风险的高效化解。一是敏捷监控发警报。事中敏捷治理扮演冲锋在前的“应急先锋”角色,核心聚焦风险动态监控与闪电式应急处置。通过元宇宙真实还原从“用户需求→Sora分析→数据产品→用户感知”完整的用户与Sora交互场景,映射到现实场景中,能够基于元宇宙场景中治理经验,在风险尚处萌芽或微现端倪之际,快速调配资源、迅速组建应急团队,确保在发现深度伪造风险的第一时间能精准、迅速地采取措施,遏制风险的蔓延,守护数据生态安全。同时,伴随着虚拟和现实的不断映射,形成较为完备的深度伪造场景数据库。二是多维监险精准预警。根据用户与Sora的场景交互,在元宇宙沙盒针对“用户—Sora—视频”三者的行为构建多层级、多维度的“瞭望网”。例如,利用智能传感器,实时追踪Sora文生视频信息流,对视频传播路径、受众范围、互动热度进行可视化呈现与深度分析。同时,根据追踪结果不断完善深度伪造行为库。三是实时监控数据的合规性。通过对比元宇宙沙盒规则,包括法律法规、行业规范以及道德准则等的实时监控,检测深度伪造风险。例如,捕捉数据是否偏离正常可信度区间、传播速度异常飙升等风险信号,迅速启动预警机制;借助虚拟通信渠道向相关监管人员、分析团队精准推送警报,明确Sora文生视频深度伪造中数据收集者、标注者、模型开发者等责任主体,使其各司其职,共同承担数据风险治理的责任。四是预演寻策速解危机。应急处置依托事先预演场景库,依据风险特征“对症下药”;对于疑似深度伪造视频引发的决策误导,迅速切断虚拟场景中的传播链路,隔离涉事数据节点防止扩散;同步启动溯源程序,借助区块链记录高效回溯视频生成源头(是特定恶意用户、受攻击服务器漏洞还是被篡改算法模型所致),定位责任主体;组织虚拟专家团队模拟不同处置方案效果,选取最优解回传至现实场景应用,及时化解风险,同时对深度伪造风险进行分类划分,形成风险数据库。
事后韧性治理。事后韧性治理聚焦风险平息后数据生态的修复与优化,核心在于重塑稳固体系、提升应对效能,以此达成数据生态的持续稳健。事后韧性治理承载着关键使命,兼具“修复大师”与“经验传承者”的重要职能,对于强化整体数据生态抵御后续风险冲击的能力意义重大。一是全流程复盘与剖析。从最初虚假视频生成的触发原点到在不同传播阶段所展现出的复杂演变特征,直至对决策产生干扰的最终结果这一完整链条,运用专业的分析方法与风险评估手段,精准挖掘潜藏其中的风险传导路径,深度探寻各风险因素之间的内在关联及作用机制。二是全面修复数据生态损伤。旨在全面修复风险冲击给数据生态带来的损伤,使数据生态系统的结构与功能得以恢复至稳定且有序的状态,确保其能够正常运转并持续发挥效能。三是分类治理训练数据风险。对Sora文生视频深度伪造的训练数据风险进行分类,如将预训练数据来源合法性问题归为高风险类别重点监管;对抓取数据中虚假数据风险等按不同程度细分,以便更有针对性地制定治理策略。四是动态更新监管规则与优化算法逻辑。基于风险、技术与治理需求的动态变化,持续更新元宇宙监管规则,特别是对多元库的建立与完善;推动监管机制向“事前预防—事中控制—事后提升”良性循环转变,铸就风险“防御盾”,提升治理效能与适应性。
(本文系国家社科基金一般项目“数智环境下情报分析算法风险治理路径研究”(22BTQ064)阶段性成果)
(作者系黑龙江大学信息管理学院教授;黑龙江大学计算机与大数据学院教授)