• 回复
  • 收藏

[行业相关] 从OpenAI对DeepSeek的指控看“蒸馏”行为的合法性

 
 楼主 xfw5sgNWh 学法1级 发表于 2025-2-3 13:10:41 查看:1874 回复:7 |阅读模式 来自: 中国

学法网,与法律人共成长!马上注册学法网,结交更多法友。

您需要 登录 才可以下载或查看,没有帐号?免费注册

x
从OpenAI对DeepSeek的指控看“蒸馏”行为的合法性

引言
近日,人工智能领域再掀波澜,外媒对于“横空出世”的新模型DeepSeek提出了质疑,主要集中在两个方面:
一是DeepSeek是否采用了所谓的“distillation”技术(即知识蒸馏),从OpenAI或其他大模型中提炼知识,再变成自己的模型,这看上去像是一种“欺骗”或“复制”他人成果。
二是OpenAI表示,他们在去年秋天发现与DeepSeek相关的大量针对OpenAI GPT模型的访问,这些访问通过 API 调用,以各种问题大批量提取了GPT模型中的知识,并借此训练出了DeepSeek。
针对这一争议,本文并不想去鉴定谁对谁错,而是想给大家介绍大模型里普遍存在的 distillation(蒸馏) 过程,让即便是文科背景的朋友也能明白这个概念的原理,而关于事件本身的争议涉及技术、法律和行业伦理的多重复杂性,需要从多个角度理性看待。

一、争议背景
随着人工智能(AI)技术的迅猛发展,大规模预训练模型(如 GPT、BERT 等)已成为推动自然语言处理(NLP)、计算机视觉等领域突破的重要支撑。然而,此类模型往往计算资源消耗极大,在推理与训练过程中对计算能力的需求较高,使其难以在资源受限环境(如移动终端、边缘计算)中直接应用。在此背景下,知识蒸馏(Knowledge Distillation, KD)作为一种有效的模型压缩技术,使得轻量化模型能够在计算资源受限的场景下依然保持较高的性能。
梁文峰创立的DeepSeek,因其2025 年 1 月推出的人工智能模型 DeepSeek-R1所具备的开源策略、高效的成本结构以及卓越的模型性而获得广泛关注。DeepSeek-R1 在数学、编程和推理等关键领域的表现可与 OpenAI 的最强推理模型相媲美,且训练成本仅为 OpenAI 最新大模型的二十分之一。这一成本优势使得 DeepSeek 在人工智能模型的可及性和计算资源优化方面具有显著优势,并促使更多研究机构和企业能够低成本获取高性能模型。然而,DeepSeek的崛起不仅带来了技术突破,也引发了围绕知识产权、数据隐私与人工智能伦理的法律争议。OpenAI指控DeepSeek在未经授权的情况下,违规使用其模型进行知识蒸馏并涉嫌侵权。
本文立足于对蒸馏大模型的基本原理的系统梳理,结合现行法律框架,分析蒸馏过程中涉及的法律合规问题,力求为企业、研究机构提供合理的技术与法律建议,以确保知识蒸馏技术的合法、合规应用。

二、何为大模型“蒸馏”技术
2.1 大模型“蒸馏”技术的概念
大模型知识蒸馏(Knowledge Distillation)由Hinton等人在2015年提出,其作为一种模型压缩方法,通过将高复杂度的大模型(教师模型)知识迁移至轻量化模型(学生模型),在降低计算需求的同时保持较高的推理能力。该技术的推广在一定程度上解决了计算资源受限环境下的模型应用问题。蒸馏过程涉及大量数据的采集、存储与处理等行为。

2.2 大模型“蒸馏”技术的原理
知识蒸馏的核心思想是通过让一个规模较大的“教师模型”训练一个规模较小的“学生模型”,使学生模型能够在计算资源受限的环境中最大化接近教师模型的性能。我们可以将这一技术方法类比为“一名老师对学生的经验传授过程”,想象一个教授(教师模型)向一名学生(学生模型)传授复杂的知识。但这个教授不仅让学生知晓这个知识的内容或答案(即模型的输出内容Output),还通过深入分析给学生讲解知识或答案形成的具体原因,使学生能够理解知识或某一答案的内在逻辑,并在考试时(向模型输入指令Prompt时)做出与老师相近的高质量回答(模型输出的内容)。



在机器学习中,这种“经验传授”通过以下三个核心步骤实现:
        (1) 教师模型训练
                研究人员首先使用大规模数据集训练一个高性能的教师模型(本指控中OpenAi公司的模型ChatGPT)。
                由于教师模型包含数十亿甚至万亿级参数,训练过程通常需要昂贵的计算资源。

        (2) 软标签知识传递(Soft Label Transfer)
                “软标签” 是指教师模型在预测时,不仅输出最终结论,还输出各个结论的生成原因及概率分布。例如,在图像分析的模型中,普通模型分类任务中可能会直接根据图片内容输出一个结论:“这是一个xxx”,但教师模型会在给出一个结论的基础上提供更为详细的分析过程及概率分布,如:“80%是xxx,15%是xxx,5%是xxx”。这一概率信息被称为 “暗知识”(Dark Knowledge),因为它提供了教师模型对不同类别之间细微区别的理解,而不仅仅是一个最终答案。
                学生模型一方还会通过调整 Softmax 温度(Temperature Scaling),可以让学生模型更容易学习这些概率信息,并获得与教师模型类似的判断能力。

        (3) 学生模型训练
                学生模型的目标是模仿教师模型的行为,以最小化它们之间的输出差距。
                学生模型一方会设计一个“损失函数”,以衡量学生模型的预测与教师模型预测之间的相似度,并不断优化学生模型的参数。
                最后,经过持续不断的训练,使学生模型能够最大化接近教师模型的性能。

2.3 大模型“蒸馏技术“的分类
根据蒸馏过程中教师模型向学生模型传递知识的方式不同,知识蒸馏可以分为以下三类:
        (1) 基于输出的蒸馏(Response-Based Distillation)
                原理:学生模型直接学习教师模型的 最终预测输出,通过对比两者的输出概率分布,使学生模型逐步接近教师模型的行为。
                特点:实现简单,计算成本较低,但对于复杂任务(如多模态学习)可能不足以捕捉教师模型的全部能力。
                应用:适用于 文本分类、情感分析、语音识别 等任务。
        (2) 基于特征的蒸馏(Feature-Based Distillation)
                原理:除了学习教师模型的最终输出,学生模型还模仿教师模型的 中间层特征表示,即教师模型在数据处理过程中内部生成的信息。
                特点:比基于输出的蒸馏更强大,能够帮助学生模型更深入地理解数据。
                应用:适用于 计算机视觉任务(如图像分类、目标检测),因为视觉任务往往依赖多层次的特征提取。
        (3) 基于关系的蒸馏(Relation-Based Distillation)
                原理:学生模型学习 多个数据样本之间的关系,而不仅仅是单个样本的输出。例如,它可以学习“某两张图片在概念上相似”的知识,而不只是学习分类标签。
                特点:适用于 跨模态学习(如图像-文本联合学习) 和 强化学习,可以帮助学生模型更好地理解数据结构。
                应用:例如,在推荐系统中,学生模型可以学习用户与不同物品的关系,从而更精准地预测用户兴趣。

2.4 大模型“蒸馏技术”的优势
知识蒸馏技术在多个行业和应用场景中具有显著优势,其核心价值主要体现在以下几个方面:
    (1) 降低计算成本
                由于学生模型的参数规模比教师模型 小得多,推理时需要的计算资源 显著减少。
                这意味着 中小型企业 也能使用先进的 AI 技术,而不必承担高昂的计算费用。
    (2) 提高推理速度
                在许多实时应用(如自动驾驶、智能语音助手)中,推理速度是关键。
                蒸馏技术可以使 AI 模型的推理速度大幅提升,从而满足实时交互需求。
    (3) 增强模型可解释性
                传统大模型通常被视为 “黑箱”,难以解释其决策过程。
                部分知识蒸馏方法(如基于特征的蒸馏)可以帮助分析 模型在不同数据输入下的行为,从而提高AI透明度。
    (4) 支持边缘计算与移动端部署
                轻量化的学生模型可部署在智能手机、智能手表、物联网设备、自动驾驶系统等计算资源受限的设备上。
                这使得 AI 技术可以更加广泛地应用于智能家居、智能交通、医疗诊断等领域。

2.5 小结
知识蒸馏是一种高效的模型压缩方法,能够在降低计算成本的同时保持高性能,使 AI 模型能够在边缘设备、移动端、实时应用等计算资源受限的环境中发挥作用。不同类型的蒸馏方法提供了多种知识传递机制,适用于不同的 AI 任务。

三、DeepSeek“蒸馏”OpenAI大模型的合法性分析

3.1 “蒸馏”的争议解决机制及法律适用

OpenAI《服务条款》将争议解决机制约定为仲裁并将仲裁地点约定为美国加利福尼亚州旧金山市(San Francisco, California)。这一仲裁协议的适用范围通常足以覆盖涉及 Deepseek 使用 OpenAI 服务所可能引发的知识产权侵权(intellectual property infringement)、不正当竞争(unfair competition)以及违约(breach of contract)等法律纠纷。

此外,《服务条款》第 15.12 条又约定了法律适用(Governing Law)及司法管辖(Jurisdiction)。该条款明确指出,本协议(包括《使用条款》及相关商业条款)应受加利福尼亚州法律管辖(excluding its conflict of law principles,即不适用加州法律中的冲突法规则)。若争议事项不属于仲裁协议的适用范围,则应提交位于加利福尼亚州旧金山市的州或联邦法院(state or federal courts located in San Francisco, California)裁决。

因此,在适用该争议解决条款的情况下,位于旧金山的仲裁庭(Arbitral Tribunal)在审理案件时可能会适用加州法律,包括适用相关的美国联邦法律和加州州法律。

3.2 蒸馏行为的知识产权法分析
目前,关于AI模型的知识产权界定模糊,AI模型的训练数据和方法是否构成“知识产权”尚无全球统一标准。例如,美国对AI模型版权的保护尚不明确,而中国近期发布的生成式AI管理办法更多聚焦数据合规而非模型结构。因此,我们将目光重点放置在OpenAI 用户协议。
3.2.1 OpenAI用户协议所涉核心条款梳理

根据OpenAI的《Terms of Use》(以下简称“协议”),关于用户输入(Input)与输出(Output)内容的所有权规定如下:
(1)输入内容(Input)的权属规定
   - 用户保证“输入内容”的合法性:协议要求用户“保证对输入内容拥有合法权利”(“You are responsible for Content, including ensuring that it does not violate any applicable law or these Terms. You represent and warrant that you have all rights, licenses, and permissions needed to provide Input to our Services.”)。  
   - 用户保留“输入内容”的所有权:协议要求用户需要保留其对输入内容的所有权,强调用户对其“输入内容”享有全部所有权。
(2)输出内容(Output)的权属规定
   - 权利转让条款:协议明确“将输出内容的所有权、所涉全部权利和利益均转让给用户”(“We hereby assign to you all our right, title, and interest, if any, in and to Output. ”)。  

3.2.2 协议解释与权利归属的法律逻辑——OpenAI 对用户输入内容与输出内容均不享有权利的法律分析
根据 OpenAI 用户协议(Terms of Use)关于“内容(输入 + 输出)所有权”的相关规定,可以得出结论:OpenAI 对用户使用其服务
善良的朋友 学法元老 发表于 2025-2-12 16:15:21 学法网-手机版 来自: 中国
还是看不明白!
回复 支持 反对

使用道具 举报

生而自由 学法8级 发表于 2025-2-19 23:00:40 学法网-手机版 来自: 中国四川成都
写得真好。点赞。
回复 支持 反对

使用道具 举报

生而自由 学法8级 发表于 2025-2-19 23:01:45 学法网-手机版 来自: 中国四川成都
写得真好。点赞。人工智能未来发展的方向。以后都是人工智能判案了。
回复 支持 反对

使用道具 举报

大卫龙 学法元老 发表于 2025-2-20 15:51:21 来自: 中国辽宁朝阳
过来学习!
回复

使用道具 举报

善良的朋友 学法元老 发表于 2025-2-21 14:17:26 学法网-手机版 来自: 中国
回复 支持 反对

使用道具 举报

善良的朋友 学法元老 发表于 2025-2-21 14:17:43 学法网-手机版 来自: 中国
生而自由 发表于 2025-02-19 23:01
写得真好。点赞。人工智能未来发展的方向。以后都是人工智能判案了。

绝对不可能!
回复 支持 反对

使用道具 举报

善良的朋友 学法元老 发表于 2025-2-21 14:18:10 学法网-手机版 来自: 中国

具体好在哪?
回复 支持 反对

使用道具 举报

快速回复

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

  • 1主题
  • 1帖子
  • 1积分

网友热议

    7快速回复