Datawhale 组队学习之大模型理论基础Task9 大模型法律

第11章 大模型法律

11.1 简介

此内容主要探讨法律对大型语言模型的开发和部署有何规定。

先看看法律的特点:

法律就如我国法律教材所给出的一样,有依靠国家强制力保证实施的特点。

而法律在大模型中也是不可或缺的,缺少了法律的约束,一切数据的使用、用户隐私的保护等等都会出现各种各样的问题。

11.2 版权法

大型语言模型或任何机器学习模型,都是基于数据进行训练的,而这些数据是人类劳动的结果(例如,作者,程序员,摄影师等)。除了创作者外,其他人可以对这些创作(例如,书籍,代码,照片等)进行何种使用,属于知识产权法的范畴。

11.2.1 知识产权法

使用版权作品有两种方式:获取许可或依赖公平使用条款。

11.2.2 许可

许可(来自合同法)是由许可人授予许可使用者的。

11.2.3 公平使用(第107条)

自1840年代以来,公平使用一直是普通法。决定是否适用公平使用的四个因素是:

  1. 使用的目的和性质(教育用途优于商业用途,转型用途优于复制);
  2. 版权作品的性质(虚构作品优于事实作品,创新性的程度);
  3. 使用的原作部分的数量和实质性;和
  4. 使用对原作市场(或潜在市场)的影响。

注意:事实和想法不受版权保护。如果策划/安排被视为表达,事实数据库可以受版权保护。复制数据(训练的第一步)就已经是侵权,即使你不做任何事情。法定损害赔偿可以高达每件作品150,000美元(版权法第504条)。

11.3 案例研究

接下来,我们将回顾一些已经裁定公平使用或反对公平使用的案件。

11.3.1 作家协会诉Google

Google Book Search扫描了印刷书籍并使其在线可搜索(显示片段),始于2002年。作家协会抱怨Google没有寻求他们对仍受版权保护的书籍的许可。2013年,地区法院判定Google公平使用。

11.3.2 Google诉Oracle

Google在Android操作系统中复制了Oracle(原Sun Microsystems)所有的37个Java API。Oracle以版权侵权起诉Google。2021年4月,最高法院裁定Google的使用Java API属于公平使用。

11.4 公平学习与机器学习

公平学习主张机器学习属于公平使用。机器学习系统的数据使用是变革性的,它不会改变作品,但会改变目的。机器学习系统对想法感兴趣,而不是具体的表达。

对于将机器学习视为公平使用的论据:训练数据的广泛访问会为社会创造更好的系统。如果不允许使用,那么大部分作品无法用来产生新

的价值。使用版权数据可能更公平。

反对将机器学习视为公平使用的论据:认为机器学习系统不会产生创意的“最终产品”,而只是赚钱。生成模型(例如,语言模型)可以与创意专业人士竞争。机器学习系统的问题(传播假信息,实现监控等),因此不应该给予机器学习系统利益的怀疑。

在版权法下,很难分离可保护的(例如,表达)和不可保护的(例如,想法)。虽然构建机器学习系统可能有很多原因不妥,但版权是阻止它的正确工具吗?对于训练大型语言模型是否属于公平使用的问题正在迅速发展。

11.5 阶段性结论

查看信息技术的历史,我们可以看到三个阶段:

  1. 第一阶段:文本数据挖掘(搜索引擎),基于简单的模式匹配。
  2. 第二阶段:分类(例如,分类停止标志或情感分析),推荐系统。
  3. 第三阶段:学习模仿表达的生成模型。

上次,我们看到从GPT-2中提取训练数据可能会出现隐私问题。如果语言模型直接复制哈利·波特,那么这对公平使用来说是有问题的。然而,即使语言模型不直接生成以前的作品,版权仍然相关,因为以前的受版权保护的作品被用来训练语言模型。

事实上,语言模型可以与作家竞争。例如,作家写了3本书,语言模型在这3本书上进行训练,并自动生成第4本。

因此,面对大型语言模型,版权和机器学习的未来还未知。

11.6 隐私法律教程

在本教程中,我们将简要讨论一些隐私法律的例子,包括Clearview AI、加利福尼亚消费者隐私法案(2018)、加利福尼亚隐私权法案(2020)以及欧盟的一般数据保护条例(GDPR)。

11.6.1 Clearview AI

Clearview AI是一家成立于2017年的公司。2019年,纽约时报曝光了它。到2021年10月,该公司已经从Facebook、Twitter、Google、YouTube、Venmo等网站抓取了100亿张人脸图片。该公司将数据销售给执法机构(例如,FBI)和商业组织。该公司辩称有权使用公开的信息。由于侵犯隐私,该公司已被起诉。

11.6.2 伊利诺伊州生物识别信息隐私法(2008)

这项法律通过私人实体对生物识别标识符进行监管(不包括政府实体)。Clearview删除了伊利诺伊州的数据。欧盟汉堡数据保护机构(DPA)认为该行为违法。

11.6.3 加利福尼亚消费者隐私法案(2018)

这项法案赋予加利福尼亚居民以下权利:

  • 了解收集他们的哪些个人数据。
  • 了解他们的个人数据是否被出售或公开,以及给了谁。
  • 拒绝个人数据的销售。
  • 访问他们的个人数据。
  • 请求业务删除从消费者处收集的任何个人信息。
  • 不因行使他们的隐私权利而被歧视。

个人数据包括:真实姓名、别名、邮寄地址、唯一个人标识符、在线标识符、IP地址、电子邮件地址、账户名称、社会保障号码、驾驶执照号码、车牌号码、护照号码等。

该法适用于在加利福尼亚经营且年收入至少为2500万美元的企业。美国联邦尚无相应法律。与GDPR不同,这项法律不允许用户更正数据。

11.6.4 加利福尼亚隐私权法案(2020)

这项法案创立了加利福尼亚隐私保护机构,将于2023年1月1日生效,适用于2022年1月1日之后收集的数据。

11.6.4.1 意图
  • 了解谁在收集他们及其孩子的个人信息,如何使用,以及向谁公开。
  • 控制他们个人信息的使用,包括
    • 限制他们敏感个人信息的使用。
    • 访问他们的个人信息并有能力纠正、删除和转移他们的个人信息。
    • 通过易于获取的自助工具行使他们的隐私权利。
    • 行使他们的隐私权利而不受罚款。
    • 将未采取合理信息安全预防措施的企业追究责任。
    • 从企业使用他们的个人信息中受益。
    • 作为员工和独立承包商也能保护他们的隐私利益。

11.7 GDPR(欧盟一般数据保护条例)

该规定是欧盟法律关于数据隐私的一部分,于2016年通过,2018年可执行。其范围比CCPA更广泛。不适用于处理个人数据的国家安全活动或执法行为。数据主体可以同意处理个人数据,并可以随时撤回。人们应有权访问自己的个人数据。因为在Android手机设置过程中未获得广告个性化的同意,Google被罚款5700万美元。

11.8 其他法律

11.8.1 加利福尼亚的机器人披露法案:

如果使用机器人与人进行通信,而不披露它是一个机器人,这是违法的。限制:只适用于激励销售或影响选举投票的情况。限制:只适用于每月在美国有1000万访问者的公开网站。

11.9 总结

比如大模型的训练、数据的收集和使用等都需要考虑到法律的问题,法律如同一个现存的事物,用哲学的角度来说就是一个无限发展过程中的一个点,因此需要不断完善和发展,这种发展是随着法律制定者的认识而不断进行的。

声明:以上内容部分节选自Datawhale课程内容,加入了一定的博主本人的理解。如有侵权,联系立删!

觉得有用的话给个一键三连哦,欢迎关注无神一起学AI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/357394.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用Hutool工具包解析、生成XML文件

说明&#xff1a;当我们在工作中需要将数据转为XML文件、或者读取解析XML文件时&#xff0c;使用Hutool工具包中的XMLUtil相关方法是最容易上手的方法&#xff0c;本文介绍如何使用Hutool工具包来解析、生成XML文件。 开始之前&#xff0c;需要导入Hutool工具包的依赖 <de…

通过Demo学WPF—数据绑定(一)✨

前言✨ 想学习WPF&#xff0c;但是看视频教程觉得太耗时间&#xff0c;直接看文档又觉得似懂非懂&#xff0c;因此想通过看Demo代码文档的方式进行学习。 准备✨ 微软官方其实提供了WPF的一些Demo&#xff0c;地址为&#xff1a;microsoft/WPF-Samples: Repository for WPF …

MySQL:MVCC原理详解

MySQL是允许多用户同时操作数据库的&#xff0c;那么就会出现多个事务的并发场景。那么再并发场景会出现很多问题&#xff1a;脏读、不可重复读、幻读的问题。 而解决这些问题所用到的方法就是&#xff1a;MVCC 多版本并发控制。而这个MVCC的实现是基于read_view、undoLog 如…

Linux部署lomp环境,安装typecho、WordPress博客

部署lomp环境&#xff0c;安装typecho、WordPress博客 一、环境要求1.1.版本信息1.2.准备阿里云服务器【新用户免费使用三个月】1.3.准备远程工具【FinalShell】 二、Linux下安装openresty三、Linux下安装Mysql四、安装Apache【此步骤可省略】4.1.安装Apache服务及其扩展包4.2.…

《HTML 简易速速上手小册》第9章:HTML5 新特性(2024 最新版)

文章目录 9.1 HTML5 新增标签和属性9.1.1 基础知识9.1.2 案例 1&#xff1a;创建一个结构化的博客页面9.1.3 案例 2&#xff1a;使用新的表单元素创建事件注册表单9.1.4 案例 3&#xff1a;创建一个具有高级搜索功能的搜索表单 9.2 HTML5 表单增强9.2.1 基础知识9.2.2 案例 1&a…

制冷机组主要组成元件和功能

组主要组成元件的功能如下&#xff1a; 1&#xff09; 压缩机&#xff1a;主要起吸排气作用&#xff0c;将蒸发后的制冷剂气体吸入压缩机并进行压缩,再排到油分离中&#xff1b; 2&#xff09; 减震管&#xff1a;可有效地防止压缩机的震动传递到管路部分&#xff1b; 3&am…

自然语言处理(NLP)技术使用

自然语言处理&#xff08;NLP&#xff09;技术使用 以下是一些自然语言处理&#xff08;NLP&#xff09;技术的例子&#xff1a;以上只是一些NLP技术的例子&#xff0c;还有许多其他的技术和应用&#xff0c;如文本分类、文本生成、问答系统等。NLP技术的发展正逐渐改变人们与计…

c#窗体捕捉方向键

方法1 实现方法参考代码&#xff1a; private void Form1_Load(object sender, EventArgs e){this.KeyPreview true;}protected override bool ProcessDialogKey(Keys keyData){if (keyData Keys.Left || keyData Keys.Right || keyData Keys.Up || keyData Keys.Down){s…

23种设计模式-结构型模式

1.代理模式 在软件开发中,由于一些原因,客户端不想或不能直接访问一个对象,此时可以通过一个称为"代理"的第三者来实现间接访问.该方案对应的设计模式被称为代理模式. 代理模式(Proxy Design Pattern ) 原始定义是&#xff1a;让你能够提供对象的替代品或其占位符。…

ArcGIS Pro 如何计算长度和面积等数据?

要素的几何属性属于比较重要的信息&#xff0c;作为一款专业的GIS软件&#xff0c;ArcGIS Pro自然也是带有计算几何的功能&#xff0c;这里为大家介绍一下计算方法&#xff0c;希望能对你有所帮助。 数据来源 教程所使用的数据是从水经微图中下载的矢量数据&#xff0c;除了矢…

Apache Commons Collection3.2.1反序列化分析(CC1)

Commons Collections简介 Commons Collections是Apache软件基金会的一个开源项目&#xff0c;它提供了一组可复用的数据结构和算法的实现&#xff0c;旨在扩展和增强Java集合框架&#xff0c;以便更好地满足不同类型应用的需求。该项目包含了多种不同类型的集合类、迭代器、队…

备战蓝桥杯---二分(入门)

话不多说&#xff0c;先来个模板题来回顾一下上次讲的&#xff1a; 下面是AC代码&#xff1a; 下面进入正题&#xff1a; 本题对1&#xff0c;2行与3&#xff0c;4行组合&#xff0c;再用二分查找即可实现n^2logn的复杂度。 下面是AC代码&#xff1a; 接题&#xff1a; 让我们…

【Python】03快速上手爬虫案例三:搞定药师帮

文章目录 前言1、破解验证码2、获取数据 前言 提示&#xff1a;通过用户名、密码、搞定验证码&#xff0c;登录进药师帮网站&#xff0c;然后抓取想要的数据。 爬取数据&#xff0c;最终效果图&#xff1a; 1、破解验证码 使用药师帮测试系统&#xff1a;https://dianrc.ysb…

Linux多线程详解

Linux线程和多线程 Linux线程概念什么是线程二级页表线程异常 Linux进程VS线程进程的多个线程共享进程和线程的关系 Linux线程控制线程创建获取线程ID线程终止 分离线程线程ID及进程地址空间布局线程ID及进程地址空间布局 Linux线程概念 什么是线程 在一个程序里的一个执行路…

Docker(第三部分)

1&#xff0c;Docker复杂安装说明 今天的优势会被明天趋势所取代 一切在云端 安装mysql主从复制 主从复制原理&#xff0c;默认你懂 主从搭建步骤 1&#xff0c;新建主从服务器容器实例3307 docker run -p 3307:3306 --name mysql-master\ -v /mydata/mysql-master/log:…

Spring Boot使用七牛云

一、引入和配置 //maven配置 <dependency><groupId>com.qiniu</groupId><artifactId>qiniu-java-sdk</artifactId><version>7.7.0</version> </dependency>#七牛云application.yml配置 qiniu:# 配置accessKeyaccessKey: &qu…

Flask框架小程序后端分离开发学习笔记《5》简易服务器代码

Flask框架小程序后端分离开发学习笔记《5》 Flask是使用python的后端&#xff0c;由于小程序需要后端开发&#xff0c;遂学习一下后端开发。 简易服务器代码 接口解析那一块很关键&#xff0c;学后端服务器这一块&#xff0c;感觉主要就是学习相应地址的接口怎么处理。 然后…

计算机毕业设计 | vue+springboot 超市账单管理系统(附源码)

1&#xff0c;绪论 1.1 开发背景 世界上第一个购物中心诞生于美国纽约&#xff0c;外国人迈克尔库伦开设了第一家合作商店&#xff0c;为了更好地吸引大量客流量&#xff0c;迈克尔库伦精心设计了低价策略&#xff0c;通过大量进货把商品价格压低&#xff0c;通过商店一次性集…

第 6 章:Linux中使用时钟、计时器和信号

在本章中&#xff0c;我们将开始探索Linux环境中可用的各种计时器。随后&#xff0c;我们将深入了解时钟的重要性&#xff0c;并探讨UNIX时间的概念。接下来&#xff0c;我们将揭示在Linux中使用POSIX准确测量时间间隔的方法。之后&#xff0c;我们将进入std::chrono的领域&…

【新书推荐】4.1 运算符与表达式

本节必须掌握的知识点&#xff1a; 运算符 表达式 优先级 4.1.1 运算符 说到运算符与表达式&#xff0c;估计大家不会感到陌生&#xff0c;因为我们平常生活中经常接触到&#xff0c;比如我们买2元钱的馒头&#xff0c;付给老板5元钱&#xff0c;需找零钱3元钱。这中间的计算…