近期,“特斯拉员工被曝私下分享用户隐私”不可避免地成了新闻热点,据说连马斯克也不能幸免。
据相关媒体报道,9名前特斯拉员工爆料在2019年至2022年期间,特斯拉员工通过内部消息系统私下分享了一些车主车载摄像头记录的隐私视频和图像,比如,有一段视频记录了一位男士全裸接近一辆汽车的画面。此外,以及包括但不限车祸和路怒事件等其他内容。
据几名前特斯拉员工透露,虽然有些帖子只在2名员工之间分享,但也有一些会被数十人看到。其中一段被分享的视频就是特斯拉CEO埃隆·马斯克本人的潜水车停在车库里。
目前也无法确定特斯拉这种分享车载摄像头画面的行为当前是否仍在继续,以及该行为在特斯拉内部有多么普遍。有一些特斯拉前员工称,他们看到的唯一分享行为是出于合法的工作目的,比如寻求同事或主管的帮助。
为了开发自动驾驶汽车技术,特斯拉从其全球数百万辆汽车中收集了大量数据,收集上来的数据通常需要人工进行标注,以训练和提升自动驾驶系统的识别准确性。为了更好地完成工作,他们可能会在内部进行分享这些数据。
事实上,不仅是特斯拉,其他一些拥有自动驾驶汽车技术或正在开发该技术的公司,都避免不了会使用、分享用户的图像等数据。
因为作为自动驾驶走向现实的关键,深度学习的基础原理,就是通过收集海量相关数据给计算机,并且进行特征分析、训练、验证,最终“训练”出一个高度精准的AI算法,用于实时感知不断变化的路况,通过推理计算给出可靠的驾驶指令。
对数据进行分析、训练的过程,就是数据标注。数据标注常常由数据标注员完成,而数据标注员往往是一些外包人员。例如,特斯拉大约从2016年开始在非洲雇佣了数百人,后来在美国雇佣了数百人来进行数据标注工作,以帮助其汽车学习如何识别行人、街道标志、工程车辆、车库门等物体。数据标注人员可以访问汽车摄像头记录的数千个视频或图像,他们可以查看和识别物体。
这些人网络安全意识淡薄,企业也无法对他们的行为做到精准的安全管控,车主用户的一些数据可能就在无意或有意的的违规操作中,被“分享”给了大众。其实不仅是这一点,自动驾驶企业还普遍面临着这些数据安全挑战:
一是,数据收集、存储、使用的合规性。自动驾驶测试车队一般拥有多辆路测车,一辆测试车每天产生的数据量可达数TB,而且数据量还在不断增加。同时,不但数据多,还特别杂,
自动驾驶数据来源有车辆数据、位置数据、环境感知数据、应用数据、个人数据等等,数据类型涉及结构化数据和非结构化数据,数据服务类型又涵盖文件、对象等等,导致不同业务对存储接口、协议访问的需求多样化。
而面对这些海量、复杂、访问需求多样的数据,车企必须合规地收集起来,高效地通过网络传输到大型数据中心。总之,在数据到达数据中心之后,还需要进行分类归档,不仅要保证数据存储的合规性,同时还要保证后续数据的存取足够高效。
但一些采用外包数据标注的车企,由于远程办公涉及内外网打通,采用的传统VPN方案性能差、权限高,并不能保证数据传输的高效以及安全。如当数据标注员对计算机进行特殊天气下道路标志的识别、特殊的红绿灯识别、不寻常的障碍物等针对性的重点训练时,如果“标注”的效率太低,前面数据收集的过程再快,也会被卡在这个环节上。
二是,数据安全难度大。自动驾驶汽车数据主要包括用户隐私数据和国家地理信息数据,自动驾驶企业很难凭一己之力实现数据的分类分级、安全管控和隐私保护。
例如,要对这些数据做脱敏处理。早在2022年8月中汽协就对汽车数据的脱敏提出了要求,包括车内(人脸)和车外(人脸+车牌)的图像数据都需要脱敏。但汽车收集的数据往往是动态的视频,所以同样需要人工智能的能力来对敏感数据进行追踪,进行相应的擦除、涂抹等操作。
不过,一些自动驾驶企业正在积极平衡技术创新与数据安全;一些汽车公司也因为用户担心泄露隐私而停用远程车载摄像头。仅在去年,比亚迪和东风日产就相继停用了车辆的远程拍照功能,此后高合汽车关闭了可以查看其它用户行车记录仪实时画面的“车车互联”功能。