和鲸科技执行总裁殷自强:面向空间数据协同分析场景的模型生命周期管理方法

导读:

由 ACM SIGSPATIAL 中国分会主办的第五届空间数据智能学术会议(SpatialDI 2024)于 2024 年 4 月 25 日- 27 日在南京圆满召开,主题为“ AGI 时代下的空间数据智能”,旨在深入推动空间数据智能研究的理论进步与应用创新,以便相关领域的专家学者共同探讨新理论、新问题与新方法,共同推动该领域的持续发展。

会议期间,和鲸科技联合创始人,现任公司执行总裁兼首席产品官殷自强受邀在应急减灾与可持续发展专题论坛发表主题报告,题目为《面向空间数据协同分析场景的模型生命周期管理方法》

本文内容已做精简,如需获取完整版课件,请联系我们

分享嘉宾 | 殷自强

和鲸科技联合创始人,现任公司执行总裁兼首席产品官,统筹公司产品战略与客户战略,专注于数据驱动研究与 AI for Science 场景的数据科学平台产品设计与方法创新,主导了 ModelWhale 数据科学协同平台在气象、地质、遥感、空间科学等众多空间数据智能领域的落地,参与了多项国家级研究专项的平台基础设施攻关,对数据智能场景的多角色协同研究流程有独到的见解与丰富的经验积累。

01

企业视角下的空间数据智能分析与应用减灾场景

本次报告旨在以企业的角度探讨如何站在模型生命周期管理的视角,审视空间数据智能分析以及其在各应用减灾场景下的应用。殷自强介绍道,作为一家专注于“数据科学协同平台”的数据智能科技公司和平台服务商,和鲸科技已在气象、地质、地震、遥感、空间科学等领域参与了诸多应急减灾领域的模型落地,对其相关研究方法的快速发展深有体会。

和鲸发现,空间数据智能场景相关的数据积累呈现出爆炸性的增长,涵盖了众多维度。这些数据不仅包括空间站和卫星数据,还涉及地面雷达站点等多种观点数据,使数据变得日益多元化。

其次,我们发现这些数据在各个应用场景中不断进行渗透。无论是地质调查、社会科学、城市空间还是海洋科学等领域,数据都在发挥着重要作用。在这个过程中,数据与应用场景之间呈现出不断的关联、耦合和协同。例如,在气象场景中,我们需要整合卫星、雷达、格点和站点等多种数据来进行气象预报。

此外,许多应用场景也存在多耦合的特点。在完成预测动作后,我们需要立即评估相关的风险。例如,极端天气所带来的风险可能涉及地质灾害以及对城市空间的影响等多个方面。因此,在应用场景上,我们亟需进行相应的耦合处理。

02

企业视角下的空间数据智能分析与应用减灾场景

整个空间数据智能场景中,面对海量的数据,不同组织和研究场景之间的协同变得困难。然而,通过高维压缩形成模型,我们能够实现数据的共享和传递。数据的内在信息与价值正日益以更为丰富和高维的形式融入模型中,对数据的生命周期管理已逐渐演进为对模型生命周期的全面掌控,在此基础上,我们需要进一步审视并协调数据生命周期与模型生命周期之间的动态关系(From DataOps to ModelOps)。当前,针对空间数据智能分析场景的模型生命周期管理流程,和鲸通过自身实践,总结出以下 3 种 AI for Science 的ModelOps 方法论。

SAOps:以知识驱动、以数据验证的科学分析流程形成的专业模型

SAOps 是一个不断提出假设、检验假设的过程,涉及设计实验、分析数据等多个环节。在此过程中,模型的可解释性尤为重要,我们强调解释性优先,旨在解决模型与解释之间的关键问题。为此,我们需要对模型管理进行两项重要工作:一是保留探索模型及结果的过程,采用使用效果不好的方法,其结论和对比结果也能推进模型的发展;二是将模型与计算过程的报告相结合,共同构成成果。

MLOps:以数据驱动、以知识解释的 AI 模型

MLOps 是一个深入研究的流程。这类模型具有多个特点,如依赖数据和算力进行训练,例如,模型的代码和框架可以保持不变,但不同的训练数据会直接影响模型结构。此外,调用的算力资源也会影响模型训练的结果。因此,模型设计不仅取决于设计者,还依赖于数据资源和算力资源。最后,这类模型是全生命周期的,需要不断迭代,以适应数据的不断增长。我们需要进行数据探索、模型训练、模型评估、模型部署、模型监控和优化,以确保模型处于最佳状态。

讨论模型版本时,我们面临的挑战与以往不同。从模型全生命周期的角度看,版本管理变得更为复杂,不再仅限于模型文件本身。现在,我们需综合考虑数据要素、算力代码及训练环境等关键因素。此外,模型需持续评估,仅凭增加数据量并不能保证性能提升,倘若引入脏数据,可能会影响模型表现。因此,需建立持续化评估体系,确保模型始终最佳。

LLMOps:串联数据模型与领域知识的 LLM 智能体

大语言模型不仅在于其语言处理能力,更在于其作为 Agent 智能体基础设施所带来的变革。大模型可以参与 Agent智能体的计划(planning)、工具(tools)、记忆(memory)和行动(action)等过程,加速科学实验设计、阶段性成果学习以及与其他模型的融合。在未来,我们有望将研究流程、模型、科研工具等函数化,供大模型调用,从而加速模型生命周期的研究。

03

企业视角下的空间数据智能分析与应用减灾场景

接下来,我们将通过一个具体案例来深入探讨模型生命周期管理在实际应用中的落地实践。这个案例是和鲸与中国自然资源航空物探遥感中心遥感应用技术研究所合作的项目。在合作过程中,我们对上述模型生命周期管理流程进行了总结,并发现了一些关键特点和要素。

首先,和鲸高度重视模型生命周期管理的完善,因此,确立清晰的研究基本范式显得尤为重要。以遥感研究为例,遥感数据具有许多特殊性,虽然与图像数据相似,但无法直接使用计算机视觉模型进行研究。因此,我们需要将专家知识融合到模型设计过程中,形成“AI+遥感”的研究范式。这种范式强调从数据与知识的联合驱动出发,形成了对整个模型过程的研究管理。

在这个过程中,领域专家和AI模型相关专家之间的协作至关重要。他们需要在平台上共同工作,利用智能解译等相关技术,使模型能够学习并形成相应的流程。这个过程需要从数据驱动逐渐转向数据与知识的联合驱动,进而形成具体的研究范式。随后,和鲸可以基于这些范式开发具体的应用,形成“1+N”的服务模式,即在一个平台上结合多个应用终端,同时满足科研和生产的其他需求。

04

企业视角下的空间数据智能分析与应用减灾场景

特点一:跨角色协同扮演重要角色

首先,专家的知识与数据驱动化知识的结合是这一过程的关键。在讨论整个模型生命周期管理时,我们发现跨角色的协同扮演着重要角色。这主要体现在两个方面:一是领域专家对已有科研数据形成科研分析工具链的过程;二是AI算法模型的不断迭代过程。这两个过程并不是孤立的,而是需要相互协同,共同推动模型的发展。例如,当从遥感数据中提取信息后,我们利用智能解工具生成结果,并进一步开展深入研究。这些研究过程中的成果需要能够被AI解读,以便更好地辅助数据分析。

特点二:时间尺度的不断发展对可复现性的重要性

此外,由于空间数据科学中的数据量随时间呈爆炸性增长,相关模型的持续迭代十分必要。在这个过程中,模型的可复现性至关重要。这意味着无论是内部单位还是其他人,都需要能够基于我们的数据和模型进行下一步的迭代。因此,我们需要讨论如何确保模型能够被有效复现,包括基础设施的建设和对模型理解性的提升。

特点三:社区化承载模型成果对领域发展的重要性

会上的其他专家也多次提及协同的重要性。站在数据智能研究的角度,组织的边界是模糊的,它并不局限于独立的研究机构内,社区化是承载模型成果、推动领域发展的重要方式。不同的组织需要设计相应的模型成果接口,以便与外部组织进行交流和调用。例如,我们设计的和鲸社区,将不同垂直领域,例如气象科学数据分析的模型和成果以开放的形式在平台上共享。

数据科学平台的选型和落地过程极为复杂,充满风险,因此客户在选择产品时极为审慎。随着企业对成本效益和可持续性的日益关注,服务商需提供成本更低、迭代更快、效率更高的方案来满足客户需求。和鲸科技凭借其成熟的竞赛和社区平台,实现了多垂直领域数据分析流程、代码、结果的在线运行与端到端复现,使其他用户能够轻松运行、修改并分享社区内的模板。这不仅为和鲸吸引了大量专业用户,也为数据科学协同平台 ModelWhale 的发展提供了强大的支持。

本文内容已做精简,如需获取完整版课件,请联系我们

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/713557.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

mysql:简单理解mysql mvcc的可重复读

# 原理 假设有这样的sql begin select(或update、insert、delete) ... commit当执行【begin】的时候,标记有一个新事务要开始,但是事务还没有真正开始,事务id还没有产生当执行事务里面的第一个sql语句时(…

【JS重点15】原型对象概述

目录 一:构造函数缺陷 二:原型 1 原型是是什么 2 原型对象的作用 3 原型对象this指向问题 4 利用原型对象添加方法 给JS内置构造函数Array添加最大值方法 给JS内置构造函数Array添加求和方法 三:Constructor属性 四:如何…

「茶桁 AI 秘籍-CV 篇」预告

Hi, 大家好。 我是茶桁。 咱们的《茶桁的 AI 秘籍》系列距离上一个系列课程《人工智能 BI 核心》已经有一段时间了,终于有时间可以写 CV 部分的课程,主要也是最近一段时间我确实有点忙不过来。 那么咱们 CV 的课程会有一些变化,就是会改为收…

AtCoder Beginner Contest 358 A~E(F,G更新中...)

A.Welcome to AtCoder Land 题意 给出两个字符串 S , T S, T S,T&#xff0c;请你判断是否满足&#xff1a; 字符串 S S S为AtCoder 字符串 T T T为Land 分析 输入后判断即可 代码 #include<bits/stdc.h> using namespace std; void solve() {string s, t;cin &g…

MacOS系统中Java使用Opencv4.10.0库的编译过程和使用方法(附编译后的包)

编译开始 到官方下载源码&#xff1b;官方 解压后进入 opencv-4.10.0 目录 执行命令预编译&#xff0c;查看是否有Java的支持 cmake -S . -B build -DCMAKE_INSTALL_PREFIX/usr/local/opencv开始正式编译 # 进入build目录 cd build # make编译 {N} 取决于你有几个CPU、几个线…

AI大模型探索之路-实战篇:智能化IT领域搜索引擎之知乎网站数据获取(流程优化)

系列篇章&#x1f4a5; No.文章1AI大模型探索之路-实战篇&#xff1a;智能化IT领域搜索引擎的构建与初步实践2AI大模型探索之路-实战篇&#xff1a;智能化IT领域搜索引擎之GLM-4大模型技术的实践探索3AI大模型探索之路-实战篇&#xff1a;智能化IT领域搜索引擎之知乎网站数据获…

【在线OJ】vue分页+SpringBoot分页模板代码

一、Vue <template><div><el-table:data"user"style"width: 120%"><el-table-columnlabel"id"width"180"><template slot-scope"scope"><i class"el-icon-time"></i>&…

几个小创新模型,KAN组合网络(LSTM、GRU、Transformer)时间序列预测,python预测全家桶...

截止到本期&#xff0c;一共发了8篇关于机器学习预测全家桶Python代码的文章。参考往期文章如下&#xff1a; 1.终于来了&#xff01;python机器学习预测全家桶 2.机器学习预测全家桶-Python&#xff0c;一次性搞定多/单特征输入&#xff0c;多/单步预测&#xff01;最强模板&a…

中国城市建设统计年鉴(1978-2022年)

数据年份&#xff1a;1978-2022 数据格式&#xff1a;excel、pdf 数据内容&#xff1a;以2022年为例&#xff0c;《中国城市建设统计年鉴—2022》根据各省、自治区和直辖市建设行政主管部门上报的2022年及历年城市建设统计数据编辑。 共分13个部分&#xff0c;包括城市市政公用…

Java课程设计:基于swing + mysql的酒店管理系统

文章目录 一、项目介绍二、项目展示三、源码展示四、源码获取 一、项目介绍 项目功能 1、散客开单&#xff1a;完成散客的开单&#xff0c;可一次最多开5间相同类型的房间。 2、团体开单&#xff1a;完成团体的开单&#xff0c;开放数量没有限制&#xff0c;可同时开不同类型…

Java阻塞队列:ArrayBlockingQueue

Java阻塞队列&#xff1a;ArrayBlockingQueue ArrayBlockingQueue是Java中的一个阻塞队列&#xff08;Blocking Queue&#xff09;实现&#xff0c;它是线程安全的&#xff0c;并且基于数组实现。ArrayBlockingQueue常用于生产者-消费者模型&#xff0c;在这种模型中&#xff…

北京人工智能数据运营平台发布,并开源大规模数据集

6月14日&#xff0c;AI行业顶级盛会2024北京智源大会正式拉开帷幕。作为大会的重要组成部分&#xff0c;智源大会“人工智能数据新基建”论坛同步召开。本论坛由北京智源人工智能研究院主办&#xff0c;中国互联网协会人工智能工委会和中国移动研究院承办。本次论坛邀请到来自中…

2-5 基于matlab的信号的希尔伯特-黄变换

基于matlab的信号的希尔伯特-黄变换&#xff0c;IMF分解&#xff0c;对IMF进行Hilbert处理&#xff0c;绘制二维/三维时-频图&#xff0c;时间-能量图(瞬时能量谱) &#xff0c;频率-能量图&#xff08;希尔伯特谱&#xff09;。程序已调通&#xff0c;可直接运行。 2-5 希尔伯…

java Springboot网上音乐商城(源码+sql+论文)

1.1 研究目的和意义 随着市场经济发展&#xff0c;尤其是我国加入WTO &#xff0c;融入经济全球化潮流&#xff0c;已进入国内外市场经济发展新时期&#xff0c;音乐与市场联系越来越紧密&#xff0c;我国音乐和网上业务也进入新历史发展阶段。为了更好地服务于市场&#xff0…

11.泛型、trait和生命周期(上)

标题 一、泛型数据的引入二、改写为泛型函数三、结构体/枚举中的泛型定义四、方法定义中的泛型 一、泛型数据的引入 下面是两个函数&#xff0c;分别用来取得整型和符号型vector中的最大值 use std::fs::File;fn get_max_float_value_from_vector(src: &[f64]) -> f64…

.net8 blazor auto模式很爽(五)读取sqlite并显示(2)

在BlazorApp1增加文件夹data&#xff0c;里面增加类dbcont using SharedLibrary.Models; using System.Collections.Generic; using Microsoft.EntityFrameworkCore;namespace BlazorApp1.data {public class dbcont : DbContext{public dbcont(DbContextOptions<dbcont>…

Python进阶:从函数到文件的编程艺术!!!

第二章&#xff1a;Python进阶 模块概述 函数是一段可重复使用的代码块&#xff0c;它接受输入参数并返回一个结果。函数可以用于执行特定的任务、计算结果、修改数据等&#xff0c;使得代码更具模块化和可重用性。 模块是一组相关函数、类和变量的集合&#xff0c;它们被封…

vs+qt5.0 使用poppler 操作库

Poppler 是一个用来生成 PDF 的C类库&#xff0c;从xpdf 继承而来。vs编译库如下&#xff1a; vs中只需要添加依赖库即可 头文件&#xff1a;

2.2 抽头

目录 为什么要抽头 什么是抽头 接入系数 怎么抽头 信号源端抽头 负载端抽头 例题分析 要点总结 为什么要抽头 阻抗转换&#xff0c;使信号源内阻Rs与负载电阻RL变得很大&#xff0c;分流小&#xff0c;再使用并联方式。 什么是抽头 接入系数 电容越大&#xff0c;分压越…

初识PHP

一、格式 每行以分号结尾 <?phpecho hello; ?>二、echo函数和print函数 作用&#xff1a;两个函数都是输出内容到页面中&#xff0c;多用于代码调试。 <?php echo "<h1 styletext-align: center;>test</h1>"; print "<h1 stylet…