DD代驾.高级数分 已二面


dd高级数据分析面试感觉更偏数科一点,问了很多AB实验和反事实因果推断的问题,同时也比较关注怎么对模型进行的评价

一面:小组长|组员 40min

  • 自我介绍
  • 项目深究
    1、你在实际工作做AB的流程
    2、AB实验你们咋算的样本量
    3、AB实验你们啥情况会做AA
    4、实际业务场景遇到过AA不同的情况么 怎么处理
    5、实际业务场景遇到过AB效果不通过 但明显上线是有提升的情况么 怎么处理
    6、给了一个实际业务场景:由于法规问题DD代驾广告只能在某个城市进行全量分发,怎么回收效果
    7、讲下PSM-DID在实际业务场景中是怎么做的?
    8、PSM用的一对一匹配还是一对多匹配,为什么
    9、讲下你在营销场景怎么用的营销增益模型
    10、你模型的效果怎么样,模型用什么算法做的分类,分类效果用了什么指标,后续怎么在这做的优化
  • 反问: 问了部门框架、我进去后的职责,分析师的价值、OKR在公司怎么评价的、对我的反馈

参考答案:
一面问题gpt作答:
1、你在实际工作做AB的流程

  • 我会先明确实验的目标和假设,然后设计实验方案,包括实验组和对照组的分配方法,实验指标的选择和计算方法,实验周期的确定等。
  • 然后我会进行样本量的估算,根据实验的效果量,显著性水平和统计功效来确定需要多少用户参与实验。
  • 接着我会在合适的平台上部署实验,收集数据,并定期监控实验的运行情况,检查是否有异常或者干扰因素。
  • 最后我会对实验结果进行分析,检验假设是否成立,评估实验效果的显著性和稳定性,总结实验的收获和改进点,并给出上线或者迭代的建议。

2、AB实验你们咋算的样本量

请添加图片描述

3、AB实验你们啥情况会做AA

  • AA实验是指把同一个用户群体随机分成两个组,但是不对他们施加任何干预,只是观察他们的行为差异。我们会在以下情况下做AA实验:
    • 在正式做AB实验之前,检查实验平台是否有问题,比如随机分组是否均匀,数据收集是否准确等。
    • 在正式做AB实验之后,检查是否有其他因素影响了实验结果,比如季节性变化,竞争对手的行为等。
    • 在想要了解用户群体本身的特征或者行为模式时,比如用户的留存率,转化率等。

4、实际业务场景遇到过AA不同的情况么 怎么处理

  • 我遇到过一次AA不同的情况,当时我们想要测试一个新功能对用户活跃度的影响,所以我们把用户随机分成两个组,一个组开启新功能,一个组关闭新功能。但是在开启新功能之前,我们先做了一个AA实验来检查平台是否正常。结果发现两个组的活跃度有显著差异,而且差异很大。
  • 我们分析了一下原因,发现是因为我们在分组时没有考虑到用户的地域属性。由于我们的产品是一个本地化的服务,不同地区的用户有不同的使用习惯和偏好。而且当时正好是春节期间,一些地区的用户出行更多,一些地区的用户留在家里更多。所以导致了两个组的用户活跃度不同。
  • 我们处理的方法是重新分组,把用户按照地域进行分层抽样,然后再随机分成两个组。这样就可以保证两个组的用户在地域上是相似的,从而减少干扰因素的影响。

5、实际业务场景遇到过AB效果不通过 但明显上线是有提升的情况么 怎么处理

  • 我遇到过一次这样的情况,当时我们想要测试一个新的推荐算法对用户点击率的影响,所以我们把用户随机分成两个组,一个组使用新算法,一个组使用旧算法。结果发现两个组的点击率没有显著差异,也就是说新算法没有比旧算法更好。
  • 但是我们发现新算法有一个优点,就是它能够推荐更多的长尾内容,也就是一些不太热门但是有价值的内容。这样可以增加用户的内容多样性和满意度,从而提高用户的留存率和转化率。所以我们决定上线新算法,并且继续优化它。
  • 我们处理的方法是在上线新算法之前,我们先做了一个长期跟踪实验,观察两个组的用户在留存率和转化率上是否有差异。结果发现新算法确实能够提高这两个指标,并且差异是显著的。所以我们就有了信心上线新算法,并且继续优化它。

6、给了一个实际业务场景:由于法规问题DD代驾广告只能在某个城市进行全量分发,怎么回收效果

  • 这个场景比较复杂,因为无法进行随机对照实验来评估广告效果。我会尝试用以下方法来回收效果:
    • 首先,我会选择一个或者多个相似城市作为对照组,比如在人口规模,经济水平,交通状况等方面与实验城市类似的城市。然后我会收集这些城市在广告投放前后的相关数据,比如代驾需求量,代驾订单量,代驾收入等。
    • 其次,我会用一些因果推断的方法来消除其他干扰因素的影响,比如倾向得分匹配(PSM),差分进差分(DID),合成控制法(SCM)等。这些方法可以帮助我构建一个合理的计数事实(counterfactual),也就是如果没有广告投放,实验城市会发生什么。
    • 最后,我会用实验城市和对照城市在广告投放前后的数据差异来估计广告效果,比如代驾需求量增长率,代驾订单量增长率,代驾收入增长率等。这些指标可以反映广告对用户行为和商业目标的影响。

7、讲下PSM-DID在实际业务场景中是怎么做的?

  • PSM-DID是一种结合了倾向得分匹配(PSM)和差分进差分(DID)的因果推断方法。它可以用来评估一些无

8、PSM用的一对一匹配还是一对多匹配,为什么

  • PSM可以用一对一匹配或者一对多匹配,具体取决于实际情况和目的。一般来说,一对一匹配可以减少匹配偏差,保证每个实验组的个体都有一个相似的对照组的个体。但是一对一匹配也会导致一些问题,比如匹配失败,匹配质量低,样本量减少等。所以有时候我们会用一对多匹配,比如每个实验组的个体可以匹配多个对照组的个体,或者每个对照组的个体可以匹配多个实验组的个体。这样可以增加匹配成功率,提高匹配质量,保留更多的样本量等。但是一对多匹配也会增加方差,降低效率等。所以我们需要根据具体情况和目的来选择合适的匹配方法。

9、讲下你在营销场景怎么用的营销增益模型

  • 营销增益模型是一种用来评估营销活动效果的模型。它基于以下假设:
    • 营销活动可以影响用户从一个状态转移到另一个状态,比如从未知到知晓,从知晓到感兴趣,从感兴趣到购买等。
    • 用户在不同状态下对营销活动有不同的反应,比如在未知状态下更容易被吸引,而在购买状态下更容易被留住等。
    • 营销活动有不同的类型和强度,比如广告,促销,优惠券等,并且有不同的投放渠道和时间。
  • 我在营销场景中用营销增益模型的步骤如下:
    • 首先,我会定义用户的状态和转移概率,并且根据历史数据或者专家知识来估计它们。比如我可以把用户分成四个状态:未知(U),知晓(A),感兴趣(I),购买(B),并且估计每个状态之间的转移概率。
    • 其次,我会定义营销活动的类型和强度,并且根据历史数据或者专家知识来估计它们对用户状态转移概率的影响。比如我可以把营销活动分成三种类型:广告(AD),促销(PR),优惠券(CO),并且估计它们对每个状态之间转移概率的增益系数。
    • 最后,我会根据营销活动的投放计划和预算来模拟用户状态转移过程,并且计算营销活动的效果指标,比如覆盖率,参与率,转化率等。然后我可以根据这些指标来评估和优化营销活动的策略。

10、你模型的效果怎么样,模型用什么算法做的分类,分类效果用了什么指标,后续怎么在这做的优化

  • 我做过一个模型是用来预测用户是否会点击某个广告的。这个模型的效果还不错,比基准模型有明显的提升。我用的算法是逻辑回归,因为它简单而且易于解释。我用的分类效果指标是AUC,因为它可以反映模型对正负样本的区分能力,而且不受样本不平衡的影响。我后续在这做的优化有以下几点:
    • 我尝试了一些特征工程的方法,比如对连续特征进行分箱,对类别特征进行编码,对文本特征进行向量化等,来提高特征的表达能力和区分能力。
    • 我尝试了一些模型选择和调参的方法,比如网格搜索,交叉验证,正则化等,来避免过拟合和欠拟合,提高模型的泛化能力。
    • 我尝试了一些模型融合的方法,比如随机森林,梯度提升树,神经网络等,来增加模型的复杂度和灵活度,提高模型的拟合能力。

DD二面 大佬面 1h

主要深究项目中的归因经历,同时对个人的行业思考、个人协作能力进行了考察
1、自我介绍
2、项目深究

  • 讲下付费营销这个项目,背景、目标、策略、动作、效果
  • 对我讲述进行他自己理解的复述,向我确认细节,问你觉人工智能可以应用在那些环节?
  • 单就引导语场景进行了深究,你怎么知道优化后引导语让那些人愿意点了,那些人没有愿意点(说实话没太get他想问的点,答目前只是进行一轮AB实验 通过用户转化率对效果进行评价,更加精细化下转的方法在付费页环节的营销增益上有体现,后续也会上个性化引导)
  • 那你实验时优化的效果提升12%,全量后有没有提升12%,如果没有,为什么没有提升12%
  • 什么情况下会做AA,怎么做AA,怎么通过AA判断分流的可用性,AA的原假设是啥,如果把AA的原假设和备择假设互换会发生什么?
  • 这个场景用的是UV分流还有PV分流,你觉得两者分别在什么场景应用比较合适
  • 在你实验场景中和研发同学遇到几个比较多的问题是什么
  • 你觉得可以怎么解决
  • 假设一个环境,你合作的业务方都有很强的数据能力,你觉得你的价值优势壁垒是什么
  • 你自己的职业规划是啥 想往商业化走还有偏数科走(感觉没答好)

3、反问(这里有点被问楞了,前面交流时已经给了很多反馈,有点不知道问啥了)

  • 大概听说过dd的运营都有一定的数据分析能力,就反问了大佬对最后一个问题的想法(感觉大佬有点答非所问) 晕~
  • 反思:感觉还要再问下对如果我进去后的期望和建议的 蒙了没问

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/302569.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spark MLlib ----- ALS算法

补充 在谈ALS(Alternating Least Squares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用…

Sortable.js:功能强大的JavaScript 拖拽库

原文地址:Sortable.js:功能强大的JavaScript 拖拽库 一、介绍 Sortable.js一个功能强大的JavaScript 拖拽库!!!用于在网页上创建可拖放和可排序的元素。它提供了简单而强大的 API,使开发人员能够轻松地实…

java每日一题——输出9x9乘法表(答案及编程思路)

前言: 打好基础,daydayup! 题目:输出下图9x9乘法表 编程思路:java只能输出行,不能输出列,所以考虑好每一行输出的内容即可 public class demo {public static void main(String[] args) {for (int i 1; i…

SpringBoot + Mybatis 实现多数据源原来如此简单

1、为什么需要整合多数据源 在开发的过程中,我们可能会遇到一个工程使用多个数据源的情况,总体而言分为以下几个原因 a、数据隔离:将不同的数据存储在不同的数据库中,如多租户场景 b、性能优化:将数据分散到多个数据库…

鹦鹉目标检测数据集VOC格式600张

鹦鹉,一种色彩鲜艳、聪明伶俐的鸟类,以其模仿人类语言的能力和独特的喙形而广受喜爱。 鹦鹉属于鸟纲、鹦鹉科,是热带和亚热带地区的常见鸟类。它们的喙弯曲呈钩状,非常适合啄食种子、果实和坚果等食物。鹦鹉的羽毛通常非常鲜艳&a…

DVWA-Hight-xss漏洞

首先来到DVWA高级模式下反射型xss漏洞处 开始测试 <script>alert(/xss/)</script> 发现直接使用js代码不行&#xff0c;被直接过滤稍微试探针对的过滤对象 发现这里针对 <script>标签会直接过滤 我们改用<img>标签试探是否过滤 发现这里针对img标签没…

c语言-数组指针

文章目录 前言一、字符指针二、数组指针2.1 数组指针基础2.2 数组指针作函数参数 三、void*类型指针总结 前言 在c语言基础已经介绍过关于指针的概念和基本使用&#xff0c;本篇文章进一步介绍c语言中关于指针的应用。 一、字符指针 字符指针是指向字符的指针。 结果分析&…

如何将ElementUI组件库中的时间控件迁移到帆软报表中

需求:需要将ElementUI组件库中的时间控件迁移到帆软报表中,具体为普通报表的参数面板中,填报报表的组件中,决策报表的组件与参数面板中。 这三个场景中分别需要用到帆软报表二开平台的ParameterWidgetOptionProvider,FormWidgetOptionProvider,CellWidgetOptionProvider开…

04、Kafka ------ 各个功能的作用解释(Cluster、集群、Broker、位移主题、复制因子、领导者副本、主题)

目录 启动命令&#xff1a;CMAK的用法★ 在CMAK中添加 Cluster★ 在CMAK中查看指定集群★ 在CMAK中查看 Broker★ 位移主题★ 复制因子★ 领导者副本和追随者副本★ 查看主题 启动命令&#xff1a; 1、启动 zookeeper 服务器端 小黑窗输入命令&#xff1a; zkServer 2、启动 …

Java桶排序、基数排序、剪枝算法

桶排序算法 桶排序的基本思想是&#xff1a; 把数组 arr 划分为 n 个大小相同子区间&#xff08;桶&#xff09;&#xff0c;每个子区间各自排序&#xff0c;最后合并 。计数排序是桶排序的一种特殊情况&#xff0c;可以把计数排序当成每个桶里只有一个元素的情况。 1.找出待…

数字孪生与物联网(IoT)技术的结合

数字孪生与物联网&#xff08;IoT&#xff09;技术的结合可以在多个领域实现更智能、更高效的应用。以下是数字孪生在物联网技术中的一些应用&#xff0c;希望对大家有所帮助。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流合作。 1.实时监…

lazada越南站收款问题;lazada可以使用支付宝吗?-站斧浏览器

Lazada越南站收款问题 线上支付方式&#xff1a;Lazada越南本土店提供多种线上支付方式&#xff0c;以方便消费者完成购物支付。常见的线上支付方式包括信用卡支付、借记卡支付、电子钱包支付&#xff08;如Momo、Zalo Pay等&#xff09;以及银行转账等。商家可以根据自己的需…

[VUE]4-状态管理vuex

目录 状态管理 vuex 1、vuex 介绍 2、安装 3、使用方式 4、总结 &#x1f343;作者介绍&#xff1a;双非本科大三网络工程专业在读&#xff0c;阿里云专家博主&#xff0c;专注于Java领域学习&#xff0c;擅长web应用开发、数据结构和算法&#xff0c;初步涉猎Python人工智…

集成电路封装基板技术

集成电路(IC)封装是伴随集成电路的发展而前进的。随着宇航、航空、机械、轻工、化工等各个行业的不断发展&#xff0c;整机也向着多功能、小型化方向变化。这样&#xff0c;就要求IC的﹐集成度越来越高&#xff0c;功能越来越复杂。相应地要求集成电路封装密度越来越大&#xf…

【Element】el-form和el-table嵌套实现表格编辑并提交表单校验

目录 一、背景 二、功能实现 2.1、el-form和el-table嵌套说明 2.2、具体代码 三、实际项目应用 3.1、增加添加与删除操作 3.2、添加和删除代码 3.4、实际效果 一、背景 页面需要用到表格采集用户数据&#xff0c;提交时进行表单校验&#xff1b;即表单中嵌套着表格&am…

散列分区(hash分区)案例

在列取值难以确定的情况下采用的分区方法 1.hash分区可以由hash键来分布 2.dba无法获知具体的数据值 3.数据的分布由oracle处理 4每个分区有自己的表空间 --建表同上一节 CREATE TABLE ware_retail_part3( id INTEGER primary key, retail_date date, ware_na…

软件测试|深入理解Python的encode()和decode()方法

简介 在Python中&#xff0c;字符串是不可变的序列对象&#xff0c;它由Unicode字符组成。当我们需要在字符串和字节之间进行转换时&#xff0c;Python提供了两个非常重要的方法&#xff1a;encode()和decode()。这两个方法允许我们在Unicode字符和字节之间进行相互转换&#…

harmonyOS 时间选择组件(TimePicker)

本文 我们来说 TimePicker 时间组件 首先 我们搭一个最基本的组件骨架 Entry Component struct Index {build() {Row() {Column() {}.width(100%)}.height(100%)} }然后 在 Column 组件内 放一个 TimePicker进去 这里 我们就可以看到 一个时间的选择器了 DatePicker 捕获当前…

【JUC进阶】13. InheritableThreadLocal

目录 1、前言 2、回顾ThreadLocal 3、InheritableThreadLocal 4、实现原理 5、线程池中的问题 6、小结 1、前言 在《【JUC基础】14. ThreadLocal》一文中&#xff0c;介绍了ThreadLocal主要是用于每个线程持有的独立变量。通俗的说就是ThreadLocal是每个线程独有的一份内…

基于ssm的双减后初小教育课外学习生活活动平台的设计与实现论文

双减后初小教育课外学习生活活动平台的设计与实现 摘 要 当下&#xff0c;正处于信息化的时代&#xff0c;许多行业顺应时代的变化&#xff0c;结合使用计算机技术向数字化、信息化建设迈进。以前学校对于课外学习活动信息的管理和控制&#xff0c;采用人工登记的方式保存相关…