首页
友情链接
Search
1
贝壳找房 | Flink 运维体系在贝壳的实践
212 阅读
2
5 年迭代 5 次,抖音基于 Flink 的实时推荐系统演进历程
203 阅读
3
如何通过用户分层,提升用户增长?
129 阅读
4
百分点大数据技术团队:基于多 Spark 任务的 ClickHouse 数据同步方案实践
123 阅读
5
新型智慧城市安全论坛西安举行 促城市数字化转型发展
120 阅读
未分类
人工智能
智能机器人
智慧城市
智慧农业
新零售
智慧教育
智能医疗
智慧金融
AI政策
AI企业
机器学习
AI架构
金融科技
AI+
医疗科技
数据分析
登录
/
注册
Search
标签搜索
机器学习
算法
数据可视化
区块链
人工智能
AI
金融科技
金融
人脸识别
大数据
腾讯
银行
蚂蚁金服
比特币
支付
机器算法学习
算法学习
医疗AI
安防
人工智能架构
AI 技术学习
累计撰写
3,068
篇文章
累计收到
0
条评论
首页
栏目
未分类
人工智能
智能机器人
智慧城市
智慧农业
新零售
智慧教育
智能医疗
智慧金融
AI政策
AI企业
机器学习
AI架构
金融科技
AI+
医疗科技
数据分析
页面
友情链接
搜索到
4
篇与
数据分析
的结果
2021-04-12
如何通过用户分层,提升用户增长?
用户分层,是一种对用户进行群组划分的方法,通常用于描述某一用户的当前状态;在用户分层模型中,某一个用户在某一特定时间应只属于一个用户层级。今天,我们主要讲以生命周期阶段为依据的用户分层方法。1.何为用户?在讨论用户生命周期价值(CLV)之前,我们先看看,这里的“用户”究竟指的是哪些人。举个例子:如果把地球看成一个APP,用户就好比地球上的人。每年出生1.4亿人,目前70亿人活在世界上,已经累计死去1080亿人。其中出生人数就像是新增用户,现存70亿人口等同于活跃,累计死去的人意味着流失,“人活七十古来稀”的概念与留存周期类似,人们生育繁衍又与产品的口碑传播很像。这样,我们可以一一对应这些用户生命周期中的概念:新增(Acquisition)、活跃(Activation)、留存(Retention)、传播(Refer)等,对于互联网产品而言,还有一个商业变现(Revenue)的环节。这五个环节,就构成了我们常说的AARRR用户生命周期模型。仔细观察上图过程,不难发现,我们经常很自豪地说我积累了几百万、几千万用户,其实没有太大的意义。因为,这个数字当中的大多数用户,可能已经流失了,他们不会再为你的产品创造任何价值了。因此,当我们讨论“用户”的时候,我们需要清醒地认识到,只有那些能够被激活、与产品有互动、长期留存、消费/点击广告,甚至主动为你做传播的用户,才是真正优质的、核心的、正在创造价值的用户。那么,如何找到这群真正的优质核心用户呢?我们要做的第一件事就是分层。2.何为用户分层?用户分层,是一种对用户进行群组划分的方法,通常用于描述某一用户的当前状态;在用户分层模型中,某一个用户在某一特定时间应只属于一个用户层级。今天,我们主要讲以生命周期阶段为依据的用户分层方法。在按CLV做用户分层的过程中,我们需要以不同的“行为”的触发情况,标识用户的当前状态。以此判断用户正处于新增、活跃、留存、传播、付费的哪一个阶段。3.如何给用户分层?举几个例子:1)社交应用(SNS)典型分层: 第一层是新增访客,只要启动应用就算一个访客,访客中流失的记为流失访客; 第二层可以标记为活跃用户,至少触发一次浏览事件的才算一个有效活跃,流失的记为流失参与者者; 第三层标记为互动用户,有点赞评论的用户就是互动用户,流失用户记为流失使用者; 第四层记为回访用户,以多次启动应用并且多次互动为标准,如果他们流失了,则记为流失高价值用户。 2)SaaS用户的典型分层: 第一层是访客用户,以打开网站为基准,访客中流失的记为流失访客; 第二层记为评估用户,以深度浏览或查看官网demo为准,流失的记为流失评估者; 第三层标记为试用用户,以完成注册为标准,流失用户记为流失试用者; 第四层记为付费用户,以完成合同流程为准,流失用户记为流失客户。3)互联网理财的典型分层: 第一层依然是访客,也是以启动应用做标准;若一定时间周期内没有回访记录,则记入流失访客; 第二层为评估者,分层依据是:触发[查看理财产品]等内容浏览相关的事件;如果一个用户仅仅启动了应用,却没有浏览任何产品,就可以记为一个流失了; 第三层可以定义为实名用户,分层标准是绑定银行卡、完成实名认证等;此时,2、3层之间的流失用户我们记为“浏览后流失”; 第四层标记为投资用户,这个分层标准很简单,比如:至少购买一次理财产品;对于绑定了银行卡却没有选购产品的用户,记为“理财前流失”; 第五层可记为复购用户或者忠实用户,这些用户在投资行为上能够满足[周期性]的特征,投资金额能够逐步[增长];而时间周期内,有过投资记录却不满足该层级标准的用户,可以被记为“理财后流失”。 4.用户分层的价值对于上文提到的的用户分层案例,我们可以归纳出一个图形化的展示形式,如下图:上图所示金字塔模型,完整地展现了该产品的用户分层层级。企业可以通过跟踪研究用户行为,快速地明确用户生命周期中的不同阶段,并以此划分用户层级。这种基于行为的用户研究方法,会极大地提升企业的用研效率,了解不同层级的用户量及其转化途径,为用户增长的突破提供数据支撑。结合漏斗分析、同期群分析、留存率分析等多种分析模型,究竟哪些用户在为企业创造价值、用户为何购买为何流失……这些困扰着企业运营的难题都将迎刃而解。用户分层的展现与应用,可以通过堆积面积图、同期群百分比堆积图等形式进行。关于这两类数据展示形式的设计与解读,我们将在后期撰写独立内容做讲述。总 结用户分层,除了能够为企业提供科学的用户研究方法,其更重要的作用,在于拆分和构建业务流程中的指标衡量体系。在任何一个企业或团队里,不同角色、不同部门、不同岗位的人,需要关注的指标是不尽相同的。表1是个简单的例子:关注用户的生命周期,对用户进行分层分析与管理,探索各个层级阶段的核心指标,以此衡量业务部门的工作成效,这是每一个企业实现增长的必由之路。当然,这个过程并不是一蹴而就一成不变的。用户生命周期价值的分析与提升,同样遵循着精益分析的循环(loop of lean analysis),即:产生想法->构建指标体系->设计产品/方案->衡量实施结果à对过程数据进行分析->从分析中学习经验->产生新的想法。一个好的idea对于优秀产品而言固然重要,但更重要的,是对用户需求的深刻理解和对用户价值的深入挖掘。想要实现这两个“小目标”,CLV(用户生命周期价值)分析必不可少,用户分层模型及其指标体系必不可少。
2021年04月12日
129 阅读
0 评论
0 点赞
2021-04-12
增长黑客进阶之路:关于A/A测试,看这篇文章就够了
增长黑客成长之路上,想比大家对A/B测试已经很熟悉了,但听过、实践过A/A测试的同学举个手我看看,喏,还没多少人。这篇文章我们就来讲讲A/A测试。什么是A/A测试?A/A测试可以理解成对两个相同版本进行的A/B测试。通常,这样做的目的是为了验证正在使用的工具运行试验在统计上是公平的。在A/A测试中,如果测试正确进行,控制组和实验组应该没有任何区别。在没做A/A测试之前,你可能什么都不知道,这里的逻辑是这样的:如果样本的A/A测试结果达到统计显著,那么A/B测试工具或测试方案就是不可信的。如果说A/B测试用来测试比较几个方案的优劣,那么A/A测试就是验证A/B测试及工具置信度的有效方式。为什么进行A/A测试?既然A/A测试的两个版本变量没有任何变化,为什么还要花时间精力来做?商业活动中,通常我们使用一切数据工具的目的,无外乎:用测量推动决策优化,同时用正确的决策获取比竞争对手更大的市场。可能通过数据能获取的决策信息点有很多,那么通过A/A测试来确保你得到的数据能用来自信地作出决定,减小决策失误。通常情况下我们做A/A测试的目的有下面几个: 保证精确的流量分配,换句话说,验证随机性实际上是通过确保每次试验产生的计数与统计范围相似 识别假阳性结果的频率(假阳性结果也可以理解为测试结果中的虚假繁荣,有相当的误导性) 确定方差“泡沫”帮我们更好的理解其他测试结果 关于假阳性A/A测试能被用来理解假阳性结果的频率。简单讲,如果你在测试中采用95%置信水平,那么20次结果可能会出现1次假阳性结果。这时候通过A/A测试,就能验证转化率的显著差异,比如,你运行20次A/A测试,其中有2次结果明显不同,这意味着假阳性的比例可能高于5%。方差“泡沫”A/A测试能帮助确定转化率中的方差“泡沫”,最小化对未来测试的影响。除了技术上的有效性,A/A测试能让“泡沫”在可接受范围内。比如,如果A/A测试中的泡沫是0.1%,测试转化率是3%,那么你可以接受的范围就是2.9%-3.1%。如果你看到0.1%的提升,那么你就知道这样的结果是没有意义的。A/A测试的时候,你不知道什么时候新变量和默认变量的转化率差别结果能达到统计显著。因此,A/A测试中的任何错误或置信度不应被用来作为未来测试的基准,因为A/A测试中本不应有转化率的明显差异。需要注意的是,有可能只是因为随机性,导致A/A测试的两个试验结果有所不同,而不是工具或测试方案本身的问题。当然,随着样本量的增大,这种差别会逐渐降低。这是因为,小样本下的结果是不可信的,小样本从总体上意味着可能存在分配不均的数据段。要消除这点,就需要A/A测试运行足够长的时间,以及有足够的样本规模。计算测试持续时间测试持续时间是两个因素的函数: 达到一个可接受的样本大小所需的时间 变量之间的不同表现差异大小 如果一个变量引起了50%的变化,测试就不必运行很长时间。这种情况,即使是在小样本下,也可以忽略统计误差。如何设置A/A测试?A/A测试好在不必做任何创造性的或研发上的工作。当设置A/B测试时,你需要在A/B测试软件上编程来改变、隐藏或删除页面的某些部分,对A/A测试来说这些都是不需要的。A/A测试面临的挑战是正确的选择运行测试的页面,通常做A/A测试的页面都应该有两个特点: 相对较高的流量。网页流量越多,越早看到变量的对比。 访客可以从页面购买或注册。我们希望根据最终目标来校验我们的A/B测试工具。 出于这些原因,通常我们会在网站主页上运行A/A测试。运行A/A测试的成本运行A/A测试的唯一成本:机会成本。有的人宁愿把A/A测试上投入的时间和流量用来多做几次A/B测试也不是没有道理的。应该考虑运行A/A测试的唯一种情况:1.你刚安装了一个新的测试工具或更改了测试工具设置。2.你发现了A/B测试与数据分析工具结果之间存在差异。参考文章: blog.analytics-toolkit.com/2014/aa-aab-aabb-tests-cro/ blogs.oracle.com/marketingcloud/optimization-shorts:-aa-testing www.optimizely.com/optimization-glossary/aa-testing/ 本文由 Zoran @吆喝科技(微信:appadhoc)授权发布,未经作者许可,禁止转载。
2021年04月12日
16 阅读
0 评论
0 点赞
2021-04-07
数据分析的坑,都在统计学里埋过
为什么要了解统计学?对于普罗大众来说,统计学应该会成为每人必备的常识,才能避免被越来越精致的数字陷阱欺骗。起码当你看到各种百分比和收益率,能多出一份警觉,多思考些他们的来源和计算途径。对于互联网工作者来说,统计知识投射在互联网上,就是数据相关的方法论。举例来讲,现在盛行的 A/B Test 本质上就是控制变量法实验中的一种。不同的是,互联网获取数据更简单,进行对比实验更方便。这将是一个统计学/数据分析的大事件。想象一下 Facebook 内部几千个 A/B Gate,简直称得上一场史无前例的大规模人口社会实验。这也是为什么近些年来 Growth Hacker ,Data Scientist 越来越火的原因。数据量的极易获取,计算存储成本的降低和分析效率的提升,使得统计分析的成本更低,规模更大,从而输出价值更高。统计和分析的差别个人理解上,统计分析应该是整个数据流程的不同部分。统计在于工具或手段,分析更偏重理念。比如回归分析为什么叫分析不叫统计,就是因为其中已经包含了部分归因的思想。再举个栗子,决定对一批数据取平均数还是中位数,这是统计,该怎么利用,是分析。如《赤裸裸的统计学》中指出来的一样,统计分析是: 总结大量的数据 做出正确的决定 回答重要的社会问题 认识并改善我们日常的行为模型 坑一:统计指标各有利弊通过选择合适的统计指标,来精准表达数据集的内容。同时也需要防止有人利用这些指标的优缺点来误导舆论,影响你的决策。平均数,中位数,四分位数: 平均数对极值敏感而中位数不会。所以北京的同学们经常会感觉自己的薪资收入拖慢了集体的后腿….但如果看中位数和四分位数,可能情况就会大不相同。绝对值,比率值:注册数是绝对值,注册率是比率值。比率值出现异常时,需要首先关注分子和分母的情况。比如说,某天发现网站 UV 周同比上涨了 500%,有可能是上周基数太低导致的。如果一上来就从维度进行细分,很容易跑偏。百分比,百分差,百分率:百分比是个常见的数据表达形式,其中猫腻也比较多。此类数字往往需要注意分母和分子的差别。以下是两个常见例子:1,一件货品先降价15%再涨15%价格是否一样?2,对于百分差和百分率,税率从3%涨到5%,可以说上涨了2个百分点,也可以说上涨了67%,给人感觉效果大不一样。指数型数据:即通过各项数据计算得出来的指数,优点在于将所有信息浓缩成一个数字,简单易懂,但容易忽略其中成分数据的影响。美团外卖当初有个很复杂的考核城市用户体验的指标,就是个很好的例子。通过多项数据的整合,我们很好地把用户体验这种比较虚的东西落到了实处。不过需要注意的是,对它的过分依赖容易带来误导性的结论。坑二:统计背景不够明确首先要了解:精确和准确是有本质差别的。如在你内急的时候我告诉你公厕在你右边直走134.12m处,这很精确。不过实际上,厕所在左边。准确的要义是要能让指标贴近所描述事物。这需要在衡量事物的指标上达成统一。如在之前 20011 年时有争论:美国制造业是否正在衰退?从总体产出上看,从 2000 年来看一直在增长,而制造业的就业数却在下降。因此需要统一指标来表述制造业的繁荣情况。就像电商一样,需要明确自己当前关注的唯一核心指标,如订单数,交易额等。不同的关注会导致公司战略上的不同。第三确定指标后,需要确定描述主体。同样是房价,政府说我们今年有60%的城市,房均价比去年低!你们买房有希望了!但实际上,40%的房子都涨价了,且都集中在核心城市。P 民们照样买不起房子..注意时代背景:《赤裸裸的统计学》中举了个很有趣的例子:如何评价历史上票房最高的电影。好莱坞在截止2011年时,给出的票房前 5 名是:阿凡达,泰坦尼克号,蝙蝠侠前传二,星球大战四和怪物史莱克二。但历史阶段上,通胀情况是不一样的。把通胀因素考虑进来后,这个榜单应该更新为:乱世佳人,星球大战四,音乐之声,外星人 ET 和十诫。利用统计学手段可以影响人们的解读:截取有利时间段,混淆单位等。坑三:统计指标也有偏见在选择样本和进行统计分析时,会存在各种各样的偏见,导致结果失之毫厘,谬以千里。选择性偏见:选择了错误的样本,得到的分析结论自然是错的。如在第三季硅谷里,Richard 对自己的开发者朋友们发布了 Beta 版,好评如潮。但因为其上手难度太高,普通用户根本用不了,最后注册用户虽有百万之巨,但活跃用户却寥寥无几。同样的,在对电商用户习惯做分析时,一二线城市和三四线城市的消费水平和习惯肯定有所差异,选择单独一种都会有失偏颇。发表性偏见:学术研究或新闻更乐于发表肯定性结论而非否定性。一个打游戏不会引发癌症的研究,肯定不如证明当 PM 会导致寿命更短的实验更受关注。记忆性偏见:人们会因为结果修改自己的记忆,如很多成功人士会在失败后将原因归咎于某个因素,并将其放大成关键原因。但事实上可能并非如此。幸存者偏见:通过挑选样本来操控数据。简而言之,对于那些下单成功的用户数来讲,他们的注册成功率是 100%。在日常分析中,需要时刻警惕这种偏见的变异版本。坑四:慎重选择统计实验在研究事物的相关性时,控制变量实验是个比较科学的做法。在现实生活中,一些变量很难甚至无法控制,此时便需通过各种统计实验来逼近这种效果。随机控制实验:随机抽取样本,随机分配实验组和对照组。这便是最理想的 A/B Test,核心在分桶策略。自然实验:利用已有数据营造近似的随机实验,如在 O2O 城市运营中,很难长期控制城市去做实验要求的推广活动来对比哪种更有效。合适的方法是从已有的数据中,挑选情况类似活动不同的城市来进行对比分析。差分类差分实验:利用时间和空间上的对比来控制变量,如美国曾经在研究受教育年龄对寿命的影响实验中,分析了田纳西州在教育改革时间前后数据的变化,以及和相邻州对比情况。非连续分析实验:选择条件类似但结果不同的样本,进行对比分析。如选择一批犯罪情况类似的青少年,一组需要送去监狱而另一组刚好免除牢狱之灾,通过对这两组人的分析来研究坐牢对青少年后续犯罪率的影响。《赤裸裸的统计学》中,还有部分关于概率,期望值和回归分析的部分,限于篇幅所限,在这里就不多阐述了。感兴趣的同学推荐详细阅读此书。更老的一本还有《统计数字会撒谎》。希望这篇分享能给大家带来一点收获。 作者:陈新涛 美团外卖首任数据产品经理,如今在大数据公司 GrowingIO 任职。
2021年04月07日
70 阅读
0 评论
0 点赞
2021-04-01
常用的产品数据分析方法之漏斗模型与归因模型
导语:漏斗模型与归因模型不仅仅可以运用在数据运营的工作中,更是对于业务整体流程的梳理与再明确。这也可以说是工作中必不可少的技能之一。刚刚接触数据运营的同学可能都会产生这样的困惑:数据运营难不难?我数学不好该怎么做?是不是还需要学习数学建模?我该看点什么书学习?包括喵君刚开始工作的时候也在困惑,面对一条条业务数据不知道从何下手。今天我们就来一起捋一捋一些工作中常见的产品数据分析方法,回答一下“怎么做”的问题。我曾经对新人说过,数据可以绘制用户肖像及行为轨迹,可以监控产品转化及发展情况,可以横向评估渠道效果,这一切都涉及到与产品、市场、技术等多个部门的协同工作。数据运营是很伟大也很多面手的职业。漏斗模型今天首先要介绍的是漏斗模型:它可以广泛应用于流量监控、产品目标转化等日常数据运营工作中。之所以称为漏斗,就是因为用户(或者流量)集中从某个功能点进入(这是可以根据业务需求来自行设定的),可能会通过产品本身设定的流程完成操作。对于我们要做的就是对按照流程操作的用户进行各个转化层级上的监控,寻找每个层级的可优化点;对没有按照流程操作的用户绘制他们的转化路径,找到可提升用户体验,缩短路径的空间。运用漏斗模型比较典型的案例就是电商网站的转化,用户在选购商品的时候必然会按照预先设计好的购买流程进行下单,最终完成支付。这些数据虽然是我瞎编的(你来打我呀)但是如果没有整个业务流程的梳理,就不会有这种漏斗模型的产出,更别说去查找每个步骤出现用户流失的问题了。当然有些时候也要做一些竞品分析,对于同行业同类数据的转化情况做到心中有数。尽可能降低用户流失是我们的目标,但是如果可以做到不低于行业平均水准同时资源有限的话,降低这个转化漏斗的用户流失就需要被放置较低的优先级里。还有一些比较经典的漏斗转化模型就是用于用户注册流程上:我们需要知道多少用户点击了注册按钮(漏斗的开端),多少用户完成了信息填写(多少用户放弃填写),多少用户点击发送验证码按钮(验证码到达率),成功完成注册的人数。如果一旦在运营过程中发现某一天的注册用户数出现波动,那么除了去查一下市场渠道及广告投放,产品本身的注册功能也是可能出现这个问题的重要因素。对于产品的非功能页面,比如某个活动页,公司简介页等等,用户可能不会按照我们既定的流程到达,那么就要根据实际的目标来确认是否有讲这类非功能页面的转化流程做优化的必要性。归因模型归因模型,更准确的描述其实是一种既定的规则,我们需要根据产品的实际需求,将达成目标(形成转化)之前的功劳根据设定的权重分配给每一个转化节点。产品形成一次转化,用户可能要经历很多个转化节点(转化并不一定只完成销售。一次注册也可以看作一次转化,一次访问也可以看作一次转化,要根据业务实际需求制定)。归因模型在使用过程中通常分为几类:最终互动模型、首次互动模型、线性归因模型、时间衰减归因模型、自定义等,这里逐一进行描述:产品情景描述:用户在Baidu上搜索一个关键词,点进了一个叫a.com的网站之后放弃继续搜索。过了几天他又在自己的Facebook上看到了这个关键词的广告,随后他点击了广告最终完成购买。最终互动模型:最后一个节点将被分配100%的功劳,那么Facebook(社交媒体)上的广告获得100%的功劳;首次互动模型:用户首先是在Baidu进行关键词搜索的,那么Baidu(搜索引擎)将被分配100%的功劳;线性归因模型:用户从开始搜索到转化,共经历了三个渠道(节点),那么每个节点将被平均授予33.3%的功劳;时间衰退归因模型:用户在Baidu搜索和访问了a.com是几天之前的事情,那么这两个渠道因为时间经历比较长的原因将被分配较低的功劳(如各20%),Facebook将被分配相对较高的功劳(60%);当然,实际的业务流程和渠道转化流程不会像描述的这样简单,我们也可以根据需求自行定义。归因模型的意义在于寻找到真正对于现阶段产品发展有利的渠道,并将优势扩大化。当然,它是具有时效性的,也就是说产品的不同阶段归因模型所得到的结果很可能是不一样的。之后还会针对产品数据分析方法中的“Cohort分析(同期群分析)“、”数据细分“、数据整理做一些描述。 作者:Jeffery(微信公众号:猫狗奇谈,MDJUN_1234),数据产品经理
2021年04月01日
78 阅读
0 评论
0 点赞