The Data Scientist #3: False Rigor

2021/05/15 16:01


本周的主题是 False Rigor 假严谨。

这个标题来自于 Pinterest 在北极星指标上的失败教训。Pinterest 曾以每周活跃转发或点击者(WARC)作为他们的核心指标,这个指标的危险之处在于它是两种行为的组合,增加这个指标可以通过将一种行为转换为另一种行为。极端情况下,算法如果优化了标题党(clickbait)而非真正有趣的内容,光看指标会认为用户参与度在增加,但长期来看这种影响是消极的;WARC 的另一个问题在于,它完全忽略了双边网络中的供应者,如果我们知道哪些内容已经被证明过可以推动这个指标的增加,就不愿意花时间创造独特和新的内容了。

对于指标的错误运用有时会产生一种 False Rigor 的文化,人们在改善指标的名义下,看起来做了一次成功优化,结果产生了消极的作用。增加一个新功能之后「所有指标都没有下降」且「使用新功能的人数增加了」并不能成为这个功能取得成功的证据,因为很多重要的事情无法精确测量,比如引入新功能后导致用户认知成本的增加。

Pinterest 不再使用 WARC 这个指标,甚至放弃了对核心指标的寻找,而是鼓励人们在工作中去理解多种指标,并在开始自己优化之前先做出权衡。

事实上权衡不会消失,只是在没有意识到的情况下做出。OMTM(One Metric That Matters) 假装理解它们并不重要。

然而,指标已经成为了现代管理学的基础,就像目标管理工具 OKR 所强调的,只有通过对贡献的量化,我们才能知道每天离目标还有多远。指标的最大价值在于将一群人团结在一些明确而有形的东西周围,使人们为自己的工作承担责任。

以下是本周的推荐。

1.Don't Let Your North Star Metric Deceive You

先来看一篇批判北极星指标的文章,作者是 Brian Balfour。

首先他的观点是北极星作为一种输出指标,它是不可操作的。例如 Spotify 的播放时长,它很难被具体的行动所直接影响。一般需要将这个指标分解成更细的输入指标,例如打开率,和单次会话的播放时长,并将它们进一步分解为更细粒度的输入指标,这些指标往往和产品密切相关。

其次,输出指标反映事实情况通常会滞后,例如 SaaS 公司通常选择北极星指标时会使用的 MRR,事实上,即将流失的用户,无法在收入指标上体现出来。

2.Pick Your Compass Metric

Tobias Lütke 在这篇文章中介绍了 Shopify 的北极星指标 CMRR,它解决了 MRR 作为输出指标滞后的问题。

它将所有活跃客户的 MRR,加上新订阅和升级将带来 MRR,减去降级和取消订阅损失的 MRR。CMRR 反映的是 MRR 的增长趋势,相比于 MRR,它能够更快地捕捉到负面信号。相同的方法也可以应用于 MAU,反映 C 端产品的增长

以周为粒度计算一次 CMRR,可以更快地将业务最新的进展反馈到办公室:

3.Why AI/ML Fails

因为现实世界的很多物理变量没办法直接测量,很多时候我们只能够测量到一个间接的 proxy 指标。

本文援引了一篇论文中提到了 AI/ML 中五种常见的数据偏见,其中一种是 Measurement Bias

首先,收集好的数据是很难的。我决不否认这一点。很多时候,我们使用数据作为一组标签或特征的代理。例如,作为犯罪率的代理,我们可能会使用关于逮捕的数据。出现的这个问题最常见的是信息偏差,更确切地说,是差分测量误差。简而言之,这种偏差的发生是因为代理变量可以在不同的群体中产生不同的效果。这可能发生在几个方面。

  • 不同群体的数据颗粒度不同。
  • 不同组别之间的数据质量不同。
  • 定义的分类任务是一个过度简化的问题。当你做有监督的 ML 时,你需要选择一个标签来预测。然而,这个标签可能并不能代表任务的内容。例如,如果你想预测一个学生是否成功,但标签可能是他/她的GPA。

4.Metrics Versus Experience

Julie Zhuo 在本文中提到了一种辩证地使用指标的方式:反指标(countermetric):

If the data is showing you what look like good results, ask yourself: “What else can I look at to convince me that these results aren’t as good as they seem?” These are called countermetrics, and every success metric should have some.
如果数据向你展示了看起来不错的结果,问问自己:「我还能看什么来说服我,这些结果并不像它们看起来那么好?」这些被称为反指标,每个成功指标都应该有一些反指标。

例如一篇文章的点击率高,不一定意味着它能够给用户带来更好的体验,除了测量点击率,同时测量快速跳回的数量。

5.Benefit-Driven Metrics

Andrew Chen 指出公司的分析工具包中充满了为自身利益服务的标准指标,比如 PV、UV 和收入。就好比一个卖救生圈的公司以救生圈销量作为核心指标,而非拯救生命的数量。真正的北极星指标,应该考虑用户在衡量什么。

用户价值是因,而它带来的流量和收入才是果。

比如,对于约会软件来讲,产品的利益是 LTV,用户利益是有效匹配,例如你可以通过假账号让用户回来,也可以试图让更多的人为服务付费,但这样你反而错过了用户来这里的原因;对于广告平台来讲,产品的利益是 CPM ,广告客户的利益是广告带来的转化数量。

Project of the Week

Observable 刚刚发布了一个新的 Javascript 绘图库 Plot,Observable 是由 D3 的作者 Mike Bostock 创办的一家公司,以下是 Observable 团队对 Plot 的看法:

我们创建Plot是为了更好地支持像 Observable 这样的反应式、JavaScript 笔记本中的探索性数据分析。我们继续支持 D3 用于定制的解释性可视化,并推荐 Vega-Lite 用于 Jupyter 这样的命令式多语言环境。Plot 可以让你快速看到你的想法,以最小的代价进行互动,在数据方面是灵活的,并且可以被社区随时扩展。我们相信,如果人们少一些与错综复杂的编程搏斗,多一些 「用视觉来思考」,就会更成功地发现和分享见解。

Tweet of the Week

@Julie Zhuo

Diagnose with data. Treat with design.

就像直觉可能出错,数据也有可能以错误的方式解读。

Book of the Week

OMTM 这一概念出自 《精益数据分析》 ,意义在于鼓励独立实验,书中还有一个有意思的概念是指标底线。虽然这本书一直在讲各种指标和分析,但不是说直觉就不重要了,分析通常用来证明直觉是否正确,它的作用在于消除创新过程中由于信息障碍和不确定性所带来的成本。另外,这本书也提到了在创业的多个阶段中,数据能够发挥最大作用的是增长和营收阶段。


以上是本期的推荐,希望对你有用。

下周见
Dreamsome

❤️ 想支持《数据科学人》?把它推荐给 3 个朋友吧!
🚀 欢迎用电邮订阅《数据科学人》,我将以周报的形式发布内容