数据科学人

分享和推荐数据科学主题有价值的文章、Tweet与Project

The Data Scientist #13: Normalization

2021/08/09 12:51

Sky-and-Water-by-Esher-1988 本周的主题是 Normalization (规范化)。 在数仓建模中,Normalization 表示规范化,数据库根据其规范化程度,有着不同范式级别,从第一范式到第四范式。Snowflake 模型的规范化程度更高,它的优点是数据冗余少,缺点是在使用时需要写更多 join。而 Star 模型规范化程度更低,通过牺牲存储空间...

The Data Scientist #12: SQL

2021/07/25 08:53

本周的主题是 SQL。 我们对 SQL 有说不完的抱怨:冗长,不能复用代码,难以调试,各种方言之间有着微妙的区别。是的,没有人怀疑,我们需要更好的 SQL,至少像其他编程语言一样好……一旦我们这样思考问题,就意味着我们承认分析是一个技术问题。 事实上,SQL 也不是一门为建造者而设计的语言,表达能力和可组合性并不是它首要目标,尤其在绝大部分用 SQL 来查询数据的场景中...

The Data Scientist #11: Mean

2021/07/18 13:53

本周推荐的几篇文章都和平均值(Mean)有关。 人们在分析问题和定义指标时经常使用平均值,因为平均值可以把现实世界中复杂的行为压缩为一个数字,进行理解和相互比较。 在实际应用中,只看平均值往往是非常危险的,因为平均数可能受到极少样本的影响,比如某大厂员工平均月薪七万也可能是算上首富以后的平均结果。 以下是本周的推荐。#1. Basketball Analytics, Part 2:...

The Data Scientist #10: Data team

2021/07/10 17:39

本周的主题是 Data team 数据团队。#1.Building a data team at a mid-stage startup: a short story 我在上期 Newsletter 中推荐了 DevOps 圣经《凤凰项目》,巧合的是本周 Erik Bernhardsson 用相同笔法,以第二人称视角讲述了在中型创业公司中一手建立数据团队的故事,非常精彩!值得一读...

The Data Scientist #9: Decouple

2021/06/28 11:38

本周的主题是 Decouple 解耦。 在政治经济学中,decouple 的含义是「脱钩」,一方不以另一方为锚。软件工程中,系统通过解耦来降低系统组件之间的依赖程度。 众所周知,在微服务架构中,我们可以对任何一个服务进行调整,而不影响其他服务。不同服务在迭代时可以免受其他部分的干扰,自主性更强,变化速度更快。我们也可以随时更换掉某个组件,不而用担心影响整个系统的稳定性,和带来额外的工作...

The Data Scientist #8: Spreadsheet

2021/06/24 17:28

Image 本周的主题是 Spreadsheet 电子表格。题图出处 说起 Bicycle for the Mind,我想到的第一个应用便是 Excel。首先,在 Excel 中操作数字和公式真的有种用脚踩踏板的感觉,看起来有些吃力,甚至有些笨,但在我手边恰好没有一个专业工具可以完成当下的任务时,Excel 总是一个不坏的选择。 这恰好也是乔布斯这个比喻的精髓...

The Data Scientist #7: Hadoop

2021/06/14 16:34

Cloudera 这个月宣布了他们即将退市的消息,作为 Hadoop 技术的 OG,这一举被很多媒体视为 Hadoop 落幕的象征,类似说法已经不是第一次听到了,早在 2019 年 Cloudera 合并 Hortonworks 时,就有很多人唱衰 Hadoop。 Hadoop 是由雅虎 Doug Cutting 开发的一种基于文件的分布式架构,作为昂贵数据仓库方案 MPP 的替代品...

The Data Scientist #6: Metadata

2021/06/07 04:27

本周的主题是 Metadata 元数据。 Alan Kay 说过:「在协商重要的事时我们不会发电报,而是派大使去谈」。如果我们在传送数据的时候不发送解释器,那么收到数据的人就无法正确地解读数据。 元数据就是对数据的解释器,它是关于数据的数据,很多时候我们感觉不到元数据的存在,很有可能是因为它以背景知识的形式出现,而非结构化信息。 有了结构化的 metadata...

The Data Scientist #5: Mess

2021/05/31 14:08

These absurd life hacks went down in art history - SCHIRN MAG 本期 Newsletter 的主题是 Mess 混乱。 热力学第二定律告诉我们,事物向着混乱与无序发展,今天聊聊数据科学中的混乱。 混乱有时是因为重复,重复同样的工作不仅枯燥无聊,而且会增加后期维护的成本,因为一旦需要修改,处处都需要修改...

The Data Scientist #4: Restriction

2021/05/23 10:44

本期的主题是 Restriction 限制。 说起开源人们总是想到:安全、协作、低成本、积极发展和自由这些正能量的词汇,甚至有人把开源形容为一种精神,而开源的反面闭源总是和限制、封闭、不思进取、厂商锁定联系在一起。当云厂商与开源供应商出现利益冲突时,很多人也站在了「正义」的一边,指责云厂商不劳而获。 通过去掉限制,开源项目发展壮大了起来,但也因为缺乏限制...

The Data Scientist #3: False Rigor

2021/05/15 16:01

本周的主题是 False Rigor 假严谨。 这个标题来自于 Pinterest 在北极星指标上的失败教训。Pinterest 曾以每周活跃转发或点击者(WARC)作为他们的核心指标,这个指标的危险之处在于它是两种行为的组合,增加这个指标可以通过将一种行为转换为另一种行为。极端情况下,算法如果优化了标题党(clickbait)而非真正有趣的内容,光看指标会认为用户参与度在增加...

The Data Scientist #2: Self-service

2021/05/08 14:16

本期的主题是 self-service。 数据在公司中扮演的基本角色是叙事者:它告诉人们此时此刻正在发生什么——人们更喜欢哪个产品模块?哪个营销活动更吸引人?哪些销售人员完成了业绩? 随着公司变大,分析师不可能回答每一个问题,于是 self-service 似乎成为了公司扩大规模的唯一途径。Gartner 对 self-service BI 的定义是「赋能并鼓励业务人员,在没有 IT...

The Data Scientist #1: Modern Data Stack

2021/05/05 10:29

本期的主题是 Modern Data Stack。 2021 年已经没有人谈大数据这个概念,不是它失败了,恰恰是因为它成功了。成功技术的吊诡之处在于,它最终会被认为是理所当然,消失在背景音中。 现代数据栈是否成立也并不取决于技术本身,而是背后更大的前置条件——市场是接受公有云。比如对于国内的云厂商来说,是满足客户眼下更迫切的需求,帮助他们上私有云,甚至部署 on-prem...