数据科学人

分享和推荐数据科学主题有价值的文章、Tweet与Project

The Data Scientist #7: Hadoop

2021/06/14 16:34

Cloudera 这个月宣布了他们即将退市的消息,作为 Hadoop 技术的 OG,这一举被很多媒体视为 Hadoop 落幕的象征,类似说法已经不是第一次听到了,早在 2019 年 Cloudera 合并 Hortonworks 时,就有很多人唱衰 Hadoop。 Hadoop 是由雅虎 Doug Cutting 开发的一种基于文件的分布式架构,作为昂贵数据仓库方案 MPP 的替代品...

The Data Scientist #6: Metadata

2021/06/07 04:27

本周的主题是 Metadata 元数据。 Alan Kay 说过:「在协商重要的事时我们不会发电报,而是派大使去谈」。如果我们在传送数据的时候不发送解释器,那么收到数据的人就无法正确地解读数据。 元数据就是对数据的解释器,它是关于数据的数据,很多时候我们感觉不到元数据的存在,很有可能是因为它以背景知识的形式出现,而非结构化信息。 有了结构化的 metadata...

The Data Scientist #5: Mess

2021/05/31 14:08

These absurd life hacks went down in art history - SCHIRN MAG 本期 Newsletter 的主题是 Mess 混乱。 热力学第二定律告诉我们,事物向着混乱与无序发展,今天聊聊数据科学中的混乱。 混乱有时是因为重复,重复同样的工作不仅枯燥无聊,而且会增加后期维护的成本,因为一旦需要修改,处处都需要修改...

The Data Scientist #4: Restriction

2021/05/23 10:44

本期的主题是 Restriction 限制。 说起开源人们总是想到:安全、协作、低成本、积极发展和自由这些正能量的词汇,甚至有人把开源形容为一种精神,而开源的反面闭源总是和限制、封闭、不思进取、厂商锁定联系在一起。当云厂商与开源供应商出现利益冲突时,很多人也站在了「正义」的一边,指责云厂商不劳而获。 通过去掉限制,开源项目发展壮大了起来,但也因为缺乏限制...

The Data Scientist #3: False Rigor

2021/05/15 16:01

本周的主题是 False Rigor 假严谨。 这个标题来自于 Pinterest 在北极星指标上的失败教训。Pinterest 曾以每周活跃转发或点击者(WARC)作为他们的核心指标,这个指标的危险之处在于它是两种行为的组合,增加这个指标可以通过将一种行为转换为另一种行为。极端情况下,算法如果优化了标题党(clickbait)而非真正有趣的内容,光看指标会认为用户参与度在增加...

The Data Scientist #2: Self-service

2021/05/08 14:16

本期的主题是 self-service。 数据在公司中扮演的基本角色是叙事者:它告诉人们此时此刻正在发生什么——人们更喜欢哪个产品模块?哪个营销活动更吸引人?哪些销售人员完成了业绩? 随着公司变大,分析师不可能回答每一个问题,于是 self-service 似乎成为了公司扩大规模的唯一途径。Gartner 对 self-service BI 的定义是「赋能并鼓励业务人员,在没有 IT...

The Data Scientist #1: Modern Data Stack

2021/05/05 10:29

本期的主题是 Modern Data Stack。 2021 年已经没有人谈大数据这个概念,不是它失败了,恰恰是因为它成功了。成功技术的吊诡之处在于,它最终会被认为是理所当然,消失在背景音中。 现代数据栈是否成立也并不取决于技术本身,而是背后更大的前置条件——市场是接受公有云。比如对于国内的云厂商来说,是满足客户眼下更迫切的需求,帮助他们上私有云,甚至部署 on-prem...