The Data Scientist #8: Spreadsheet

2021/06/24 17:28

Image

本周的主题是 Spreadsheet 电子表格。题图出处

说起 Bicycle for the Mind,我想到的第一个应用便是 Excel。首先,在 Excel 中操作数字和公式真的有种用脚踩踏板的感觉,看起来有些吃力,甚至有些笨,但在我手边恰好没有一个专业工具可以完成当下的任务时,Excel 总是一个不坏的选择。

这恰好也是乔布斯这个比喻的精髓,人类通过简单的工具来放大自己的能力,而不是完全取代,事实上,后来的苹果已经将先哲们「人人都能编程」和「思想放大器」的理想抛诸脑后。

其次,历史上从未有过一个编程环境能够像 Excel 一样普及,世界上有 7 百万 Javascript 用户,但是有 5 个亿 Excel 用户,尽管他们中很多人并不认为自己在编程。

以下是本周的推荐。

1. How Airtable Became a Unicorn by Reinventing the Spreadsheet

电子表格在诞生之初是为了做会计,而 Airtable 的洞察来自于绝大部分使用电子表格的用户并非用它来计算数字,而是用它来管理信息,本文介绍了 Airtable 重新发明 Excel 的过程。

Spreadsheets are really optimized for numerical analysis and financial calculations. But almost 90% of spreadsheets don’t have formulas. Most are used for organizing purposes.

Howie Liu 的另一个观察是,在这个需求的另一端,很多人正在以写代码的方式实现它们,而解决这些问题其实不需要无限的灵活性,这些场景极强相似性,尤其对于一个企业内部的工具而言,关系模型就足够了。与其说 Airtable 是电子表格的继承者,不如说它像关系型数据库更多一些:

There’s this assumption that software has to involve literally writing code. It’s sort of a difficult thing to extricate ourselves from because we have built so much with writing code. But when you think about what goes into a useful application, especially in the business-to-business internal tools in a company use case which forms the bulk of software that’s consumed in terms of lines of code written, most of them are primarily a relational database model, and the relational database aspect of it is not an arbitrary format”

Airtable 的商业模式就写在他们的「关于」里,Sarah Tavel 曾总结过几种永恒的商业模式,其中一条便是让软件开发平民化。Airtable 看起来解决了电子表格在一些场景下不方便的问题,但它真正要解决的问题是,让一些原本通过编程实现的目标,现在可以通过 Spreadsheet UI 来实现。

Github 本周就推出了利用电子表单 UI 来管理的 Issue的功能,显然他们和 Notion 一样受到了 Airtable 的启发。

2. Founder's Field Guide: Eliminating Work About Work

这是一期采访 Asana 创始人 Dustin Moskovitz 的播客,节目中他提到了 Asana 和其他工作管理类软件最大的不同之处——使用了基于 work graph 的数据模型来构建任务系统 。

与 work graph 相对的概念就是电子表格,在电子表格中一行记录只能属于一个 sheet。在传统的任务管理应用中,一个任务也只能属于一个项目,在不同项目中引用时只能以复本形式出现(copies of the source of truth)。

Moskovitz 说知识工作者有 60% 的时间浪费在了这些关于工作的工作(work about work)上:来来回回发送电子邮件,跑到另一个系统中更新任务状态,或以某种方式沟通他们工作的进展。

在 work graph 中,任意节点都可以和其他节点相连,也就是说一个任务都可以同时属于多个项目,甚至可以属于两种不同的工作流,服务于不同的工作职能,这种设计提高了组织的透明性。

3. Invest Like The Best: Growing the Internet Economy

在另一期播客中, Stripe 的创始人 John Collison 提到了自己对 No-code 运动和 Excel 的看法,他认为任何开发 No-code 或新软件模式的人都应该学习 Excel,因为人们总是能够轻易地模拟自己看到过的电子表格所做的事情,而他们在 Excel 中做的事情就是编程。

Collison 将 Excel 和传统的编码环境进行了对比:

I actually think lots of features of Excel that make it a really nice programming environment and really nice to learn in, where the fact that it’s continuously executed means that unlike you running your code and it doesn’t work, and you’ve got some error, that’s hard to comprehend

Instead, you have a code that just continuously executed in the form of the sheets you see in front of you. And similarly the fact that its individual cells, and you kind of lay out the data spatial… Or the program spatially, where the code and the data is interspersed together, and no one part of it can get too big and diffuse.

我认为这段话非常好地概括了 Excel 的一个特点——可理解性。

在传统编程环境里,如果一段代码不工作,程序就会报错,但有时报错的位置和真正出错的地方离得很远,我们只能通过错误码来推测有问题的逻辑在哪里,很多时候为了寻找线索,我们不得不把中间状态打印出来。

但在 Excel 中代码是以单元格为单位运行的,同时数据和代码是穿插在一起的,按空间排布,所有中间状态都是可见的,相当于把每一步的中间结果都显示了出来,因此很容易看到有问题的数据。而且每段代码都不会特别复杂,它们合并起来解决了更难的问题。

4. Alan Kay: Computer Software

这是 Alan Kay 在 1984 年发表在《科学美国人》杂志上一篇关于计算机读写能力的文章,文中 Kay 解释了电子表格一个很重要的特性——value rule 求值规则。我直接翻译一下。

Each cell has a "value rule" specifying how its value is to be determined. Every time a value is changed anywhere in the spreadsheet. all values dependent on it are recomputed instantly and the new values are displayed. A spreadsheet is a simulated pocket universe that continuously maintains its fabric; it is a kit for a surprising range of applications. Here the user illusion is simple, direct and powerful. There are few mystifying surprises because the only way a cell can get a value is by having the cell's own value rule put it there.

每个单元格都有一个 「求值规则」,定义它的值如何确定。每次在电子表格的任何地方改变一个值,所有依赖于它的值都会立即重新计算,并显示新的值。电子表格是一个模拟的袖珍世界,它不断地维持着它的结构;作为一个工具包,他能够应用范围的是如此惊人。在这里界面的隐喻是简单、直接和强大的。它很少会出人意料,因为单元格里的值一定是它自己的求值规则放进去的。

The visual metaphor amplifies one's recognition of situations and strategies. The easy transition from the visual metaphor to the symbolic value rule brings the full power of abstract models to bear almost without notice.

从视觉隐喻到符号求值规则的轻松转换,几乎在不经意间就能发挥出抽象模型的全部力量。

Kay 感叹说电子表格的强大在于他能够让用户完成设计者原先预料不到的事情:

The strongest test of any system is not how well its features conform to anticipated needs, but how well it performs when one wants to do something the designer did not foresee.

5. Excel Never Dies

本文作者是 Packy McCormick,他将 Excel 的继任者划分为了两类:分解者和衣钵传人。

分解者利用人们对于 Excel 的熟悉,将其分解为一个个解决单一问题的应用程序,对特定场景进行优化,设计更加合理的工作流取代 Excel。衣钵传人没有像 Excel 分解者那样挑选特定的用例,而是从 Excel 的构建方式中获得灵感,旨在创建强大的通用型、高度灵活的软件,面向包括非技术用户在内的广大用户。数据科学家熟悉的 Looker 和 Amplitude 就属于这个分类。

事实上,我发现这个框架特别有用,对于每个生产力工具都可以对它提一个问题:它究竟是往通用的方向走,追求更大基数的用户能用上 ,还是更偏专业,让更加专业的人用起来更爽?

本文还提到了 Excel 的一些缺点。其中一点是 Excel 缺少引用能力,因此容易产生副本。另一点是 Excel 过于灵活,对于用户怎么使用它并没有主见,所以很难防止用户做出不符合逻辑的行为。我认为这两个缺点恰好对应今天的第一和第二篇推荐,Asana 和 Airtable 又是两家分别代表了 Excel 的分解者和 Excel 衣钵传人的公司。

Project of the Week

本周推荐的是 BI 产品 Looker,之所以推荐 Looker 是因为我发现 Packy McCormick 在分类各种应用时,将其视为了 Excel 衣钵传人,而同样是 BI 产品的 Tableau 则划分为了 Excel 分解者。

Looker 和传统 BI 最大的不同在于,使用 Looker 的用户可以用一种叫 LookML 的语言对数据进行建模,业务人员可以基于这些模型对定义好的指标进行探索,从而实现自助式分析。而 Tableau 则是 Excel 其中一个功能 Pivot table 的使用体验的优化版本。

经常有人会问我这么多 BI 工具到底有什么区别,这么看的话它们之间的区别还真不小。

Tweet of the Week

@Benedict Evans

A puzzle for no-code productivity apps:
How many users are creative enough to want to build their own apps?
How big is the window between 'we outgrew Excel' and 'we need Salesforce'?

No-code 开发者需要考虑这样一张光谱:在光谱的一端是创业公司正在使用 Excel 解决这个问题,这些公司不需要比 Excel 更专业的工具。光谱的另一端是高盛和麦肯锡这样的咨询公司要解决的问题,它们的客户希望通过一个更加专业的 SaaS 工具来解决这个问题。而在光谱的中间,有大量的用户愿意使用 No-code 来解决它们的问题。Evans 的问题是这个窗口有多大?


以上是本期的推荐,感谢你花时间阅读。

本周杂事较多,加上选择了一个过于宏大的话题,一度不知从何处落笔,到今天才写完。如果你有关于 Spreadsheet 的有趣观点或者内容,欢迎来信与我分享。

Dreamsome
❤️ 想支持《数据科学人》?把它推荐给 3 个朋友吧!
🚀 欢迎用电邮订阅《数据科学人》,我将以周报的形式发布内容