数据科学与大数据技术专业的前景和钱景究竟怎
长期以来,我一直对数据科学家如何更好地与对方和外国人交流数据分析活动感兴趣。 我觉得我们现在的方法不够。 因为它们大多是从其他领域,特别是计算机科学那里借来的。 这些工具大多很有用,但并非专门用于传达数据分析的概念,往往无法满足要求。 今年年初,我在院长的演讲中谈到了这个问题,以及数据科学领域如何从发展自己的理论中获益,并能像其他领域一样简化交流。 我注意到的一件事是,在其他领域,这些领域的发展部分地被认为是越来越专业化的趋势。 随着某一领域的人越来越专攻某一子专业,专家需要相互沟通和协调才能生产出完整的产品。 随着时间的推移,可以将一个领域分离成一组专家,推动开发交流工具,将这些工具作为相互商定的信息交换所。 如果没有足够的工具,随着项目员工的增加,通信费用可能会变得过大,从而导致整个企业崩溃。 该现象在弗雷德布鲁克的《神话人月》中被描述为涉及软件工程项目。 我认为谈论这些其他领域以及它们如何克服通信工具不断增加的专业化和职责分离可能是有益的。 跟踪其他领域的历史很有启发性,因为它可能为讨论数据分析提供基础。 我的播客和希拉里帕克的听众知道我们经常有的片段。 这叫做“模拟角点”。 这是简单的统计版本。 其他领域专业化的第一个例子来自电影制作和剧本的发展。 剧本实验室解释了剧本的历史和电影制作在剧本开发前是如何运作的。 在思考编剧的历史时,编剧理论与电影创作的演进是分不开的。 第一部电影往往是个人项目,从构思到完成。 被称为“摄影师系统”,这是最原始的电影制作。 不久,导演们成为了这个过程的中心,但大多数电影的拍摄只是不知道导演想拍摄的内容。 导演计划下一次拍摄时,剧组会仔细等待。 电影是一个单一项目,或多或少都是线性开发的。 这是一个低效的系统——,目前大部分电影都是以非常非线性的制作以适应演员的日程安排和不同的制作过程。 剧本现在是重要的交流中心,很多电影制作部门(服装、化妆、头发、道具、套装)都可以组织他们的活动。 试想各部门的代表必须单独向编剧和导演咨询工作的所有细节。 这将是一个越来越复杂的噩梦。 有剧本之类的书面材料,每个人都同意权威“电影里发生的事情”,这样人们就可以在不需要不断交流的情况下完成工作。 第二个类比来自金融。 在金融领域,专业化发展与有限责任相似。 其中,“专业化”是指公司所有者及其经理的分离。 因此,公司经理需要一种向投资者传达公司运营具体情况的方法。 为此,编制财务报表、会计规则、各种公开文件,帮助投资者分析公司健康。 Graham和Dodd的开创性安全分析本质上是呼吁投资者根据公开的数据来评估公司,而不是基于什么创造了更好或更安全的投资的一般神话和传说。 今天,随着所有者和管理者的分离,以及两者(例如S-1、10-K、10-Q等)之间标准化的通信格式的建立,我们拥有了全球资本市场体系的基础。 最后一个类比来自西方古典音乐,在西方古典音乐中,音乐作曲家和表演者之间往往存在分歧。 在更复杂的交响乐中,你可能会说有作曲家、表演者和翻译/指挥三个人的作用。 但在早期的古典音乐中,并不存在这样的区分,作曲家通常自己演奏音乐,通常自己演奏。
在这个设定中,可以将音乐保存在作曲家的脑海中演奏,所以不需要写内容。 电影《阿马德乌斯》经常捕捉到这个概念。 莫扎特描写他的歌剧《魔笛》是“在我的面里”(剩下的只有涂鸦和无厘头)。 当然,歌剧可能是古典音乐的终极例子。 古典音乐需要音乐家、歌手和设计师之间有某种交流工具。 因此,在大多数古典音乐中,每个乐器和签名者都有指定在任意时间做什么的乐谱。 有一个标准化的符号,可以让其他不熟悉作曲家的人快速了解发生了什么,并收集工作所需的时间和资源。 数据分析呢? 在当今的数据科学中,或者实际上在科学中,大部分内容都遵循“垂直合并”模式。 也就是说,同一个人提出问题,收集数据,分析数据。 在这项工作需要推广给别人(包括你自己)之前,对交流的需求就会真正显现出来。 大规模的合作需要从一开始就进行分析性的交流。 以我的经验,即使在最好的情况下方法也是暂时的,很难在不同的人相关的其他项目上再现。 大多数人会同意,实际进行分析的软件代码是传达正在做的事情的重要组成部分。 但是,并不是每个人都需要代码提供的所有详细信息。 可以从音乐中的概念之一可能是乐谱和部分的差异。 交响乐中,指挥应该是满分。 因为他们需要知道谁在做什么。 但是,第一小提琴手只读第一小提琴部分,为了在制作完成品中起到重要的作用,不需要读整个乐谱。 为数据科学开发适当的通讯工具对于扩展数据分析,让更多的人参与,让更多的人了解分析中的情况,提高重复性/可重复性至关重要。 在此之前,我认为继续将来自其他领域的工具插入到数据科学的过程中比较好。 这些工具虽然有用,但我认为最终不是完美的匹配。