您现在的位置是:首页 > 文章详情

数据科学家在“新常态”下发生了怎样的转变?

日期:2020-07-12点击:369

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

在疫情“新常态”下,职场人获取专业人脉关系的难度加大,社会不平等带来的挑战也随之加剧。为了帮助更多公司打造公平的产品,领英在近期开源了Project Every Member项目里有关Apache Spark的一段代码,能让数据科学家们准确地衡量产品带来的不公平影响,缩小由于人脉等资源带来的差距,确保每个人都能够获得公平地去发现和连接机会。

而这只是领英数据科学家工作的“冰山一角”。数据科学并不算是一个全新的领域,统计学家John W. Tukey已经在50多年前在学术界展开数据分析。但自从2008年DJ Patil在领英提出“数据科学家”这个名词时,数据科学家才真正地作为职业开始起步,逐渐成为“21世纪最性感的职业”。目前,数据科学家依旧在蓬勃发展并开始取代传统角色。据领英《2020年新兴工作报告》显示,过去5年招聘需求增速最快的职业中,数据科学家位列第三。

在数据的总量完成了史无前例的增长、新基建等政策不断加持的今天,我们已经正式进入了一个“数据密集型”的时代,数据科学家的定位也在不断产生改变。在LinkedIn(领英)全球数据科学负责人许亚看来,“数据科学团队的整体趋势更加走向专业化,他们的职责不再是建立数据基础设施或平台,而是去使用数据科学和工程来最大化数据的价值。” 那么从团队运作方式、商业影响力设定和社会责任等角度,数据科学家的工作发生了怎样的转变?如何让数据的价值最大化?

数据科学团队更加“工程化”和“专业化”

在早期的时候,在数据科学领域工作的人都是“万能手”,能身兼多个任务,比如建立基础设施、研发数据储存方式、编写算法等等。随着这个领域越来越成熟,数据量越来越大,许亚认为数据团队需要变得更加工程化和专业化,并通过“嵌入式工作”和“中心化管理”,去应对几十万、几千万的用户增长。

许亚介绍,目前领英的数据科学团队分离出了底层架构人员,根据不同的专业领域设立了三个工作方向,包括可以很有效地建立起数据管道(Data Pipeline) 和数据流 (Data Flow)的工程专家;负责进行A/B 测试、预测、打造差分隐私的算法专家:以及有很强的业务属性,将数据见解和公司战略结合起来的业务专家。这三个领域的人才拥有不同的发展方向,但都在团队里拥有举足轻重的地位。

在公司架构上,为了做到最大化数据价值,领英的数据科学团队成员由许亚的中心部门统筹,但在项目工作上,数据科学家们会在工位分布和职能上与产品、市场等团队建立起紧密的“嵌入式工作”模式,推动产品的优化以及市场战略决策。例如领英的信息流团队由很多来自不同部门的人组成,包括Feed工程师,应用工程师,产品经理,数据科学家……这些人汇报给各自的部门,但是工作上是共同协作,让整个项目运转得更加高效。

除了产品,领英还会通过数据科学来优化公司基础设施的运行和维护。领英每年投资数百万在数据储存空间等硬件设施上面,怎样充分利用这些硬件设施是意义重大的问题。领英的数据科学团队会通过数据分析和算法去衡量工程架构的建设是否有效率,更好地做时间规划,让硬件和GPU发挥更大的价值,有助于提升公司整体的效率。

数据科学团队成功的三要素

由于不同的数据科学家可能会有不同的侧重方向,比如产品、市场,或者工程,工作的KPI有时候难以进行标准和量化。许亚接手领英数据团队之后,做的第一件事情就是建立了三个成功的衡量指标,到现在都是合理有效的:

一是工作效率和数据易得性。以前的数据科学家特别喜欢尝试最新最难的问题,但没有维护和迭代习惯。现在许亚认为,如果建立了一些衡量标准、数据模型或者算法,就应该确保它一直可使用。许亚也鼓励数据科学家们减少重复性工作,并提供自动化的工具和平台,让每个数据科学家都能更有效率地去挖掘数据价值。

二是战略化思维。数据科学团队在公司里的职责之一是用数据去指导、指引公司的一些策略方向,甚至和公司的高层直接沟通。许亚认为在疫情后,用户的行为多少会发生一些不可逆转的改变,数据可以帮助团队更好地去学习用户行为变化,了解用户是如何在领英上获得价值,从而在战略上指引公司对哪些领域进行重点投资。

三是直接商业影响。数据团队的成果是跟这个公司的净利润是有直接作用的,数据科学家需要去衡量他们的工作怎么样去影响公司的净利润,如何对公司的商业目标产生积极影响。

应用:最佳产品优化利器A/B 测试

A/B 测试是数据驱动的常见产品功能优化手段,将用户分为对照组和实验组,对照组使用现有的功能,实验组测试新功能,从而判断新功能是否应该上线。许亚介绍,在领英,基本上你可以看得到的任何产品改变,都是经过反复A/B 测试产生的,比如搜索栏、搜索算法、导航栏,甚至是APP的字号和字体。所以领英不选择用直觉来进行假设,而是用A/B 测试来判断到底大众喜不喜欢新推出的产品功能,让一切都通过数据来说话。

image


一个产品开发生命周期内A/B测试的示例

例如在使用APP的过程中展示的页面内容数量就涉及到产品的平衡与取舍。每次加载可以展示20个、30个、也可以100个内容在页面上,但展示的数据越多,加载的时间就越长,用户上下滑动App时就需要等候;展示的数据越少,用户就需要频繁刷新,影响到用户体验。所以领英数据团队会根据A/B测试来决定到底是应该放多少个。

另外,领英要不要建立或者关闭一个数据中心也通过A/B 测试决定,因为用户和数据中心的距离对于传输速度有很大的关系,选择不同的数据中心对于用户的请求的处理有很大的影响。

A/B 测试也并不是仅由数据科学团队来主导的,不同的团队在决定是否做A/B 测试的过程也同样激发了大量的创新。许亚解释道,领英每天大概有100个新的试验进行,数据科学团队没有精力去参加公司的所有试验项目,会更加投入在重要的试验研究和分析上。借助公司提供的自动化工具和A/B 测试平台,其他团队可以解决大部分的实验设计、应用、分析上的问题,从而自主地产生创新的想法,并通过A/B 测试来确认是否正确,避免一些主观争议。这样科学的决策机制、开放的实验文化和数据文化,让公司里的每个团队都能放心大胆地去构想并且验证创新的想法。

新的挑战:保证公平和用户数据隐私

当技术手段和基础设施从数据中挖掘出更多的价值之时,也带来了全新的挑战与问题:

一是公平性。公平很难有一个准确的定义,但领英的愿景是为全球劳动市场里的每一位创造经济机会,希望有着同样才能的两个人应该获得相等的机会。为了实现这一点,领英在开发产品和功能的时候会很重视可量化的指标,确保领英的产品对于每个用户群体都会带来积极的影响。如果只看平均下来的效果,可能会只对一部分人有益,而给另一部分人带来不公平的因素。

image


领英是如何构建“公平”的

因此,领英对每一个新推出的产品都会进行A/B 测试,尽量减少不公平带来的结果,并使用一个经济学里常用的指数Atkinson Index,去衡量每一个产品里是否有无意识的不公平或者偏见。“促进公平的重点不仅仅在于算法,而在于产品设计的方方面面。”许亚说。

“我们也经常去评估现在的平台上面是否有一些导致不公平的漏洞。比如说招聘者用我们的产品去招人,搜索的结果下面出来的都是男性,这会导致女性失去了这个工作机会。所以大概一年前的时候,我们推出了Representative Ranking,通过机器学习模型对候选集进行重新排序,使搜索结果能够代表所有的潜在候选人,以确保减少偏见,获得多样化的人才。”

二是数据隐私安全。对于公司来说,没有用户的信任,就没办法实现愿景和使命。许亚介绍,远在GDPR开始实施之前,保护用户的隐私就是领英文化的一部分。大家都是非常重视隐私,也非常主动地用前沿技术去保护用户隐私,比如现在认为是数据隐私保护的理想方法——差分隐私。

image


差分隐私技术

差分隐私是一种保证。假设你的信息在这一堆数据里面,如果把这些信息删掉,再运行同样的一些算法,从数据当中得到的两个的结果都是一样的。相当于你的数据在或者不在这个数据库里面,最后对于得到的信息没有影响。这样用户就不需要担心他们的数据隐私被泄露。

领英三年前就开始针对数据隐私问题进行一些重要的研究,同时也有一些比较成功的应用,例如最近一个针对广告商的产品,客户想要用领英的API去获得一些信息,比如用户互动量前十的文章,像这样一些集合的信息,领英也用差分隐私去确保用户的信息不泄露。

近两年来,领英的数据科学团队迅速发展并成熟,人数规模扩张了一倍,从150人增加到了300多人,遍布世界各地。在中国,领英同样有一支精良的数据科学团队,作为中国市场的专家,借助全球的数据资源和工具,帮助公司更好地服务本地市场。在疫情带来的不确定之下,大家越来越意识到了数据的重要性。而领英的数据驱动的文化让公司的每个人都能够在自己日常的工作中运用到数据科学,并且了解自己做到的改变是如何通过领英平台为更多用户带来价值的。许亚认为,在这个过程中,你可以感受这种最大化数据价值的强大能力,感受到数据的责任所在,这也是数据科学家这份工作最有意义的地方。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-07-10
本文作者:许亚
本文来自:“CSDN”,了解相关信息可以关注“CSDN

原文链接:https://yq.aliyun.com/articles/767568
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章