Data Scientist 的過去、現在與未來
在2012 年,被哈佛商業評論譽為「二十一世紀最性感的工作」[1]後,從此Data Scientist 一詞一砲而紅。Data science、AI、Big data成為buzz word,在某段時期中,好像不使用這幾個關鍵字就跟不上潮流。
筆者在2014年進入數據相關產業擔任分析師,2015年赴日進入Machine Learning Lab, 畢業後以data scientist的身份工作至今。以一個「還算搭上浪潮」的見證者,在本篇文章中,將回顧這幾年來Data Science業界的改變,以及人力市場上的變化。最後提出身為一個Data Scientist,未來的可能發展方向。
由於筆者長期在日本,日本的產業狀況又與其他國家時程有異(如:軟體產業通常慢美國數年的時間),在業界・人力發展方面,為求精確以在日本的觀察為主。
2017以前的DS人力市場:發展摸索時期、缺乏整合性工具
在DS發展前期,日本的人力市場對junior data scientist很歡迎,能招到有相關知識背景已經不容易,更遑論有業界經驗的人才。
大部分軟體業界以外的企業,不清楚AI能如何為企業服務,進而持續地創造價值。由於企業內部缺乏role model以及能推動改變的資深人員,data scientist的職缺多以網路公司、引進科技技術比較快的外資公司為主。
除了很早以前就開始有data scientist職缺的公司,大部分的公司在這方面都尚在摸索階段。因此data scientist在這階段,也有很大的機會能夠在公司內發展初期模型,從頭開始建構系統。另外,在這時期,由於市場上尚缺乏整合data pipeline的工具,data scientist在建立模型時常常需要同時切換多種工具,在建模之後往往需要付出許多時間成本tune model。在內部數據呈現方面,也缺乏能夠對接後端程式碼,以及呈現給前端商務人員(公司內部的企劃、產品經理等)的模組化工具。想當年(?)筆者自己用Flask寫了前後端給公司的人使用。
2018年以後的DS人力市場:更廣泛的運用及發展,整合性工具
Data Scientist發展幾年後,市場上愈來愈多偏資深的人員出現在人力市場。現在在日本的人力市場上,有更多傳統企業如日系金融業、零售業、製造業、製藥業、物流業等等釋出職缺招募Data Scientist。這類不是軟體相關產業的公司,普遍還是相對缺乏成熟的DS培訓制度,因此相較於無經驗者,往往偏好招募中途、有經驗的即戰力進入公司。
由於在市場上,有2–3年以上相關經驗,又有一定日文能力的DS仍然偏少,除了非常要求domain knowledge的產業外(例如硬體公司發展機器人等等,偏好有機械背景人才)大部分的公司對業界的經驗不會太過要求,很多時候進去再學習domain knowledge即可。
在這段期間進入市場的data scientist, 有更大的機率是進入已經營運數年、或是由管理顧問公司/系統廠協助前期建置已有基礎架構的數據科學團隊。比起從0開始設計系統及建模,改善・運維現有模型、在已知的市場中透過數據找出亮點成為了重要的工作。
現在,許多整合data pipeline、對接前後端可視化的工具(databricks、datarobot、datadog、dataiku等) 已經漸漸在市面上普遍化。這些工具將model tuning、data visualization等流程自動化,讓企業內的data scientist有機會免於無限調參寫碼的泥淖。此外,處理數據的工具(Alteryx, Tableu等)也更廣泛出現在一般公司中,供無相關背景經驗的商務人員使用。
除了企業內部自己的Data scientist自製機器學習系統外,以機器學習為基底的商業套件軟體也相較幾年趨於成熟。兩年前去了辦在東京台場的AI EXPO,小至startup大至系統廠,都已經做出了許多可以提供客戶導入的機器學習模組。除IBM從早期就有發展外,日系大廠如NEC、 日立、NTT、富士通、KDDI都做了不少提供導入的系統。普通如聊天機器人、客服分析系統、店面攝影機客戶分析、專精如法律判決書整理系統、水質品質預測等等都在銷售範圍。
數位轉型成為趨勢
以近幾年而言,整體商業市場的競爭愈發激烈,各產業的數位轉型(Digital Transformation,簡稱DX)已成為不可逆的趨勢。即使在部分傳統產業中,以演算法創造價值(降低成本 and/or 提升營收)亦成為一間公司在領域中保有領先地位的必要元素之一。
2020年的疫情,對大部分的業界都有著不小的負面影響,各業界領導者對於「讓公司存活下來」有了更深刻的危機意識,認識到企業轉型的急迫性,疫情因此反而更加速了各界大企業的數位轉型的進程。
Data Scientist 泡沫破了嗎?
在2020年疫情初期,美國面臨大裁員的時候,海外中國人論壇「一畝三分地」出現了一篇非常具有話題性的文章 针对于最近大规模的ds/dalayoff聊聊ds的前景 引發了不少人討論。
文中發文者提到了疫情初期,相較於軟體工程師,就業市場上的DS/DA被裁員了不少。討論串中提到了很多就業市場上data scientist這個職位的特徵:對公司是奢侈品不像Software engineer是必需品、職稱・徵人條件與職務內容混亂不一致、素質參差不齊、DS產出的價值不如想像中的高等等。
這些都是事實。事實上,根據BCG與MIT在2020年做的共同研究中[2],只有10%的公司表示他們在實現人工智慧中得到了顯著的利益。成功實踐AI的要件包含了正確的資料、技術、專業性人才、以及能理解這些技術並有效將技術與公司策略融合的管理者等等。
回想筆者在碩士時期,也跟大部分的學生一樣,課程上非常注重演算法的推導,以及如何建模讓模型的表現更好等。進入實務界才發現這些知識及運用只佔了一個成功的機器學習系統的一小部分。更重要的課題是如何創造有意義的商業價值,並且隨著狀況調整模型,讓模型能夠即時應對現實世界中快速的變化。
What’s next?
機器學習的實務運用、Open source Library、教育資源,在近幾年都趨於成熟。筆者看到的趨勢是機器學習模組化(modularity),也就是說,如果找幾位訓練良好的data scientist來建模型互相比較,這些人所建出的模型的表現,一般而言並不會有太致命性的差異(當然如果是很注重模型表現至小數點單位的狀況,又是另一回事了)。
每年想搶灘上這波浪潮上岸的畢業生,從學校蜂擁而出,升為一個data scientist在長期發展上該如何與人差異化,避免被取代?
在此將Data scientist定義為「透過數據分析、機器學習建模及實踐,進而創造商業價值的職位」。因此身為一位Data scientist,基本上被期待有兩種能力:1. 一定程度的程式、建模能力 2.透過量化分析及運用創造商業價值的能力
要加強自己的競爭力,可以依照自己的志趣及能力,如左圖中兩的座標軸的方向思考。
Business Impact方面,包含發現商業機會、改善產品收益、負責產品績效,大則影響公司策略,甚至讓數據科學成為公司的核心能力(core competence)。如何站在經營者角度思考並做決策將成為最優先的課題。
Engineering方面,又可分為創新機器學習演算法的開發,以及工程領域能力的加強。前者可以進入Researcher的領域,後者能進一步轉為ML engineer/data engineer /MLOps等。
要培養前者的能力(雖然也很看天賦),最多人做的就是去讀博班並且進科技大廠擔任研究者,或是在公司內部針對現有議題開發新的演算法,並帶職發表論文。後者則會牽涉到更普遍software engineering、DevOps領域的能力養成。
本Medium會不定時發表本人在世界各地[3]擔任data scientist的產業觀察、讀書筆記等等。若有任何心得、想要討論的地方,歡迎留言分享您的想法:)
[1] Data Scientist: The Sexiest Job of the 21st Century https://sociology.berkeley.edu/sites/default/files/documents/job_market/Data%20Scientist%20--%20HBR%202012.pdf
[2] Are You Making the Most of Your Relationship with AI?https://www.bcg.com/publications/2020/is-your-company-embracing-full-potential-of-artificial-intelligence
[3] 目前任職的職位是全球跑的Data scientist。礙於疫情活動地點有限。