如何正確提問,避免數據決策出錯,要注意五大錯誤日期:2024/9/18

領導人在決策時,通常會參考內部數據或外部研究的結果,但往往不是將這些數據奉為真理,不加思索地當成決策基礎,就是棄之如敝屣,完全不加考慮。本文認為領導人要透過5種問題,徹底思索這些數據背後的種種條件,才能做出最好的決策。



關於本文藝術作品/這些由Docubyte拍攝的照片展現出他對古董機器的熱情,以及他在數位修復上的技巧。攝影/Docubyte。

假設你在主持一場會議,討論你公司倉庫員工的時薪。數年來,他們的時薪一直都會自動微幅增加,以便跟上通貨膨脹的速度。你團隊裡的某位成員引用一家大公司的研究,指出加薪可以大幅改善生產力,進而提高利潤,因此他主張改變做法:為所有倉庫員工的時薪大幅增加2美元。這時你會怎麼做?

本文觀念精粹

問題:很多時候,經理人面對手上的內部數據或外部研究,不是自動認同它既準確,又和自家公司有關聯,就是不假思索,直接不予理會。

發生原因:領導人誤將因果與相關性混為一談,低估樣本規模的重要性,著重於錯誤的結果,誤判推廣能力,或過度重視某個特定結果。

正確做法:領導人應該在嚴謹地討論證據有用與否時,對證據追問到底。他們應該創造一個有心理安全感的環境,好讓參與者可以安心提出多元的觀點。

在這些時刻,企業領導人常常會在兩個選項之間進行選擇:不是將手上的證據視為真理,就是完全不予理會。不過,這兩種做法都是錯的。領導人反而應該安排討論,審慎評估看似有關聯的證據,以及該證據能否套用到某個特定情況。

在剛才描述的情境中,你應該提出一系列問題,來具體評估薪資提高對你公司的潛在影響。你可以這麼問:

你能不能多說一些這個研究的脈絡,好讓我們評估它能不能套用到我們的倉庫員工?

跟其他在爭取我們員工的公司相比,我們薪資怎麼樣?跟這項研究比起來又怎麼樣?

有做過實驗嗎?如果沒有,這項研究是用什麼方法來了解加薪究竟是帶來生產力的變化,或只是單純反映這個變化?

這項研究用了哪些指標來衡量生產力?效果衡量了多久?

還有哪些可能有關聯的分析或數據?

當然,提問的語氣很重要。問這些問題的時候,必須抱持真誠的好奇心,以及學習和取得良好建議的渴望。

不論證據是來自於外部研究或內部數據,在做出重大決策之前,都必須徹底檢視所有證據。在我們與各家企業互動時(包括數據密集型的科技公司),我們注意到大家並沒有一致遵循這種做法。預設的信念、有問題的比較,以及團體迷思(groupthink),經常主導了討論。心理學和經濟學研究指出,偏誤也使人們無法有系統地權衡證據。例如,有一種偏誤是「基本比率忽視」(base rate neglect):人們往往忽視整體的統計資訊,而偏愛特定的個案資訊或軼事;還有一種是「確認偏誤」(confirmation bias):人們常常尋找並過度重視支持自己現有信念的結果。不過,企業不必陷入這種模式。憑藉我們的研究、與企業的合作,以及教學的經驗(包括領導力和商業分析方面的高階主管教育課程,以及最近一門稱為「數據驅動領導力」的MBA課程),我們開發出一套方法,企業的總經理可以把它應用在數據討論上,進而做出更好的決策。

對「因果」之間的連結進行壓力測試

在搜尋引擎下廣告會增加銷售量嗎?允許員工遠距工作會減少流動率嗎?這些問題與「因果」有關,而且是數據分析可以幫忙回答的問題類型。事實上,研究論文已經詳細研究過這些問題。然而,經理人經常錯誤詮釋這類研究與其他研究的結果如何應用到自己的公司脈絡。在決策時,經理人應該考慮「內在效度」(internal validity)——某項分析是否有精準回答它在原有脈絡下研究的問題?此外,他們也應該考慮「外在效度」(external validity)——他們可以將結果從一個脈絡推廣到另一個脈絡的程度。這可以避免他們犯下5個常見的錯誤:

將因果與相關混為一談。儘管多數人都知道,相關不等於因果,但這種錯誤卻出乎意料地常見。以eBay的廣告策略為例。多年來,公司一直在Google之類的搜尋引擎打廣告,希望吸引更多客戶來增加需求。有一份顧問報告的結論是這麼說的:這些廣告很有效果;同時它也指出,市場露出的廣告愈多,eBay的購買總值就愈高。唉,這份報告針對這些廣告的結論是錯的。美國加州大學柏克萊校區(University of California Berkeley)的史帝文.塔德利斯(Steven Tadelis)領導一支經濟學家團隊進行一項實驗,協助eBay了解到這種相關是因為廣告的目標受眾是本來就可能會上eBay的人,以及市場上即使沒有廣告,對eBay的需求預計也會激增。

想要了解因果,就要深入探討研究如何進行。例如,該研究是否為「隨機對照實驗」,也就是研究人員將受試者隨機分為兩組:一組接受測試條件,另一則是對照組,沒有接受測試條件。一般認為這是評估因果的黃金標準,雖然這類實驗不一定可行或實際。或許,研究人員仰賴的是「自然實驗」,觀察某個事件或某項政策變化對於特定群體的影響。例如,研究人員用抽籤方式決定誰來取得某項福利,就能比較中籤者和未中籤者,看看這項福利如何改變中籤者的處境或行為,進而研究這項福利的影響。

無法進行有計畫實驗或自然實驗的研究人員,可以改為在數據分析中控制潛在的干擾因子(confounding factors)——這些變數會影響研究變數——儘管這在實務上可能不容易做到。例如,如果你在評估一項培訓課程對生產力的影響,你要確保你控制了員工參與這項課程前的經驗,以及其他可能影響生產力的因素。

低估樣本規模的重要性。想像有兩家醫院:一家是每年接生數千名新生兒的大醫院,另一家則是每年接生數百名新生兒的小醫院。你認為哪一家醫院會有更多天數是男嬰出生率超過60%?

答案是小醫院,因為它每天的出生人數變化較大。小樣本規模更有可能出現較大的波動。心理學家丹尼爾.康納曼(Daniel Kahneman)和阿莫斯.特沃斯基(Amos Tversky)在他們關於偏誤和捷思法(heuristics)的經典著作中發現,大多數人的答案都是錯的,超過半數的人說「差不多相同」。人們往往會低估樣本規模對一個估計值的精準度造成什麼影響。這類常見錯誤可能會導致錯誤的決策。無論你是想弄清楚網路評論可信度有多高、如何詮釋生產力趨勢,還是對廣告實驗的結果該有多重視,都要考慮你分析的樣本具有多大規模。

如果你不只詢問樣本規模,也詢問「信賴區間」(confidence interval),或許可以協助你評估效果。信賴區間是指真實效果可能落在某個數值範圍,以及你有多確定它會落在那個範圍。你得到的回答應該會在後續討論你要採取何種行動方案時發揮作用。

著重於錯誤的結果。羅伯.柯普朗(Robert S. Kaplan)和大衛.諾頓(David P. Norton)在1992年於《哈佛商業評論》發表的經典文章〈以平衡計分卡推動績效〉(The Balanced ScorecardMeasures That Drive Performance)中,以一個簡單的觀察做為開場:「你衡量什麼,你就得到什麼。」儘管他們這篇文章要早於現代分析法的年代,但這個想法如今比起以往都更加適用。實驗和預測分析通常都著重於容易衡量的結果,而不是企業領導人真正關心但難以確定,或實際上無法確定的結果。因此,結果指標通常無法完全掌握更廣泛的企業營運績效。

讓我們回到加薪的例子。成本很容易衡量,而生產力的提升卻難以量化。這可能導致經理人狹隘地著重於加薪的成本,而忽略潛在的效益。要做更廣泛的分析,可以採用像是在經濟學家娜塔莉亞.伊曼紐爾(Natalia Emanuel)和艾瑪.哈靈頓(Emma Harrington)的研究中看到的方法。她們想要了解一家大型線上零售商設定的倉庫薪資水準會帶來什麼影響。兩位研究人員檢視2019年倉庫員工加薪後的生產力變化,發現生產力和員工流動率的改善幅度非常大,使得加薪帶來的效益超過加薪的成本。當他們研究加薪對客服員工的生產力和流動率產生的效果時,也發現類似的結果。

此外,也要確保在研究某個結果時,這個結果能夠適切反映實際的組織目標。有些公司的實驗只追蹤短短幾天的結果,假定這些結果是強而有力的證據,可以證明長期效果會是如何。對於某些問題和脈絡來說,短短的時間可能並不足夠。亞馬遜(Amazon)就是一家努力避免這個問題出現的公司:它大手筆研究各種可能的產品變化會帶來什麼較長期的成本和效益。有許多方法可以評估結果的關聯性,以及對結果的詮釋,例如明確討論各種限制條件,或是對短期和長期效果之間的關係做出正式的分析。

要真正從任何一個數據集學到東西,你必須提出一些基本問題,例如:衡量的是哪些結果?必須制定某些決策時,所有跟這些決策有關聯的數據集我們是不是都納入了?這些數據集有沒有廣泛到足以包含預期和非預期的關鍵後果?這些數據集有沒有被追蹤一段適當的時間?

誤判推廣能力。以倉庫員工加薪為例,一個極為重要的問題是,從一組倉庫獲得的結果對另一組倉庫的意義是什麼。此外,公司可能會希望知道,結果如何套用到,比方說,餐廳或零售店的員工。

我們觀察到企業領導人在兩個方向上都犯了錯誤,他們不是高估、就是低估了研究結果的推廣能力。例如,一家大型科技公司的工程資深副總告訴我們,他的公司規定在招募工程師時,不能把大學成績納入決策考量。我們詢問背後的理由,他說Google已經「證明成績並不重要」——這指的是他在某處讀到的一位Google高階主管的評論,聲稱學校成績和職涯成果之間並沒有關係。他把這項訊息視為真理,忽略了它的內在效度和外在效度可能都有一些限制條件。

要評估推廣能力,你也許可以討論這個結果可能有哪些機制可以解釋,以及這些機制是否也能套用到其他脈絡。你可以提出一些問題,例如:這項研究的脈絡有多類似我們公司的脈絡?這項分析的脈絡或時間,是不是讓這項分析多少都跟我們決策有關聯?研究樣本的組成是什麼,它又會怎麼影響結果的套用能力?在不同次群體,效果有沒有跟著不同?

你可以這麼問:這項研究的脈絡有多類似我們公司的脈絡?脈絡是不是讓這項研究多少都跟我們有關聯?在不同次群體,效果有沒有跟著不同?

過度重視某個特定結果。只憑單一研究結果,而沒有對它進行有系統的討論,就如同你認為證據和你的情況無關,就不予理會一樣,都不是明智的做法。你可以檢視其他和這個主題有關的研究。用你自己的組織來做實驗或進一步分析,可能是另一個不錯的選項。可以提出的問題包括:是不是還有其他分析證實這些結果和方法?我們還可以蒐集其他哪些數據,而且蒐集更多證據的好處會不會超過蒐集這些數據的成本?

從「有話直說」開始

1906年,一場家畜展覽會上大家比賽猜測一頭牛的重量,法蘭西斯.高爾頓(Francis Galton)爵士對這場比賽的數據做了一次著名的分析。儘管每個人的猜測莫衷一是,但這些猜測的平均值卻幾乎完全正確——這就是「群眾智慧」的展現。然而,要善用這種智慧可能並不容易。如果有機制可以促進積極和多元的參與,集體智慧的品質就會最好。否則,群體也可能放大偏誤——尤其是他們的觀點都相同時。

要克服偏誤,企業領導人可以邀請觀點多元的貢獻者來參與對話,請他們挑戰和參考彼此的想法,並確保他們的討論有探索和運用高品質的數據〔見本刊20128月號〈強化決策三要素〉(What You Don't Know About Making Decisions),作者為大衛.葛文(David A. Garvin)和麥可.羅伯托(Michael A. Roberto)〕。鼓勵異議和建設性批評可以協助對抗團體迷思,更容易預測非預期後果,並協助團隊避免過度重視領導人的意見。此外,領導人也必須設法讓員工考慮決策對不同利害關係人的影響,並且有意識地打破本位主義觀點。

這類討論有助於確保領導人審慎地權衡證據。然而,這些原本很有效果的討論,卻經常偏離正軌。無數的研究顯示,階層制度可能造成人們不願表達異議,而且參與討論的人如果沒有獲得「心理安全感」——相信坦誠是領導人所樂見,而且不會受到懲罰——他們往往不會分享可能有關聯的數據,或追問到底。如果沒有心理安全感,我們描述的方法就不太可能有效。

團隊成員認為提供數據、想法、顧慮和另類觀點會得到同儕和主管的重視時,團隊也會跟著受益。最重要的是,在許多討論中,參與者應該把追問到底當成工作的一部分。

已經有不少文章探討如何建立團隊的心理安全感〔見本刊20075月號〈打造直言的無障礙空間〉(Why Employees Are Afraid to Speak),作者為詹姆斯.迪特(James R. Detert)和艾美.艾德蒙森(Amy C. Edmondson)〕。不過,在一個尋求使用證據來擬定商業決策的團隊中,建立這種心理安全感尤其重要——如此一來,團隊成員就不會因為害怕提出不受歡迎的發現,而錯過關鍵的數據。

低度心理安全感會帶來寒蟬效應,這一點從大家對臉書(Facebook)一項實驗研究的回應就可以清楚看見。這項研究是在觀察,顯示更多正面貼文或負面貼文,是否會影響用戶的情緒。2014年,由於大家強烈反對這項研究——部分原因在於大家不知道臉書在做這類實驗——執行長馬克.祖克柏(Mark Zuckerberg)終止了正在進行、並以外部使用者為對象的研究計畫。這使得員工不敢進行實驗,主動探索臉書的社會影響力。最近,祖克柏改弦易轍,再度對外部研究展露了興趣。然而,如果他在10年前就創造一種氛圍,讓臉書高階主管能夠審慎討論社群媒體的負面影響,那麼公司可能就不會因為錯誤訊息及這些訊息對用戶福祉的影響,而在最近遭遇一些聲譽的挑戰。

從數據到「決策」

面對不確定性時,決策必然是迭代進行的;它需要定期按下暫停鍵,好好思考資訊和過程。有效的團隊會從數據學習,相應調整計畫,還會特別下功夫改善他們的討論。

領導人必須花時間討論分析的細微之處——包括樣本規模和組成、衡量什麼結果、用什麼方法區分因果和相關,以及結果可以從一個脈絡推廣到另一個脈絡的程度——才能了解證據如何形塑(或無法形塑)某個特定決策。經過審慎的考慮,每個實證研究的結果都會提供一塊拼圖,協助企業釐清不同的變化有沒有可能(以及何時有可能)產生影響。這類討論也會打好基礎,讓組織在蒐集數據時能夠更加嚴謹。

即使在最理想的情況下,證據也很少是決定性的,而且一項商業行動會如何發展也是不確定的。儘管如此,你還是可以期望自己依據現有或可能獲得的資訊,做出深思熟慮的選擇。採取一個有系統的方法來蒐集、分析和詮釋資訊,你就能更有效地從不斷增加的內部與外部數據獲得好處,進而做出更好的決策。

文章來源:哈佛商業評論 9月號