為生成式AI安排「到職實驗」日期:2026/1/20

生成式AI不但席捲軟體產業,也大舉進軍其他產業。但這些產業的公司卻不知如何將這項技術融入自己的作業流程。要讓生成式AI成為得力助手,公司可以先進行「組織實驗」,確認它的效果,接著再全面推廣,創造策略優勢。


關於本文藝術作品:攝影師貴格.懷特(Greg White)在他的系列作品〈基本量〉(Base Quantities)中,不靠後製,單憑攝影手法,趣味十足地拍下各種物理學原理。

生成式AI熱潮席捲軟體產業之後,如今正進軍更廣大的產業領域,製造業也不例外。在這些領域中,生成式AI正協助控管不可預測性,並支援即時決策。由於生成式AI能夠將組織的專業知識系統化、自動化、以及擴散傳播,最後可能會重塑整個工作結構,從生產現場到長字輩層級都將深受影響。有一些公司已經利用生成式AI來分析工廠產生的海量數據,並且預測問題、模擬複雜情境、即時將流程最佳化。生成式AI能夠處理各種類型的製造業資料,包括保養手冊、機器自動化程式碼、複雜圖表、3D繪圖與製程數據等,未來也就有潛力為人機協作建立新的模式。

然而誰會從這些變革中受益、以及多快就會受益?這個問題並不容易回答。就像電力與印刷機,生成式AI也是一種通用型技術;歷史告訴我們,這類技術的採用過程通常不會是直線進行。企業主管往往無法體認新技術的真正經濟潛能,也就很難重新調整任務、技能與工作流程來配合這些技術。結果就是績效提升多半會落後於技術擴散,形成所謂的「生產力J曲線」(productivity J curve):組織在適應新技術的同時,生產力會先下滑,但配套投資奏效之後會持續提升。近期有關生成式AI的數據也符合這種模式:例如2025年麥肯錫(McKinsey)的一項調查發現,儘管許多企業迅速採用生成式AI,但超過80%的受訪者表示對獲利尚未產生顯著影響。

企業最終將如何採用生成式AI目前仍不明朗,主管因此面臨策略層面的兩難:要等到更為明朗再說,但可能因此落後競爭對手?還是盡早採取行動,但投資下去的AI應用可能失敗?

為了化解這種緊張關係,領導人不能將生成式AI的採用視為單一的決策,而是當成一系列的組織實驗。就像數位產品開發過程中的AB測試,這些實驗的目的應該是找出因果效應——不僅關注生成式AI是否發揮效用,還要關注它是以何種方式、對哪些人、在什麼條件之下發揮效用。如果主管先測試生成式AI的應用,然後再擴大這些應用的規模,就能降低風險、改進策略,並為變革累積內部動能。專家長期以來就倡導這種方法,但許多企業在實施之際遭遇種種困難;因此對許多組織而言,實驗仍然是相當新穎的做法。

這個狀況必須改變。透過實驗,企業可以將生成式AI的不確定性轉化為策略優勢,與競爭對手相比,會更順利度過採用階段。而運用實驗過程產生的知識,企業可以強化生態系統中的現有關係,甚至建立新的關係。本文將說明企業如何藉由實驗,在組織內部及整個生態系統中更妥善採用生成式AI。軟體業者在這方面是開路先鋒,然而像西門子(Siemens)之類的公司也開始對生產工作進行實驗,而且成效卓著。

本文觀念精粹

問題所在:企業對於生成式AI技術的投資,與企業藉由生成式AI創造的價值,兩者之間存在明顯的落差。

問題脈絡:生成式AI具備讓企業脫胎換骨的潛力,但組織若要有效採用這項技術,就必須在流程、技能與策略方面做出重大變革,而許多公司仍在設法克服這些挑戰。

解決之道:組織應該採取結構化的實驗,在擴大運用生成式AI之前,先全力解決迫切的客戶問題,並進行有系統的學習。這種做法能夠促進創新、降低風險,並協助整個組織順利採用生成式AI

採用生成式AI面臨的挑戰

儘管生成式AI前途一片光明,但許多組織仍未全面接納。生成式AI工具會產生幻覺與不可靠的結果,這是企業在高風險情境中不願使用它的原因之一。但各專家認為還有更深層的原因:生成式AI的真正經濟潛能在於創造全新的價值體系,但組織卻很難找出這些體系,更遑論追求。歷史上的類似案例是電力:已故經濟史學者保羅.大衛(Paul David)指出,製造業工廠花了將近40年時間才真正適應這項技術,把自己調整到最能配合的程度。

想要在組織層級植入生成式AI技術,企業必須仔細設想如何將它與既有的流程、例行做法以及團隊進行整合。製造業面對的挑戰更大,因為這個領域極度要求效能、可靠、安全,以及與人類員工順利整合。

從這個角度來看,成功採用生成式AI的進展緩慢也就不足為奇,而且反映了一個更大的挑戰:如何讓生成式AI在組織中派上用場,而不只是展現厲害的技術。這也正是組織實驗能夠發揮作用的地方。

學習與適應的發動機

組織實驗就其本質而言,是科學方法的一種應用。它會在真實的工作環境中設定一個實驗組(例如使用新AI系統的員工或團隊)與一個對照組(以原有方式作業、未使用新系統的員工)。實驗是根據一套特定的研究設計來進行,從一個明確、可以檢驗的假設開始,時間可能持續數週或數月,以便掌握初期與長期的效應。企業會依照關鍵績效指標來蒐集數據,有時也會補充參與者的質化回饋意見。為確保實驗中各組的可比較性,會運用隨機分配或其他的控制方法。

為了找出AI工具對工作績效的影響,公司可以隨機分配只讓半數員工使用該工具。例如GitHubGoogle都曾進行對照實驗,隨機讓開發人員使用人工方式或AI助理來撰寫程式。結果,相較於手動撰寫程式的開發人員,使用AI助理的人完成任務的速度快了21%到55%,完成率也略高。而且使用AI助理的人也表示對工作更滿意、心理壓力更低。這樣的結果——AI助理能夠加快程式開發、增進員工福祉——顯示AI工具對員工而言,不僅提升工作績效,而且改善工作體驗。

如果隨機分配難以做到,有些公司會採用分階段導入的做法,在一段時期分別讓不同團隊開始使用AI工具,自然形成對照組。例如美國一家專做中小企業商業流程軟體、名列《財星》(Fortune500大的公司,就以分階段方式導入生成式AI助理給5,000多位客服人員使用,然後比較使用者與未使用者的績效。結果發現使用者的整體生產力提升約14%,而且經驗較少的客服人員更是提升34%。顧客感受評分與留客率也雙雙上升。這樣的結果促使公司決定擴大規模,在組織全面推行這套工具。

另一種做法是設置「現場實驗室」(lab in the field),它是一個受到控制的環境,可以觀察人類與新技術如何互動。例如寶僑(Procter & Gamble)最近進行一項實驗,776位產品開發人員參加一場創新黑客松(hackathon),隨機分配是否使用AI、單獨或成對參賽(本文作者之一薩丹參與執行該項實驗)。結果顯示,平均而言,使用AI單獨參賽的員工表現與未使用AI的團隊不相上下;另一方面,使用AI參賽的,不論是個人或團隊,都更能融合技術與商業的構想。寶僑因此認為,使用生成式AI有助於減少職能各自為政的思維,讓公司得以組建規模較小的跨職能團隊。

雖然組織實驗與傳統的技術試行、AB測試有一些相似之處,但仍然存在根本差異。技術試行通常是非正式的測試,參與的團隊經過特別挑選,提供的回饋意見也不是來自嚴謹的觀察;而是否要擴大這些試行的規模,往往取決於一時的熱情而非客觀證據。技術試行缺乏明確的假設與對照組,因此比較難產生整個組織都適用的見解。AB測試則適合用來微調,例如選擇某個新產品的數位功能;但它不太能夠掌握一項變革對於協調、工作流程或人員體驗的全盤影響。組織實驗則超越技術試行與AB測試,能夠評估在真實世界發生的影響,揭示生成式AI是否發揮效用,以及以何種方式、對哪些人、在哪些條件之下發揮效用。組織實驗是策略性學習與適應的發動機。

如果以適當方式執行,生成式AI的組織實驗將會帶來許多好處,包括:

一、因果見解。

實驗有助於區分相關與因果,這一點非常重要。組織如果缺乏能夠清楚區分兩者的實驗設計,將無從判斷生產力的提升究竟是來自生成式AI本身,還是來自技術的早期採用者——這些人的技能或動機通常比一般員工還高。

二、細部處理。

實驗能夠顯示生成式AI對不同類型員工、部門的影響有何差異。這非常重要,因為生成式AI的成效一大部分決定於背景情境——例如具體的工作類型、使用者技能水平、工作流程整合、組織文化,以及其他因素。在某個團隊發揮卓越效用的AI工具,在另一個團隊可能一敗塗地。舉例來說,新近的證據顯示,至少在客服領域,生成式AI助理會讓經驗較少的員工非常受用,但是對資深員工的幫助似有若無。藉由這一類事證,主管可以取得寶貴的見解,不僅了解生成式AI影響組織的程度,還能判斷為了產生這種影響應該投入哪些資源——例如將新工具部署在可能產生最大改進的地方。

三、降低風險。

實驗能夠協助主管在全面推行計畫之前,發現可能阻礙實施的問題。經濟學家約翰.李斯特(John A. List)在《規模化效應》(The Voltage Effect)一書中擴展這個理念,提到實驗可以帶來許多好處,例如:它可以協助你「避免偽陽性」——確認初期的正面結果並非運氣使然;「了解受眾」——避免某個構想雖然吸引某個滿懷熱忱的小團體,但可能無法打動更廣大、更多元的群體;「評估組成要素能否擴大規模」——確保構想的成功不是依賴獨特人物(例如名人),而是來自可複製的流程或產品;「考慮意外結果」——避免擴大規模之後出現預期之外、傷害原始構想的效應;以及「控制成本」——評估構想在擴大規模之後的成本是否仍然可以承受。最後一點對生成式AI尤其關鍵,因為生成式AI的採用需要在技術、人力與組織流程上進行大手筆投資。

四、策略性學習。

不確定性經常會導致決策癱瘓,主管的克服之道是啟動探索流程,也就是進行一連串小型實驗,每個實驗都以可檢驗的假設為基礎。設計這些實驗會迫使主管全力對付策略問題,並且建立一套架構,有系統地徹底思考問題。西門子在啟動組織實驗時,就先明確界定它要檢驗的假設,來了解生成式AI對員工生產力與福祉的影響。主管聚焦於這些特定假設,就能夠遠遠更明確地界定他們要在實驗期間蒐集的數據,進而掌握員工的行為變化(例如解決某個問題需要的時間)、態度變化(例如工作滿意度),以及最終在生產現場的生產力變化。此外,西門子嚴格遵循科學方法,因此能夠透徹理解生成式AI對於生產製造的主要效果與次要效果,例如員工對專業工程師的依賴是否因此減少。整體而言,與一般的產品推行過程相比較,這個流程幫助西門子以遠遠更為豐富、更為精準的方式,了解如何從技術採用走向價值創造。

生態系統實驗

生成式AI實驗不僅會讓可能的採用者受益,創新者還能從中獲得更大的回報:運用從實驗過程取得的見解,協助潛在客戶了解哪些生成式AI用例對他們非常重要,或者哪些挑戰可能阻礙他們將這項技術整合到既有的流程中。一些擁有大量用戶的創新者已經跨出自家的組織(例如與現有或潛在的客戶合作),率先實驗新的生成式AI應用。在這些範例中,創新者是生態系統實驗的主導者。

以微軟(Microsoft)為例,它與一個學者團隊合作,研究66家公司、7,000多名員工採用微軟AI助理Copilot的狀況。研究團隊進行一項結構化實驗,授權特定的一群員工使用Copilot,然後追蹤他們開會與使用電子郵件時的行為變化,並與職務相似但未使用Copilot的員工做比較。

這項研究發現Copilot使用者每週花在電子郵件上的時間減少了1.33.6小時,撰寫文件的速度變得更快,但開會行為沒有改變。研究也發現,公司是否提供訓練、是否訂定變革管理計畫,是AI採用成功與否的關鍵。由於這項實驗的品質與規模都十分紮實,這些研究發現很可能會影響微軟未來如何推廣Copilot這項產品。

軟體平台Grab也有類似的做法,它目前正與哈佛商學院以及歐洲工商管理學院(INSEAD)組成的一個學者團隊合作,研究一款AI助理對於6個國家超過100萬名創業者的影響。這項實驗的規模夠大,讓Grab得以精準掌握生成式AI對哪些工作發揮最大助益,以及不同類型的企業實際上如何在該公司的平台使用生成式AI。這些數據讓Grab的產品開發者得以持續改進自己利用AI進行設計、部署與實驗的方式。

生產現場的AI

能夠從AI生態系統實驗中受益的企業,不會只有軟體公司。西門子便與多家客戶合作,打造一款工具,名為「生成式AI驅動的生產現場助理」,來協助工廠員工進行工業機器的保養與維修。這款生成式AI助理透過直覺式的聊天介面,讓使用者立即取得靜態文件上的機器資訊,以及即時的機器數據。西門子將這項工具的一個早期版本交給特定使用者,讓他們可以了解如何將這項工具整合進日常工作中。這些探索性實驗的目的在於從技術、組織與商業層面找出見解,而參與實驗的客戶從機器製造商到這些機器的終端使用者無所不包,他們在不同的操作環境中測試這個最小可行性產品。這些實驗協助西門子改進並微調產品,例如西門子會評比AI對不同問題的回答品質,藉此找出最有效的下提示方式,以及使用手冊當中哪些內容需要改進。客戶對這種做法反應良好,也將它視為一個機會:現在先行試用一種AI工具,為未來功能更強大的版本做好準備。

西門子2024年在德國艾爾朗恩(Erlangen)的實驗工廠,對這款生產現場生成式AI助理進行首次測試(本文所有作者都參與)。保養技師在對昂貴的機器進行複雜的維修時,必須使用這款AI工具。這類維修通常需要多項步驟,才能找出並更換磨損或故障的零件。實驗測試這款生產現場助理能否對工作流程上的員工提供逐步分析與維修指示,從而精簡整個製程。基於結構化的事前事後調查,並搭配精細的績效數據,初步結果顯示,這款生產現場助理縮短了員工搜尋資訊的時間,並且提升他們獨立完成任務的能力。

不論是對於這款生產現場助理,還是對於生產部門員工一般採用與使用AI的狀況,組織實驗都為西門子提供了重要的啟示:

使用者嘗試前總是滿懷戒心。

面對工廠升級使用生成式AI,西門子的保養技師原本對自己的前途疑慮不安,然而在使用生產現場助理幾週之後,他們表示對自己的工作更有安全感。原因何在?因為這項AI工具大幅減少尋找資訊的時間,讓他們有更多時間投入只有他們才做得到的重要工作。

它是珍貴的學習工具。

儘管沒有經過任何入職培訓,使用者很快就開始利用生產現場助理來更深入了解機器,以及事件反覆發生的可能原因。這項AI工具也讓生產部門員工以全新的方式取得知識——他們與白領勞工不同,通常沒有機會參與結構化的知識分享會議。此外,這項工具還賦予員工更大的自主權,自行決定學習的時間與地點,較不會受限於資深同事可以指導的時間與意願。

它賦予員工能力挑戰更複雜的工作。

以保養技師為例,由於生產現場助理可以支援處理許多複雜的事件,他們對製程工程師的依賴因此降低。另一方面,由於來自保養技師的請求協助減少,製程工程師有更多時間從事更高價值的任務,例如生產製程最佳化與技術更新。

它讓員工更容易完成工作。

2024年實驗期間,西門子大幅縮編全公司的團隊,但原因與採用生成式AI工具無關。規模較小的團隊仍然能夠維持穩定的生產力,儘管成員經常必須獨自處理各種事件,無法迅速呼叫同事支援。這些員工甚至表示,當他們在沒有其他支援的情況下使用生產現場助理,壓力反而減輕不少。

西門子正在利用這項實驗的經驗,開發一項規模更大的隨機對照試驗,來測試生產現場助理的因果效應,範圍涵蓋自家工廠與生態系統中特定的客戶。此外,西門子因為進行這次實驗而開發出的能力,促使它運用類似方法來測試新設的「AI密集」(AI-intensive)職位在設計上是否影響、如何影響求職者的數量與品質。

成為組織實驗者

我們已經概述組織實驗的許多益處,但我們並沒有說它容易進行。為了讓組織實驗執行成功,你必須專注於幾個關鍵領域。

顧客需求。

任何成功的生成式AI實驗,核心都在於深入了解顧客的需求。組織必須專注於解決具體明確、影響重大的問題。實驗性的解決方案必須提出明確的可能投資報酬率,以及一個清楚說明、可以檢驗的可能效果。這需要進行廣泛的顧客訪談,以確保解決方案是針對顧客的迫切需求,而不僅是「可有可無」的改進。區分何者是策略性的差異化因素、何者是無足輕重的困擾之後,公司可以將資源投入影響重大的實驗,而不是分散到眾多未必有價值的小型技術試行。這就是寶僑進行實驗的宗旨:公司從深入了解傳統的產品創新過程出發,體認到生成式AI驅動的「網路隊友」(cybernetic teammate)可以協助減少行銷與研發團隊成員(在本案例中也是終端使用者)之間經常發生的摩擦,尤其是在產品開發的早期階段。

可使用的原型。

在產品開發過程中,團隊必須建構可以實際使用、測試的早期原型,然後邀請使用者參與真實世界的實驗,讓公司能夠快速改進這些原型,直到準備就緒,可以大規模推出為止。這可以建立信任感,讓實驗更有可能產出真正的見解與更好的結果。這種做法不會將生成式AI視為人類員工的取代者,而是協助他們提升工作品質的工具。

學習心態。

傳統的產品開發往往進展緩慢且視野對內,並不適合進行生成式AI的實驗。公司為了推動創新,應該積極採行一種實驗性的做法,從一開始就讓顧客參與創新流程,讓跨職能團隊以短期衝刺的方式快速測試想法、蒐集回饋意見。西門子在實驗生成式AI工具時,依賴一種現成的工具「創新驗證引擎」(Innovation Validation Engine),確保公司的一切作為都是全力解決顧客的真正問題,而且要及早解決、快速解決。這種做法讓終端使用者掌握更多控制權,並讓產品團隊直接負責提供價值。這完全符合西門子的需求,讓它在工業生產的環境中以兼顧速度、精確度與市場需求的方式,尋找、驗證與開發各種生成式AI應用。

實驗專業。

在公司內部運用科學方法需要一系列的技能。團隊必須知道如何設計與進行優質的實驗(建立明確且能夠檢驗的假設、決定適當的樣本規模),以及如何順利執行實驗、不出問題。團隊還要能夠分析結果、解釋這些結果的意義、利用研究發現來制定決策。由於這些技能是學術界的看家本領,一些公司於是轉向學界專家求助。例如亞馬遜(Amazon)在2020年聘請頂尖的勞動經濟學家賈絲汀.哈斯廷斯(Justine Hastings),進行一項以員工為主的大規模實驗。沃爾瑪(Walmart)在2022年禮聘約翰.李斯特來協助進行測試並且擴大許多實驗的規模,從生成式AI商品化工具到人資實務應有盡有。其他公司也與學術研究者建立合作關係,以便從外部引進實驗能力,而不是在內部自行建立;GoogleGitHub與寶僑都以這種方式推進實驗,本文已有論述。

合作能力。

為了推動有效的原型設計、實驗、探索與知識共享,對生成式AI進行實驗的公司必須與各種類型的參與者,如供應商、顧客、產業專家以及學者,建立積極的合作關係。關鍵在於組建擁有充分領域專業和權威的團隊,來設計與執行符合業務需求的實驗,然後確保這些團隊能夠與產品開發團隊確實溝通。最重要的是,領導人如果希望實驗成為公司策略產品開發不可或缺的一部分,就必須不斷宣示自己會全心投入持續學習以及數據驅動的決策模式。

來到生成式AI的年代,快速而嚴謹的實驗愈來愈成為組織的策略要務。企業如果在公司內部以及公司所處的生態系統中,發展出即時測試、學習與適應的能力,就更能夠將技術潛力轉化為組織優勢。但是這裡要提醒一個令人不安的事實:當你還在為生成式AI的策略辯論不休時,你的競爭對手可能已經開始有系統地學習有效的做法。企業如果願意將實驗當成紀律來執行,就能夠將不確定性轉化為策略性的差異化來源,進而塑造未來的工作樣貌。

文章來源:哈佛商業評論 1月號