關鍵迭代：可信賴的線上對照實驗 | 被動收入的投資秘訣 - 2024年7月

關鍵迭代：可信賴的線上對照實驗

作者：（美）羅恩·科哈威

出版社：機械工業

出版日期：2021年04月01日

ISBN：9787111678809

語言：繁體中文

本書基於近些年實驗領域的研究成果和實踐經驗，對實驗的方法和應用做了很好的全景式描述，是一本兼顧系統性的方法論和基於實戰的經驗法則的書籍。根據微軟、亞馬遜、谷歌和領英每年運行的兩萬多個對照實驗，作者以示例和建議的方式向學生和業內人士分享了自己的實踐經驗，指出了需要避免的陷阱，並深入探討了一些進階專題，可以為希望改善自身及機構資料驅動決策方式的從業者提供參考。

全書分為五個部分：第I部分由四章組成。第1章概述運行線上對照實驗的好處，並介紹實驗相關術語。第2 章用一個例子剖析運行實驗的全過程。第3 章描述常見的陷阱以及如何建立實驗的可信賴度。第4 章概述如何搭建實驗平臺並規模化線上實驗。第II部分的五章內容介紹實驗的基礎原理，比如機構指標。我們推薦所有人閱讀這一部分，尤其是領導者和高管。第III部分的兩章內容介紹線上對照實驗的補充技法，可以幫助管理層、資料科學家、工程師、分析師、產品經理等進行資源和時間的投資。第IV部分專注於實驗平臺的搭建，面向工程師群體。最後，第V部分深入討論進階的實驗分析專題，面向資料科學家。

羅恩·科哈威（Ron Kohavi）是愛彼迎的副總裁和技術院士，曾任微軟的技術研究員和公司副總裁。在加入微軟之前，他是亞馬遜的資料採擷和個性化推薦總監。他擁有斯坦福大學電腦科學博士學位，論文被引用超過40 000次，其中有3篇位元列電腦科學領域引用最多的1 000篇論文榜。

黛安·唐（Diane Tang）是谷歌院士，大規模資料分析和基礎設施、線上對照實驗及廣告系統方面的專家。她擁有哈佛大學的文學學士學位和斯坦福大學的碩士及博士學位，在移動網路、資訊視覺化、實驗方法、資料基礎設施、資料採擷和大資料方面擁有專利和出版物。

許亞（Ya Xu）是領英資料科學與實驗平臺負責人，曾撰寫了多篇關於實驗的論文，並經常在頂級會議和大學演講。她曾在微軟工作，擁有斯坦福大學的統計學博士學位。

譯者序
前言——如何閱讀本書
致謝

第一部分　線上對照實驗概覽
第1章　概述和寫作動機003
1.1　線上對照實驗的術語005
1.2　為什麼進行實驗？相關性、因果關係和可信賴度008
1.3　有效運行對照實驗的必要元素010
1.4　宗旨011
1.5　隨時間推移的改進013
1.6　有趣的線上對照實驗實例015
1.7　戰略、戰術及它們和實驗的關係020
1.8　補充閱讀 023
第2章　運行和分析實驗——一個全程剖析的案例025
2.1　設立實驗025
2.2　假設檢驗：確立統計顯著性028
2.3　設計實驗030
2.4　運行實驗並獲得資料032
2.5　分析結果033
2.6　從結果到決策034
第3章　特威曼定律與實驗的可信賴度037
3.1　曲解統計結果038
3.2　置信區間041
3.3　對內部有效性的威脅041
3.4　對外部有效性的威脅046
3.5　細分群的差異049
3.6　辛普森悖論 052
3.7　鼓勵健康的懷疑態度054
第4章　實驗平臺和文化055
4.1　實驗成熟度模型055
4.2　基礎設施和工具062

第二部分　基礎原理
第5章　速度很重要：一個全程案例剖析075
5.1　關鍵假設：局部線性近似077
5.2　如何測量網站的性能078
5.3　減速實驗的設計080
5.4　對不同頁面元素的影響是不同的081
5.5　極端結果083
第6章　機構指標085
6.1　指標的分類086
6.2　指標的制定：原則和技術089
6.3　指標的評估091
6.4　指標的演變092
6.5　更多的資源093
6.6　補充材料：護欄指標093
6.7　補充材料：可操縱性095
第7章　實驗指標和綜合評估標準097
7.1　從業務指標到適用於實驗的指標098
7.2　將關鍵指標組合成一個OEC099
7.3　案例：亞馬遜電子郵件的OEC101
7.4　案例：必應搜尋引擎的OEC103
7.5　Goodhart法則、Campbell法則以及Lucas批判104
第8章　機構的經驗傳承與統合分析107
8.1　什麼是機構的經驗傳承107
8.2　為什麼機構的經驗傳承有用108
第9章　對照實驗中的倫理111
9.1　背景111
9.2　資料收集116
9.3　文化與流程117
9.4　補充材料：使用者識別項117

第三部分　補充及替代技法
第10章　補充技法121
10.1　補充技法的空間121
10.2　基於日誌的分析122
10.3　人工評估124
10.4　用戶體驗調研125
10.5　焦點小組125
10.6　問卷調查126
10.7　外部資料127
10.8　總結129
第11章　觀察性因果研究131
11.1　對照實驗不可行的情況131
11.2　觀察性因果研究的設計133
11.3　陷阱138
11.4　補充材料：被駁斥的觀察性因果研究141

第四部分　實驗平臺搭建
第12章　用戶端實驗145
12.1　伺服器端和用戶端的差異145
12.2　對實驗的潛在影響148
12.3　結論152
第13章　工具化日誌記錄153
13.1　用戶端與伺服器端的工具化日誌記錄153
13.2　處理多源的日誌155
13.3　工具化日誌記錄的文化156
第14章　選擇隨機化單元157
14.1　隨機化單元和分析單元159
14.2　用戶級別的隨機化160
第15章　實驗放量：權衡速度、品質與風險163
15.1　什麼是放量163
15.2　SQR放量框架164
15.3　四個放量階段165
15.4　最終放量之後168
第16章　規模化實驗分析169
16.1　資料處理169
16.2　資料計算170
16.3　結果匯總和視覺化172

第五部分　實驗分析
第17章　線上對照實驗中的統計學知識177
17.1　雙樣本t檢驗177
17.2　p值和置信區間178
17.3　正態性假設179
17.4　第一/二型錯誤和統計功效181
17.5　偏差183
17.6　多重檢驗183
17.7　費舍爾統合分析184
第18章　方差估計和提高靈敏度：陷阱及解決方法185
18.1　常見陷阱186
18.2　提高靈敏度189
18.3　其他統計量的方差190
第19章　A/A測試193
19.1　為什麼運行A/A測試193
19.2　如何運行A/A測試198
19.3　A/A測試失敗時199
第20章　以觸發來提高實驗靈敏度201
20.1　觸發示例201
20.2　數值示例204
20.3　最佳的和保守的觸發205
20.4　總體實驗效應206
20.5　可信賴的觸發207
20.6　常見的陷阱207
20.7　開放性問題209
第21章　樣本比率不匹配與其他可信度相關的護欄指標211
21.1　樣本比率不匹配212
21.2　調試SRM214
第22章　實驗變體之間的洩露和干擾219
22.1　示例220

關鍵迭代：可信賴的線上對照實驗 | 被動收入的投資秘訣 - 2024年7月

關鍵迭代：可信賴的線上對照實驗

相關書籍