中國科學技術大學華夏計算機科技英才班(以下簡稱“華夏英才班”)於2024年3月2日成功舉辦了一場學術交流討論會,為老師和同學們帶來了前沿科技研究的最新成果和深度思考。我們邀請到了12級華夏英才班的李弈帥和李也學長為我們分享他們在阿裏雲的最新工作成果。
首先李弈帥學長作為講座第一部分的主講人,他的報告主題為《Clocks in Distributed Systems》,他從分布式係統中事件的並發性問題入手,介紹了不同組件之間需要對事件達成一致的“順序”的重要性。他帶著同學們了解了如何通過各種類型的“時鍾”將事件映射到可排序的“時間戳”上,以實現此一致性。在演講中,他詳細定義了時間戳技術中的基本概念,包括可靠性和完備性,並介紹了不同種類的時鍾實現方式,如集中式與分散式、物理與邏輯等,並重點討論了各種實現方式的性能和可用性。最後他還分享了阿裏巴巴雲團隊在集中式時間戳技術方麵的最新研究成果。這項研究致力於提高集中式時間戳技術的可用性,為分布式係統中事件順序的一致性提供更可靠的保證。
第二位主講人李也學長以《ShapleyIQ: Influence Quantification by Shapley Values for Performance Debugging of Microservices》為題,向同學們介紹了他們團隊對於經濟學領域常用的Shapley值在微服務係統故障定位進行應用的最新研究成果。隨著信息技術的飛速發展,微服務係統作為一種分布式係統的架構風格,得到了廣泛的應用。然而,微服務係統的複雜性也帶來了調試和維護的挑戰。李也研究員深入剖析了多年來在運維大型微服務係統過程中所積累的經驗,並指出即使是看似相似的異常,由於係統組件間複雜的依賴關係,也可能引發不同的影響並需要采取不同的補救策略。基於這一認識,他們團隊開發了ShapleyIQ這一在線監控與診斷服務。這項服務通過精確分析因果圖中的Shapley值來精準定位微服務係統故障的根因,並通過引入分裂不變性特性,克服了傳統Shapley值計算的高複雜性問題。據介紹,ShapleyIQ已在阿裏雲數據庫的微服務係統上運行超過一年,服務於至少86個微服務組件和2546台機器,顯著提高了DevOps效率並將係統故障減少了83.3%。此外,他們還在開源微服務係統Train-Ticket上進行了對ShapleyIQ的評估,結果顯示,在識別微服務係統故障根因方麵的準確率達到97.3%,比基準算法至少提高了28.7%。這項工作已在頂級會議ASPLOS2023上發表。
報告最後,同學們針對學長們所介紹的新興研究領域以及當前的企業界科研環境都進行了積極提問,並得到了學長們的耐心解答。同學們不僅對最新的技術研究成果有了更深入的了解,還對自己的未來職業發展有了更加清晰的定位。
這場學術交流報告會吸引了眾多師生的積極參與,為師生們提供了一個深入學習和交流的平台。華夏英才班將繼續致力於推動前沿科技研究,培養高素質的科技人才,為國家的科技創新和發展做出更大的貢獻。相信在這樣一個學術氛圍濃厚的環境中,未來必將湧現出更多的科技創新和思想火花。