
Email:hongx87@ustc.edu.cn
個人主頁:https://hongxie.github.io/
主要研究方向:在線學習算法及其應用(bandits, reinforcement learning等)
謝洪,男,特任研究員,IEEE、ACM、CCF會員。本科畢業於中國科學技術大學,博士畢業於香港中文大學,師從John C.S. Lui教授。主要致力於在線學習算法研究,共發表論文80餘篇,包括ICML、NeurIPS、KDD等。主持國家自然科學基金青年項目、重慶市自然科學基金項目、阿裏巴巴創新研究計劃項目等。獲CCF-A類會議INFOCOM最佳論文提名、重慶科技進步一等獎,入選重慶英才-青年拔尖人才。
導師選題:
| 大模型智能體中隱性推理與顯性推理的平衡機製研究 | Google今年發布的AgentQ智能體在複雜多輪推理任務上取得重要突破。該智能在架構範式上的革新在於融合大模型的隱性推理能力與強化學習的顯性推理能力。該架構範式中的一個關鍵科學問題是如何平衡隱性推理與顯性推理。本課題擬從大模型智能體訓練的角度,探索隱性推理與顯性推理平衡機製,為精準權衡建立理論與方法基礎,從而進一步突破大模型智能體在多輪複雜任務上的推理瓶頸。 | | 探究大型預訓練模型的內在組合推理機製 | 組合推理,也稱為多步、多跳推理,指的是利用已學習單元知識和概念組合起來解決複雜問題。其作為通往強人工智能的關鍵路徑技術,受到學術界的廣泛關注。近年來相關的技術發展,如“思維鏈”提示,主要通過誘導大語言模型在回答時逐步地輸出推理過程,來實現組合推理。然而,該類方法在應用過程中需要大量專家勞動力來針對具體任務構建專用提示、在推理過程中需要輸出成百上千token,計算效率低下、同時這種提示技術僅通過更改模型的輸出行為來提升推理能力,與模型的本身固有的內部機製無關。因此,在這個項目中,我們主要關注於探究大規模預訓練模型在包括算術、事實推理、邏輯推理等各種任務上的內在組合推理能力,確定當前開源的SOTA模型的關鍵推理機製和現存缺陷,並試圖提供有見地的解決方案,以實現穩健組合推理。 | | 麵向強化學習的生成式學習方法研究 | 當前強化學習的學習組件主要采取判別式學習範式,比如利用顯性/非線性回歸方法從交互數據中學習值函數或策略等。以GPT為首的大模型,展示了生成式學習範式(擴散模型、GflowNet等)強大的能力。本課題擬研究生成式學習範式與強化學習的融合,解鎖生成式學習範式在強化學習方麵的潛力,有望為進一步融合大模型與強化學習奠定理論基礎。 | | 大模型智能體決策的理論框架研究 | 大型語言模型展現出了令人印象深刻的推理能力,但將這些推理轉化為現實世界中的決策仍然充滿挑戰。特別地,如何通過內部推理機製,在與外部環境交互的次數最少的情況下,有理論保證地完成給定任務尚不清楚。本課題擬針對這一空白,利用強化學習理論等技術,研究大模型智能體決策的理論框架,為大模型智能體決策奠定理論基礎。 |
|