徐林莉


E- mail:linlixu@ustc.edu.cn

個人主頁:http://staff.ustc.edu.cn/~linlixu/ 


主要研究方向:機器學習(Machine Learning),數據挖掘(Data Mining)。


徐林莉,女,博士,教授。2002年畢業於中國科學技術大學計算機科學與技術係,獲學士學位;2007年於加拿大滑鐵盧大學(University of Waterloo)計算機學院獲得博士學位。

研究著重於從複雜的數據中學習有價值的信息,利用數學建模發展相應的算法。研究課題包括各種聚類(Clustering)算法,非監督學習(Unsupervised Learning)以及半監督學習(Semi-supervised Learning),支持向量機(Support Vector Machines)及其相關的擴展,凸優化算法(Convex Programming)在機器學習中的應用等。在人工智能/機器學習領域頂級國際會議中發表論文多篇。



導師選題:

基於DPO的多模態大模型公式識別增強使用視覺語言模型(Vision-Language Models, VLMs)如LLaVA做公式識別任務,模型輸出序列會出現無法被正確解析的情況。現在想探索DPO對增強VLMs的公式識別效果的幫助。
     大二學生可能需要的基礎:
1 LaTex的公式用法;2   Transformer架構(LLaVA的圖像編碼器、語言解碼器);3 Pytorch模型訓練方法(Huggingface Trainer的用法);4 DPO(直接偏好優化)算法。
     研究路線:
1確定一個VLM基礎模型,如LLaVA或者其他已經在公式識別上表現良好的VLM2確定一個公式識別數據集。3使用數據集中的訓練集去訓練基礎模型。4拿訓練好的模型去測評訓練集和測試集,分析指標以及case實際表現。5將訓練集的評測結果中的錯誤樣本當做負樣本,原本的標注當做正樣本,做DPO訓練(代碼可以參考HuggingFace TRL)。6再進行第4步,並著重比較測試集的指標是否有提升。
基於推理鏈的大語言模型高效增強研究隨著Openai ChatGPT-o1的推出,研究人員逐漸意識到inference scaling law的重要性,通過規劃合理的推理鏈條,很多複雜的問題能夠被一步步拆分得到正確答案,這在傳統的重訓練輕推理範式中是很難做到的。因此,我們能否以一種相對低廉的代價構建出專注於推理能力的模型,搭配具有世界知識的大模型來實現接近於GPT-o1的性能表現?
     基礎要求:
1. 熟悉大語言模型的訓練流程,數據構造;2. 熟練COT的相關工作;3. 能夠自己實現大模型SFT流程;4. 熟悉強化學習的基礎知識。
     研究路線:
1. 最重要的部分是如何構造推理鏈數據,由於gpt-o1不提供推理的中間步驟和高昂的使用費用,以往基於gpt重新標注的方法構建大語言模型的方法不再適用。因此我們需要通過其他方案構造推理鏈的數據;2. 嚐試進行相對小尺寸的模型進行專項微調增強其邏輯推理的能力;3. 結合小尺寸模型和大尺寸模型形成規劃-驗證的推理框架。
小尺寸語言模型多層次性能評測近年來,小尺寸語言模型(指參數小於 3B 的模型)因推理速度快、資源消耗小且性能優異,逐漸成為關注焦點。這些模型能夠部署在端側,具備較強的實用性。然而,現有的評測指標存在一定汙染,導致排名靠前的小模型在實際應用中表現不佳。此外,很多小參數模型與大模型架構一致,因參數量減少而帶來的性能下降具體表現尚未明確。例如,常識推理缺乏、指令遵循能力下降、語言生成流暢性降低等問題亟需進一步探討。我們希望在架構一致的前提下,明確小尺寸模型能力的不足之處,尤其是像 Qwen2.5 這種多尺寸模型(0.5B-72B)在參數量變化帶來的性能下降中,哪些能力得到了較好的保留。尤其值得關注的是,推理能力在小模型中的保留情況。如果在推理過程中適當介入(盡可能最小化幹預),小模型的推理能力是否能得到增強,值得進一步研究。
     基礎要求:
1. 熟悉常見的大語言模型架構。2. 能夠使用   Transformers 庫部署語言模型並進行推理。3. 對微調大語言模型感興趣並願意嚐試。
     研究路線:
1. 多方麵評測小尺寸語言模型的性能,並結合具體案例分析其具體不足之處。2. 探究同一架構下,參數量減少對模型各項能力的保留和削弱程度。3. *如果推理能力得以保留,嚐試通過最小化介入,最大限度提升小語言模型的推理性能。
小尺寸語言模型 Self-play 微調的性能探索近年來,小尺寸語言模型(參數小於 3B)因推理速度快、資源消耗小、性能較高而備受關注,尤其適合端側部署。然而,這類模型的性能下降較為明顯,亟需改進。自我博弈微調(Self-play FinetuningSPIN)作為一種無需新增人類標注數據的技術,已獲得廣泛關注。SPIN 的核心理念是模型通過對比自生成的數據與人類標注數據進行優化,這一過程類似於自我博弈,旨在逐步提升小模型的性能。
     基礎要求:
1. 能熟練使用 Transformers 庫進行模型推理與訓練,具備 GitHub 使用經驗。2. 對微調大語言模型有濃厚興趣並願意嚐試。3. 數理基礎紮實
     研究路線:
1. 在小尺寸語言模型(參數量小於 7B)上複現   SPINSPIN 項目地址),並分析不同模型的性能提升邏輯。2. 探討 self-play 微調的性能上限,研究如何進一步改進算法,以及如何有效減少所需合成數據的數量。
Reference Paper: Self-Play Fine-Tuning Converts   Weak Language Models to Strong Language Models (ICML 2024,   https://arxiv.org/abs/2401.01335)
MLLM多視覺編碼器集成研究MLLM通常包括Vision EncoderVision ProjectorLLM三部分,其中視覺編碼器的視覺特征提取能力嚴重影響MLLM的最終性能。常見的視覺編碼器如CLIP采用大規模的圖像文本對進行對比預訓練,雖然其編碼的視覺特征與文本空間有較好對齊,但比較缺乏圖像細粒度信息感知能力。SAM在大規模圖像上進行語義分割訓練,具備像素級信息感知能力。依賴單一的視覺編碼器,由於各自的缺陷,可能限製MLLM對圖像的理解,已有論文證明可以通過組合多個視覺編碼器來增強MLLM的表現,如BRAVEEAGLEMouSiFrom   CLIP to DINO等。但這種模型集成的方式不夠簡潔優雅,計算開銷也比較大,可以研究如何在訓練階段將多個視覺編碼器蒸餾為一個強大的視覺編碼器,MLLM僅依賴該視覺編碼器來完成各項任務。
     基礎要求:
1. 對多模態大模型感興趣;2. Pytorchtransformers等框架有一定基礎;3. 有意願了解LLaVA等多模態大模型的架構;4. 有意願了解CLIPSAMDINOConvNext等常見的視覺編碼器及各自的特點。
     研究路線:
1. 采用不同的單一視覺編碼器,訓練不同版本的LLaVA作為Baseline2. 將多個視覺編碼器的能力蒸餾到一個基礎視覺編碼器中,可參考論文AM-RADIO3.   采用該蒸餾得到的視覺編碼訓練LLaVA4. 預期實驗結果:依賴蒸餾得到的視覺編碼器的MLLM優於依賴單一視覺編碼器的MLLM;依賴蒸餾得到的視覺編碼器的MLLM表現與直接使用多個視覺編碼器的表現可比。


Baidu
map