12月12日,由李安然,張蘭(老師),肖翔,李向陽(老師),謝筠庭等合作的文章《TODQA: Efficient Task-oriented Data Quality Assessment》被CCF C類國際會議 Mobile Ad-hoc and Sensor Networks (MSN 2019)評選為會議最佳論文。
該工作提出了一種高效的針對特定任務的大規模數據集質量評估方法。針對給定任務(例如:圖片分類,本文分類等),該方法可對數據集內在質量(正確性,一致性,完整性,時效性等)和麵向特定任務的上下文質量(任務相關性,數據多樣性等)進行評估,並返回綜合考慮各種質量結果的數據集排序。文章所提出的基於采樣的高效算法,在針對大規模數據集進行上下文質量評估時,在損失0.34%精度的情況下節省約90%的計算時間。該文章獲得評審意見一致高度評價,稱“本文提出了一個非常全麵的大規模數據集質量評估框架,這對機器學習和數據挖掘研究是一項基礎的重要貢獻(“This paper proposes a very comprehensive large-scale datasets quality assessment framework, which is a fundamental contribution to machine learning and data mining research.”) 。
該研究工作得到了國家重點研發計劃,國家自然科學基金,以及中央大學基礎研究基金的支持。