近日,重慶研究院大數(shù)據(jù)挖掘及應(yīng)用中心團(tuán)隊(duì)在挖掘推薦系統(tǒng)的信息核方面取得進(jìn)展,該研究成果在保證推薦功能的前提下對(duì)推薦網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)壓縮,為推薦算法處理大規(guī)模數(shù)據(jù)集提供了新思路。
個(gè)性化推薦技術(shù),在理論層面和應(yīng)用層面都具有十分重要的意義。一方面,個(gè)性化推薦可以看作是稀疏矩陣的完備問(wèn)題,另一方面,個(gè)性化推薦已經(jīng)成為在線網(wǎng)站的核心技術(shù),取得了巨大的經(jīng)濟(jì)和社會(huì)效益,切實(shí)改善了人們的工作和生活。
在線系統(tǒng)中,推薦系統(tǒng)要做的就是分析用戶的上網(wǎng)行為,主動(dòng)為用戶推薦可能感興趣的對(duì)象,比如新聞、商品、好友、音樂(lè)等。到目前為止,大多數(shù)的工作主要研究如何提高推薦算法的性能,例如推薦系統(tǒng)的準(zhǔn)確性、多樣性和效率等,只有極少量的工作試圖研究推薦系統(tǒng)的工作原理,以及推薦算法有效的原因。
一般地,推薦系統(tǒng)可以簡(jiǎn)化為一個(gè)用戶—商品的二部分圖。近年來(lái),蓬勃發(fā)展的復(fù)雜網(wǎng)絡(luò)研究為推薦系統(tǒng)研究提供了新的理論和方法,基于網(wǎng)絡(luò)的推薦系統(tǒng)逐漸成為一個(gè)重要的分支,在理論和應(yīng)用中都取得了很好的成果。另一方面,復(fù)雜網(wǎng)絡(luò)的發(fā)展也為研究人員更深刻地理解推薦系統(tǒng)提供了有力的工具。其中,對(duì)給定數(shù)據(jù)集,如何在眾多推薦算法中找到合適的推薦算法是一個(gè)相當(dāng)重要而又非常困難的問(wèn)題。針對(duì)上述問(wèn)題,中科院重慶研究院大數(shù)據(jù)中心尚明生研究員及其研究團(tuán)隊(duì)提出并研究了推薦算法和數(shù)據(jù)集的特征關(guān)聯(lián)問(wèn)題,提出一種使得通過(guò)事先分析數(shù)據(jù)集的特征就能找到適合該數(shù)據(jù)集的推薦算法[1]。
同時(shí),該研究團(tuán)隊(duì)進(jìn)一步提出并研究了推薦系統(tǒng)的數(shù)據(jù)壓縮問(wèn)題,通過(guò)提取用戶—商品二部分網(wǎng)絡(luò)的信息核[2]或者信息骨架[3],大幅提升推薦算法的計(jì)算效率。信息核定義為推薦系統(tǒng)中小部分核心用戶,這些用戶攜帶了大量的信息。研究表明,當(dāng)推薦算法只考慮信息核的信息時(shí),算法有時(shí)候比用所有信息得到的推薦精確度還要高;最差的情況下,也能達(dá)到91.4%的精確性。但該算法只考慮了一些簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu),比如網(wǎng)絡(luò)中的四邊形。
為了彌補(bǔ)現(xiàn)有方法的不足,該研究團(tuán)隊(duì)提出基于用戶和商品鄰居節(jié)點(diǎn)的信息,提取用戶—商品二部分網(wǎng)絡(luò)的信息骨架[4]。測(cè)試結(jié)果表明,該方法要明顯好于現(xiàn)有的信息骨架提取方法。進(jìn)一步深入分析所提取的信息骨架的結(jié)構(gòu)特征,發(fā)現(xiàn)該方法提取的信息骨架具有較高的聚集系數(shù),這從一定程度上揭示了該算法優(yōu)于現(xiàn)有算法的原因。以上研究已獲得國(guó)家自然科學(xué)基金項(xiàng)目支持。