午夜大片爽爽爽免费影院丨色综合色综合久久综合频道88丨日韩人妻无码中文字幕视频丨一本无码久本草在线中文字幕dvd丨国产午夜亚洲精品国产成人

什么是文本的粒度?我們用什么來衡量文本粒度?

2012/5/5 15:19:57   閱讀:4694    發布者:4694

一般而言,大型搜索引擎的索引都采用分布式系統。不同文本的索引,被某種hash算法“分配”到了某臺機器。理論上講,索引的數量的增長,只會造成所需機器的增長,而對整體系統性能的消耗影響比較小。所以一般搜索引擎會從性價比的角度來考慮索引數量與機器數量的折衷,也就是召回與硬件投入的折衷。粒度分析對于折衷的性價比也有一定的貢獻,在粒度層次里,當粒度逐漸變小的過程中,我們并不一定對所有小粒度詞都建索引,而是選擇“更有可能召回相關結果”的小粒度詞。詞匯的什么性質決定了“更有可能召回相關結果”?

傳統的搜索引擎的定義,是指一種對于指定的查詢(Query),能夠返回與之相關的文檔集合(Documents)的系統。而百度將這個定義更加豐富化,即搜索引擎能夠幫助人們更方便的找到所求。這里的“所求”,比“文檔”更加寬泛和豐富,比如一個關于天氣的查詢,直接返回一個天氣預報的窗口,而非一篇關于天氣的文檔;再如一個關于小游戲的查詢,直接返回這個小游戲的Flash頁面而非簡單的介紹性的文字。

百度對Query深刻的理解,源于自然語言處理技術在其中發揮的巨大作用。對搜索引擎而言,文本切分是最基礎也是最重要的自然語言問題之一。今天,我們就來談談文本切分粒度與搜索引擎的關系。

什么是文本的粒度?我們用什么來衡量文本粒度?專名是一類比較特殊的詞,盡管所含字數很多,但其實只表達一個意思,如“步步驚心”,“家的n次方”這樣的電影、電視劇的名稱,粒度是很小的。機構名、人名等屬于有內部結構的專名,比電影名的粒度稍大一些。

一般我們采用倒排索引的方式來實現這個系統。所謂倒排索引,就是對關鍵字建立索引,記錄包含這個關鍵字的文檔集合D。對于請求的關鍵字集合,找出所有關鍵字對應的索引,并對索引求交,最后返回同時存在于所有索引中的文檔。

在百度,我們不僅允許用戶輸入關鍵字,也可以輸入任何長度在一定范圍內的文本。此時我們需要對文本做一定處理,切分成一系列關鍵字,從而能夠從倒排索引中找出對應的文檔。

既然粒度是衡量文本所含信息量的大小,那么緊密度就是描述文本所含信息緊密程度的量。再說的通俗一些,緊密度就是信息被人們表達和接受的穩定程度。穩定有兩種解釋,第一,穩定是相對于臨時而言的。一般來說,如果信息是因為某些因素臨時組合在一起,那就是不穩定的,即不緊密。比如許多動賓結構的短語(“過馬路”,“踢足球”),定中結構的短語(“紅蘋果”,“豪華轎車”)。第二,穩定是相對于順序不固定而言的。如果同樣一個信息,內部的子信息順序可以互換,那么這個詞匯就不穩定,即不緊密。比如一些大粒度的詞匯“鼠標護腕墊”、“護腕鼠標墊”。

主站蜘蛛池模板: 两个人看的www在线观看| 国产亚洲欧美在线观看| 亚洲色爱免费观看视频| 曰的好深好爽免费视频网站| 国产精品线路一线路二| 污污污污污污www网站免费| 国产精品麻豆欧美日韩ww| 亚洲 日韩 欧美 有码 在线| 国内精品人妻无码久久久影院蜜桃 | 亚洲精品无码专区在线播放| 亚洲熟妇av欧差aa片爽| 国产精品一卡二卡三卡破解版| 97色精品视频在线观看 | 国产a三级久久精品| 又粗又黄又硬又爽的免费视频| 九九九国产精品成人免费视频| 国产成年无码久久久久下载| 精品午夜中文字幕熟女人妻在线| 国产高清在线a免费视频观看| 欧美巨大巨粗黑人性aaaaaa| 在线无码免费网站永久| 在线 亚洲 国产 欧美| 亚洲中文字幕在线乱码| 亚洲人成电影网站色迅雷| 无套内内射视频网站| 日韩一区国产二区欧美三区| 久久99精品网久久| 九九99re热线精品视频| 亚洲伊人色欲综合网无码中文| 精品一区二区成人精品| 色喜国模李晴超大尺度| 天天做天天爱夭大综合网| 强伦姧人妻三上悠亚中文字幕| 高清一区二区三区免费视频| 亚洲精品色情app在线下载观看| 国产伦精品免编号公布| 国产基佬gv在线观看网站| 亚洲色偷偷av男人的天堂| 久久精品国产99国产精品导航| 久久天天躁狠狠躁夜夜躁2o2o| 国产精品人成视频免费播放|