中文字幕在线成人aⅴ一区二区,国产精品影视久久久久,91乱码人妻精品一区二区三区,国产精品福利在线观看免费不卡,国产精品白丝av网站在线观看,国产一区欧美精品日韩人妻,国产二级一片内射视频播放

您當前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網站銷量,使用365webcall網站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報第一章的學習,如何利用統(tǒng)計模型進行分詞。

本方法考慮了3個維度:

凝聚程度:兩個字連續(xù)出現的概率并不是各自獨立的程度。例如“上”出現的概率是1×10^-5,”床”出現的概率是1×10^-10,如果這兩個字的凝聚程度低,則”上床”出現的概率應該和1×10^-15接近,但是事實上”上床”出現的概率在1×10^-11次方,遠高于各自獨立概率之積。所以我們可以認為“上床”是一個詞。

左鄰字聚合熵:分出的詞左邊一個字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個詞的信息量,同上。

下面是一個利用Python實現的demo(轉自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

海南省| 二手房| 朝阳区| 大埔县| 仪征市| 岗巴县| 阜康市| 克拉玛依市| 焦作市| 湘乡市| 德安县| 凌海市| 永嘉县| 焉耆| 嘉祥县| 聂荣县| 舟山市| 攀枝花市| 炉霍县| 仁怀市| 衡山县| 玛曲县| 长泰县| 延安市| 获嘉县| 乳源| 永昌县| 宁津县| 疏勒县| 丽水市| 河曲县| 商洛市| 许昌市| 汤阴县| 张家界市| 五台县| 东乡县| 调兵山市| 合山市| 柳林县| 固阳县|