中文分詞(Chinese Word Segmentation),將中文語句切割成單獨的詞組。英文使用空格來分開每個單詞的,而中文單獨一個漢字跟詞有時候完全不是同個含義,因此,中文分詞相比英文分詞難度高很多。
成都創(chuàng)新互聯(lián)主要為客戶提供服務(wù)項目涵蓋了網(wǎng)頁視覺設(shè)計、VI標志設(shè)計、成都全網(wǎng)營銷、網(wǎng)站程序開發(fā)、HTML5響應(yīng)式網(wǎng)站建設(shè)、成都手機網(wǎng)站制作、微商城、網(wǎng)站托管及成都網(wǎng)站維護、WEB系統(tǒng)開發(fā)、域名注冊、國內(nèi)外服務(wù)器租用、視頻、平面設(shè)計、SEO優(yōu)化排名。設(shè)計、前端、后端三個建站步驟的完善服務(wù)體系。一人跟蹤測試的建站服務(wù)標準。已經(jīng)為房屋鑒定行業(yè)客戶提供了網(wǎng)站改版服務(wù)。分詞主要用于NLP 自然語言處理(Natural Language Processing),使用場景有:
Python的中文分詞庫有很多,常見的有:
通常前三個是比較經(jīng)常見到的,主要在易用性/準確率/性能都還不錯。我個人常用的一直都是結(jié)巴分詞(比較早接觸),最近使用pkuseg,兩者的使用后面詳細講。
結(jié)巴分詞 簡介“結(jié)巴”中文分詞:做最好的 Python 中文分詞組件
jieba分詞實例
我們使用京東商場的美的電器評論來看看結(jié)巴分詞的效果。如果你沒有安裝結(jié)巴分詞庫則需要在命令行下輸入pip install jieba,安裝完之后即可開始分詞之旅。
評論數(shù)據(jù)整理在文件meidi_jd.csv文件中,讀取數(shù)據(jù)前先導(dǎo)入相關(guān)庫。因為中文的文本或文件的編碼方式不同編碼選擇gb18030,有時候是utf-8、gb2312、gbk自行測試。
# 導(dǎo)入相關(guān)庫 import pandas as pd import jieba # 讀取數(shù)據(jù) data = pd.read_csv('meidi_jd.csv', encoding='gb18030') # 查看數(shù)據(jù) data.head()
分享文章:Python中文分詞庫jieba,pkusegwg性能準確度比較-創(chuàng)新互聯(lián)
標題鏈接:http://newbst.com/article48/dggsep.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計、外貿(mào)網(wǎng)站建設(shè)、搜索引擎優(yōu)化、網(wǎng)站維護、網(wǎng)站制作、定制網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)