Step1、取得GitHub程式
Step2、取得維基百科中文字庫(.bz2檔案)
Step3、安裝套件[gensim] Python3.6 模擬器 > 右鍵 > 安裝Python套件 >查詢[gensim]並下載
Step4、執行wiki_to_txt.py檔案 > Python3.6 模擬器 > 右鍵 >開啟命令提示字元> python wiki_to_txt.py xxxxxxxxxx.bz2 > 生成wiki_texts.txt檔案
Step5、下載OpenCC軟體 > 下載[opencc-1.0.1-win64.7z]
Step6、執行OpenCC軟體轉繁體中文 > 開啟 opencc.exe > 執行語法 > 生成wiki_zh_tw.txt檔案
執行語法:opencc -i wiki_texts.txt -o wiki_zh_tw.txt -c s2tw.json
Step7、執行segment.py > 生成wiki_seg.txt檔案
Step8、執行train.py檔案 > 生成word2vec.model檔案
訓練可調整參數
class gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)
沒有留言:
張貼留言