wenxue

通过机器学习分析《金瓶梅》,《红楼梦》,《三国演义》,《水浒》。。。

View the Project on GitHub

分析《金瓶梅》

所用到的库,jieba,gensim,用的版本是网上下载的无删节“崇祯本”,好像也不全,比如武大郎死后做法事时候的一段这个版本就没有:

难点

主要还是分词,jieba是通用性的,对于古汉语(虽然还算是白话文)没有针对性,所以缺省下效果很不好。增加分词准确性主要通过:

结果

后续

未完待续