投稿    登录
欢迎来访~

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)

Python 哎哟卧槽 8533浏览 1评论

扫码或搜索:进击的Coder

发送

即可立即永久解锁本站全部文章

基本步骤:

1、训练素材分类:

我是参考官方的目录结构:

每个目录中放对应的文本,一个txt文件一篇对应的文章:就像下面这样

需要注意的是所有素材比例请保持在相同的比例(根据训练结果酌情调整、不可比例过于悬殊、容易造成过拟合(通俗点就是大部分文章都给你分到素材最多的那个类别去了))

废话不多说直接上代码吧(测试代码的丑得一逼;将就着看看吧)

需要一个小工具: pip install chinese-tokenizer

这是训练器:

下面是是使用训练好的分类器分类文章:

需要分类的文章放在predict_data目录中:照样是一篇文章一个txt文件

 

这个样子将训练好的分类器在新的程序中使用时候 就不报错: ValueError dimension mismatch··

 

这儿有个demo 仅供参考:GitHub地址

转载请注明:静觅 » 记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)

更多文章、联系博主、技术交流、商务合作

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

喜欢 (23)or分享 (0)

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(1)个小伙伴在吐槽
  1. 不看了,文章全都只有一半
    hehe2019-08-27 09:27 回复