投稿    登录
欢迎来访~

记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)

Python 哎哟卧槽 6964浏览 2评论

基本步骤:

1、训练素材分类:

我是参考官方的目录结构:

每个目录中放对应的文本,一个txt文件一篇对应的文章:就像下面这样

需要注意的是所有素材比例请保持在相同的比例(根据训练结果酌情调整、不可比例过于悬殊、容易造成过拟合(通俗点就是大部分文章都给你分到素材最多的那个类别去了))

废话不多说直接上代码吧(测试代码的丑得一逼;将就着看看吧)

需要一个小工具: pip install chinese-tokenizer

这是训练器:

下面是是使用训练好的分类器分类文章:

需要分类的文章放在predict_data目录中:照样是一篇文章一个txt文件

 

这个样子将训练好的分类器在新的程序中使用时候 就不报错: ValueError dimension mismatch··

 

这儿有个demo 仅供参考:GitHub地址

转载请注明:静觅 » 记scikit-learn贝叶斯文本分类的坑(弄了个笨办法解决了,有其它办法的小哥儿请指点)

喜欢 (22)or分享 (0)

我的个人微信公众号,联系我请直接在公众号留言即可~

扫码或搜索:进击的Coder

进击的Coder

微信公众号 扫一扫关注

想结交更多的朋友吗?

来进击的Coder瞧瞧吧

进击的Coder

QQ群号 99350970 立即加入

进击的Coder灌水太多?

这里是纯粹的技术领地

激进的Coder

QQ群号 627725766 立即加入

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址