投稿    登录
  《Python3网络爬虫开发实战》赠书活动正在进行中!详情请戳赠书活动!欢迎参与!非常感谢!

崔庆才的文章

http://cv.cuiqingcai.com
Python

[Python3网络爬虫开发实战] 5.1.3-CSV文件存储

[Python3网络爬虫开发实战] 5.1.3-CSV文件存储
CSV,全称为Comma-Separated Values,中文可以叫作逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据。该文件是一个字符序列,可以由任意数目的记录组成,记录间以某种换行符分隔。每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。不...

12个月前 (01-29) 8526浏览 14评论 22喜欢

Python

[Python3网络爬虫开发实战] 5.1.2-JSON文件存储

[Python3网络爬虫开发实战] 5.1.2-JSON文件存储
JSON,全称为JavaScript Object Notation, 也就是JavaScript对象标记,它通过对象和数组的组合来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式。本节中,我们就来了解如何利用Python保存数据到JSON文件。 1. 对象和数...

12个月前 (01-29) 7482浏览 143评论 32喜欢

Python

[Python3网络爬虫开发实战] 5.1.1-TXT文本存储

[Python3网络爬虫开发实战] 5.1.1-TXT文本存储
将数据保存到TXT文本的操作非常简单,而且TXT文本几乎兼容任何平台,但是这有个缺点,那就是不利于检索。所以如果对检索和数据结构要求不高,追求方便第一的话,可以采用TXT文本存储。本节中,我们就来看下如何利用Python保存TXT文本文件。 1. 本节目标 本节中,我们要保存知乎...

12个月前 (01-29) 8904浏览 138评论 33喜欢

Python

[Python3网络爬虫开发实战] 5.1-文件存储

[Python3网络爬虫开发实战] 5.1-文件存储
文件存储形式多种多样,比如可以保存成TXT纯文本形式,也可以保存为JSON格式、CSV格式等,本节就来了解一下文本文件的存储方式。 转载请注明:静觅 » [Python3网络爬虫开发实战] 5.1-文件存储...

12个月前 (01-29) 5401浏览 0评论 13喜欢

Python

[Python3网络爬虫开发实战] 5-数据存储

[Python3网络爬虫开发实战] 5-数据存储
用解析器解析出数据之后,接下来就是存储数据了。保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如TXT、JSON、CSV等。另外,还可以保存到数据库中,如关系型数据库MySQL,非关系型数据库MongoDB、Redis等。 转载请注明:静觅 » [Pytho...

12个月前 (01-29) 4646浏览 0评论 12喜欢

Python

[Python3网络爬虫开发实战] 4.3-使用pyquery

[Python3网络爬虫开发实战] 4.3-使用pyquery
在上一节中,我们介绍了Beautiful Soup的用法,它是一个非常强大的网页解析库,你是否觉得它的一些方法用起来有点不适应?有没有觉得它的CSS选择器的功能没有那么强大? 如果你对Web有所涉及,如果你比较喜欢用CSS选择器,如果你对jQuery有所了解,那么这里有一个更适合...

12个月前 (01-28) 12999浏览 160评论 32喜欢

Python

[Python3网络爬虫开发实战] 4.2-使用Beautiful Soup

[Python3网络爬虫开发实战] 4.2-使用Beautiful Soup
前面介绍了正则表达式的相关用法,但是一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了。而且对于一个网页来说,都有一定的特殊结构和层级关系,而且很多节点都有id或class来作区分,所以借助它们的结构和属性来提取不也可以吗? 这一节中,我们就来介绍一个强大的解析工具Bea...

12个月前 (01-28) 18463浏览 1评论 49喜欢

Python

[Python3网络爬虫开发实战] 4.1-使用XPath

[Python3网络爬虫开发实战] 4.1-使用XPath
XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。 所以在做爬虫时,我们完全可以使用XPath来做相应的信息抽取。本节中,我们就来介绍XPath的基本用法。...

12个月前 (01-28) 15372浏览 3评论 30喜欢

Python

[Python3网络爬虫开发实战] 4-解析库的使用

[Python3网络爬虫开发实战] 4-解析库的使用
上一章中,我们实现了一个最基本的爬虫,但提取页面信息时使用的是正则表达式,这还是比较烦琐,而且万一有地方写错了,可能导致匹配失败,所以使用正则表达式提取页面信息多多少少还是有些不方便。 对于网页的节点来说,它可以定义id、class或其他属性。而且节点之间还有层次关系,在网页中可...

12个月前 (01-28) 5782浏览 0评论 17喜欢

Python

[Python3网络爬虫开发实战] 3.4-抓取猫眼电影排行

[Python3网络爬虫开发实战] 3.4-抓取猫眼电影排行
本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为解析工具。 1. 本节目标 本节中,我们要提取出猫眼电影TOP100的电影名称、...

12个月前 (01-27) 19932浏览 4评论 45喜欢