动态网页爬虫

Posted on 2020-04-17 | In python爬虫 |

字数统计: 2.1k字 | 阅读时长 ≈ 8分钟

动态网页爬虫

什么是AJAX：

AJAX（Asynchronouse JavaScript And XML）异步JavaScript和XML。过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

阅读全文 »

多线程爬虫

Posted on 2020-04-13 | In python爬虫 |

字数统计: 3k字 | 阅读时长 ≈ 13分钟

多线程爬虫

有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。

阅读全文 »

csv文件处理

Posted on 2020-04-11 | In python爬虫 |

字数统计: 277字 | 阅读时长 ≈ 1分钟

csv文件处理

读取csv文件：

import csv

with open('stock.csv','r') as fp:
    reader = csv.reader(fp)
    titles = next(reader)
    for x in reader:
        print(x)

阅读全文 »

json文件处理

Posted on 2020-04-10 | In python爬虫 |

字数统计: 489字 | 阅读时长 ≈ 1分钟

json文件处理

什么是json：

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。更多解释请见：https://baike.baidu.com/item/JSON/2462549?fr=aladdin

阅读全文 »

Scrapy-Redis组件介绍

Posted on 2022-06-15 | In python爬虫 |

字数统计: 528字 | 阅读时长 ≈ 1分钟

2-Scrapy-Redis组件介绍

阅读全文 »

MongoDB数据库

Posted on 2020-04-08 | In python爬虫 |

字数统计: 1.2k字 | 阅读时长 ≈ 5分钟

MongoDB数据库

介绍

官方文档：http://www.mongoing.com/docs/

文档

MongoDB是一个面向文档的数据库
举例：{“foo”:3, “greeting”:“Hello,world!”}
区分大小写，且key唯一，不可重复，文档可嵌套

阅读全文 »

MySQL数据库

Posted on 2020-04-08 | In python爬虫 |

字数统计: 603字 | 阅读时长 ≈ 2分钟

MySQL数据库

安装mysql：

在官网：https://dev.mysql.com/downloads/windows/installer/5.7.html
如果提示没有.NET Framework框架。那么就在提示框中找到下载链接，下载一个就可以了。
如果提示没有Microsoft Virtual C++ x64(x86)，那么百度或者谷歌这个软件安装即可。

阅读全文 »

excel文件处理

Posted on 2020-04-06 | In python爬虫 |

字数统计: 1.3k字 | 阅读时长 ≈ 5分钟

excel文件处理

安装环境

pandas依赖处理Excel的xlrd模块，所以我们需要提前安装这个，安装命令是：pip install xlrd
安装pandas模块还需要一定的编码环境，所以我们自己在安装的时候，确保你的电脑有这些环境：Net.4 、VC-Compiler以及winsdk_web，如果大家没有这些软件~可以咨询我们的辅导员索要相关安装工具。
步骤1和2 准备好了之后，我们就可以开始安装pandas了，安装命令是：pip install pandas

阅读全文 »

BeautifulSoup4库

Posted on 2020-04-04 | In python爬虫 |

字数统计: 1.8k字 | 阅读时长 ≈ 7分钟

BeautifulSoup4库

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。
lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM（Document Object Model）的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。
Beautiful Soup 3 目前已经停止开发，推荐现在的项目使用Beautiful Soup 4。

阅读全文 »

正则表达式和re模块

Posted on 2020-03-24 | In python爬虫 |

字数统计: 2.6k字 | 阅读时长 ≈ 11分钟

3-正则表达式和re模块

什么是正则表达式：

通俗理解：按照一定的规则，从某个字符串中匹配出想要的数据。这个规则就是正则表达式。
标准答案：https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin

一个段子：

世界是分为两种人，一种是懂正则表达式的，一种是不懂正则表达式的.

阅读全文 »