philxling

Sometimes,Nowhere means "Now""Here"


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

动态网页爬虫

Posted on 2020-04-17 | In python爬虫 |
字数统计: 2.1k字 | 阅读时长 ≈ 8分钟

动态网页爬虫

什么是AJAX:

AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。

阅读全文 »

多线程爬虫

Posted on 2020-04-13 | In python爬虫 |
字数统计: 3k字 | 阅读时长 ≈ 13分钟

多线程爬虫

有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。

阅读全文 »

csv文件处理

Posted on 2020-04-11 | In python爬虫 |
字数统计: 277字 | 阅读时长 ≈ 1分钟

csv文件处理

读取csv文件:

1
2
3
4
5
6
7
import csv

with open('stock.csv','r') as fp:
reader = csv.reader(fp)
titles = next(reader)
for x in reader:
print(x)
阅读全文 »

json文件处理

Posted on 2020-04-10 | In python爬虫 |
字数统计: 489字 | 阅读时长 ≈ 1分钟

json文件处理

什么是json:

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请见:https://baike.baidu.com/item/JSON/2462549?fr=aladdin

阅读全文 »

Scrapy-Redis组件介绍

Posted on 2022-06-15 | In python爬虫 |
字数统计: 528字 | 阅读时长 ≈ 1分钟

2-Scrapy-Redis组件介绍

阅读全文 »

MongoDB数据库

Posted on 2020-04-08 | In python爬虫 |
字数统计: 1.2k字 | 阅读时长 ≈ 5分钟

MongoDB数据库

介绍

官方文档:http://www.mongoing.com/docs/

文档

MongoDB是一个面向文档的数据库
举例:{“foo”:3, “greeting”:“Hello,world!”}
区分大小写,且key唯一,不可重复,文档可嵌套

阅读全文 »

MySQL数据库

Posted on 2020-04-08 | In python爬虫 |
字数统计: 603字 | 阅读时长 ≈ 2分钟

MySQL数据库

安装mysql:

  1. 在官网:https://dev.mysql.com/downloads/windows/installer/5.7.html
  2. 如果提示没有.NET Framework框架。那么就在提示框中找到下载链接,下载一个就可以了。
  3. 如果提示没有Microsoft Virtual C++ x64(x86),那么百度或者谷歌这个软件安装即可。
阅读全文 »

excel文件处理

Posted on 2020-04-06 | In python爬虫 |
字数统计: 1.3k字 | 阅读时长 ≈ 5分钟

excel文件处理

安装环境

  1. pandas依赖处理Excel的xlrd模块,所以我们需要提前安装这个,安装命令是:pip install xlrd
  2. 安装pandas模块还需要一定的编码环境,所以我们自己在安装的时候,确保你的电脑有这些环境:Net.4 、VC-Compiler以及winsdk_web,如果大家没有这些软件~可以咨询我们的辅导员索要相关安装工具。
  3. 步骤1和2 准备好了之后,我们就可以开始安装pandas了,安装命令是:pip install pandas
阅读全文 »

BeautifulSoup4库

Posted on 2020-04-04 | In python爬虫 |
字数统计: 1.8k字 | 阅读时长 ≈ 7分钟

BeautifulSoup4库

和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。
Beautiful Soup 3 目前已经停止开发,推荐现在的项目使用Beautiful Soup 4。

阅读全文 »

正则表达式和re模块

Posted on 2020-03-24 | In python爬虫 |
字数统计: 2.6k字 | 阅读时长 ≈ 11分钟

3-正则表达式和re模块

什么是正则表达式:

通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。
标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin

一个段子:

世界是分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的.

阅读全文 »
<123…5>

philxling

代码改变世界

45 日志
11 分类
16 标签
RSS
GitHub E-Mail cnblog
© 2023 philxling
博客全站共89.9k字
本站访客数 人 本站总访问量 次
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4
载入天数...载入时分秒...
0%