Python小白爬虫(二)

xiaoxiao2025-03-07 29

Python使用正则表达式获取想要的数据（案例）

上篇文章我们说了如果通过requests get 获取到我们的页面内容，不过页面的内容太多了，我们需要找到指定的内容就一定要通过其他的模块来获取，我们这篇文章主要就是写个正则表达式获取页面a标签的案例。这个案例非常简单，

我们要使用requests模块就要用pip来安装：不了解 requests可以参考案例： https://blog.csdn.net/qq_36051316/article/details/83314826

python -m pip install requests

废话不多说了，上代码：

# -*- coding: UTF-8 -*- import requests # 导入requests包 import re # 导入re包，正则表达式使用 url = "https://www.csdn.net"; # 需要请求的网址 html_str = requests.get(url) # 发送Get请求 # html_str 就是 html里面的所有内容 htms = re.findall(r"<a.*?>.*?</a>", html_str.text) # 通过正则表达式 r"<a.*?>.*?</a>" 找到所有的数据并输出 for item in htms: print(item)

讲解：还是获取我们官网的信息

url = "https://www.csdn.net"; # 需要请求的网址 html_str = requests.get(url) # 发送Get请求

正则表达式：

r"<a.*?>.*?</a>"

最后循环我们的数据

htms = re.findall(r"<a.*?>.*?</a>", html_str.text) # 通过正则表达式 r"<a.*?>.*?</a>" 找到所有的数据并输出 for item in htms: print(item)

结果的截图：（使用正则表达式获取a标签，并循环输出的结果）

转载请注明原文地址: https://www.6miu.com/read-5025718.html

Java

最新回复(0)