Python小白爬虫(二)

xiaoxiao2025-03-07  29

Python使用正则表达式获取想要的数据(案例)

上篇文章我们说了如果通过requests get 获取到我们的页面内容,不过页面的内容太多了,我们需要找到指定的内容就一定要通过其他的模块来获取,我们这篇文章主要就是写个正则表达式获取页面a标签的案例。这个 案例非常简单,

我们要使用requests模块就要用pip来安装: 不了解 requests可以参考案例 : https://blog.csdn.net/qq_36051316/article/details/83314826

python -m pip install requests

废话不多说了,上代码:

# -*- coding: UTF-8 -*- import requests # 导入requests包 import re # 导入re包,正则表达式使用 url = "https://www.csdn.net"; # 需要请求的网址 html_str = requests.get(url) # 发送Get请求 # html_str 就是 html里面的所有内容 htms = re.findall(r"<a.*?>.*?</a>", html_str.text) # 通过正则表达式 r"<a.*?>.*?</a>" 找到所有的数据并输出 for item in htms: print(item)

讲解: 还是获取我们官网的信息

url = "https://www.csdn.net"; # 需要请求的网址 html_str = requests.get(url) # 发送Get请求

正则表达式:

r"<a.*?>.*?</a>"

最后循环我们的数据

htms = re.findall(r"<a.*?>.*?</a>", html_str.text) # 通过正则表达式 r"<a.*?>.*?</a>" 找到所有的数据并输出 for item in htms: print(item)

结果的截图:(使用正则表达式获取a标签,并循环输出的结果)

转载请注明原文地址: https://www.6miu.com/read-5025718.html

最新回复(0)