用正则查找html中有id属性的html标签


import re

# 示例HTML字符串
html_content = '<div id="header">Header</div><p>A paragraph</p><span id="footer">Footer</span>'

# 使用正则表达式查找具有id属性的HTML标签
pattern = r'<([a-zA-Z0-9]+).*?id="([^"]*)".*?>'
matches = re.findall(pattern, html_content)

# 输出找到的标签名和对应的id
for tag, id_value in matches:
    print(f"Tag: {tag}, ID: {id_value}")

这段代码使用了Python的正则表达式库`re`来查找HTML字符串中所有具有`id`属性的HTML标签。正则表达式`<([a-zA-Z0-9]+).*?id="([^"]*)".*?>`用于匹配以`<`开头，后面跟着一个或多个字母数字字符（作为标签名），然后可能包含任意字符（非贪婪匹配），直到遇到`id="`，然后是任意非引号字符（作为id值），最后以`">`结尾的模式。`re.findall()`函数返回所有匹配项的列表，每个匹配项都是一个元组，包含标签名和id值。