以下是一个简单的Python网络爬虫示例,用于采集网页中的联想词。请注意,由于网络爬虫可能涉及法律问题(如未授权的数据抓取),请在遵守目标网站`robots.txt`文件规定和法律法规的前提下使用。
此示例将使用`requests`库来发送HTTP请求,并使用`BeautifulSoup`库来解析HTML。如果你还没有安装这些库,可以使用pip安装:
pip install requests beautifulsoup4
示例代码(假设我们从一个简单的网页中提取联想词):
import requests
from bs4 import BeautifulSoup
def fetch_related_words(url):
# 发送HTTP GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code != 200:
return "Failed to fetch the page."
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 假设联想词被包含在某个特定的标签中,这里用.find_all()作为示例
# 你需要根据实际的HTML结构来修改选择器
related_words = soup.find_all('div', class_='related-words') # 假设类名为'related-words'
# 提取并返回联想词列表
words_list = []
for word_div in related_words:
# 这里假设每个联想词都在一个<a>标签内
words = word_div.find_all('a')
for word in words:
words_list.append(word.text.strip())
return words_list
# 示例URL(请替换为实际的URL)
url = 'http://example.com/related-words'
# 调用函数并打印结果
related_words = fetch_related_words(url)
print(related_words)
**注意**:
- 上述代码中的`url`变量需要替换为你想要抓取联想词的网页URL。
- `find_all`方法中的`'div', class_='related-words'`和内部的`'a'`标签选择器是示例,你需要根据目标网页的实际HTML结构进行修改。
- 联想词的具体提取方式(如从哪个标签、哪个属性中提取)完全取决于目标网页的布局和结构。
- 在实际使用中,你可能需要处理各种异常,如网络请求失败、HTML解析错误等。
- 遵守目标网站的`robots.txt`规定,尊重版权和隐私。