📅  最后修改于: 2023-12-03 15:21:57.428000             🧑  作者: Mango
在我们的日常工作中,有时候需要从给定的字符串中查找出网站的唯一 ID 和域名。本文将从以下两个方面进行介绍:
在互联网中,每个网站都有一个唯一的 ID 和域名。
9f86d081884c7d65
。www.baidu.com
,www
是子域名,baidu.com
是主域名。在编写程序时,我们常常需要从字符串中查找出网站的唯一 ID 和域名。下面是两个例子:
下面是一个 URL 的例子:https://www.example.com/path/to/page.html?id=12345
。我们需要从中查找唯一 ID 和域名。
import re
url = 'https://www.example.com/path/to/page.html?id=12345'
# 正则表达式匹配
match = re.search(r'://www\.(.*?)\..*?/.*?id=(.*?)$', url)
# 输出结果
print(match.group(1)) # 输出网站的域名
print(match.group(2)) # 输出网站的唯一 ID
输出结果:
example
12345
下面是一个 HTML 页面的例子,我们需要从中查找唯一 ID 和域名:
<html>
<head>
<title>Example Page</title>
</head>
<body>
<div id="main" data-site-id="abcdefg">
<h1>Welcome to Example Page!</h1>
</div>
</body>
</html>
我们需要从中查找出网站的唯一 ID 和域名。
from bs4 import BeautifulSoup
html = """
<html>
<head>
<title>Example Page</title>
</head>
<body>
<div id="main" data-site-id="abcdefg">
<h1>Welcome to Example Page!</h1>
</div>
</body>
</html>
"""
# 解析 HTML 页面
soup = BeautifulSoup(html, 'html.parser')
# 获取网站的唯一 ID 和域名
site_id = soup.find('div', {'data-site-id': True})['data-site-id']
domain = soup.find('title').text.lower().split()[0]
# 输出结果
print(domain) # 输出网站的域名
print(site_id) # 输出网站的唯一 ID
输出结果:
example
abcdefg
通过本文的介绍,我们了解了网站的唯一 ID 和域名的概念,并且学会了从字符串中查找网站的唯一 ID 和域名的方法。在实际的工作中,我们可以根据具体的需求进行调整和优化。