📜  从字符串查找网站的唯一 ID 和域名(1)

📅  最后修改于: 2023-12-03 15:21:57.428000             🧑  作者: Mango

从字符串查找网站的唯一 ID 和域名

在我们的日常工作中,有时候需要从给定的字符串中查找出网站的唯一 ID 和域名。本文将从以下两个方面进行介绍:

  1. 什么是网站的唯一 ID 和域名;
  2. 如何从字符串中查找网站的唯一 ID 和域名。
网站的唯一 ID 和域名

在互联网中,每个网站都有一个唯一的 ID 和域名。

  • 唯一 ID:是网站的独特标识符,一般被称为网站的 UUID 或者 GUID。这个 ID 是由网站的创建者或者服务器生成的,用于唯一地识别该网站。一个 UUID 或者 GUID 通常由 32 个十六进制数或者 36 个字母数字混合组成。例如:9f86d081884c7d65
  • 域名:是网站的地址,用于在互联网上定位该网站。域名包含两个部分,分别是主域名和子域名。例如:www.baidu.comwww 是子域名,baidu.com 是主域名。
从字符串中查找网站的唯一 ID 和域名

在编写程序时,我们常常需要从字符串中查找出网站的唯一 ID 和域名。下面是两个例子:

例子一:从 URL 中查找唯一 ID 和域名

下面是一个 URL 的例子:https://www.example.com/path/to/page.html?id=12345。我们需要从中查找唯一 ID 和域名。

import re

url = 'https://www.example.com/path/to/page.html?id=12345'

# 正则表达式匹配
match = re.search(r'://www\.(.*?)\..*?/.*?id=(.*?)$', url)

# 输出结果
print(match.group(1))  # 输出网站的域名
print(match.group(2))  # 输出网站的唯一 ID

输出结果:

example
12345
例子二:从 HTML 页面中查找唯一 ID 和域名

下面是一个 HTML 页面的例子,我们需要从中查找唯一 ID 和域名:

<html>
<head>
    <title>Example Page</title>
</head>
<body>
    <div id="main" data-site-id="abcdefg">
        <h1>Welcome to Example Page!</h1>
    </div>
</body>
</html>

我们需要从中查找出网站的唯一 ID 和域名。

from bs4 import BeautifulSoup

html = """
<html>
<head>
    <title>Example Page</title>
</head>
<body>
    <div id="main" data-site-id="abcdefg">
        <h1>Welcome to Example Page!</h1>
    </div>
</body>
</html>
"""

# 解析 HTML 页面
soup = BeautifulSoup(html, 'html.parser')

# 获取网站的唯一 ID 和域名
site_id = soup.find('div', {'data-site-id': True})['data-site-id']
domain = soup.find('title').text.lower().split()[0]

# 输出结果
print(domain)    # 输出网站的域名
print(site_id)   # 输出网站的唯一 ID

输出结果:

example
abcdefg
总结

通过本文的介绍,我们了解了网站的唯一 ID 和域名的概念,并且学会了从字符串中查找网站的唯一 ID 和域名的方法。在实际的工作中,我们可以根据具体的需求进行调整和优化。