📜  从 URL 文本文件中提取电子邮件 ID 的Python程序(1)

📅  最后修改于: 2023-12-03 15:06:32.703000             🧑  作者: Mango

从 URL 文本文件中提取电子邮件 ID 的Python程序

本文介绍如何使用Python编程语言编写一个程序,从网页文本文件中提取电子邮件ID。这个程序可以用于大规模采集电子邮件地址的场景,例如在市场营销领域中。

依赖

在开始之前,我们需要安装Python的requests和re模块。

pip install requests
pip install re
程序设计

程序主要分为三部分:

  1. 下载文本文件
  2. 在文本文件中查找电子邮件ID
  3. 输出结果
import re
import requests


def download_file(url):
    """下载文本文件"""
    response = requests.get(url)
    return response.text


def extract_email_ids(text):
    """在文本文件中查找电子邮件ID"""
    pattern = r"\w+@[a-zA-Z]+\.[a-zA-Z]+"
    email_ids = re.findall(pattern, text)
    return list(set(email_ids))


def main(url):
    """主函数"""
    text = download_file(url)
    email_ids = extract_email_ids(text)
    for email_id in email_ids:
        print(email_id)


if __name__ == "__main__":
    url = "https://www.example.com/mail.txt"
    main(url)
使用
  1. 将上面的代码复制到文件中,例如email_extractor.py
  2. 在终端中运行python email_extractor.py命令。
  3. 替换url变量的值为目标网站对应的文本文件的URL。
注意事项

使用这个程序进行电子邮件地址采集时,要注意遵守相关的法律法规,不要采集敏感信息,例如个人隐私等。同时,还要注意不要对目标网站造成不良影响。