📅  最后修改于: 2023-12-03 15:06:32.703000             🧑  作者: Mango
本文介绍如何使用Python编程语言编写一个程序,从网页文本文件中提取电子邮件ID。这个程序可以用于大规模采集电子邮件地址的场景,例如在市场营销领域中。
在开始之前,我们需要安装Python的requests和re模块。
pip install requests
pip install re
程序主要分为三部分:
import re
import requests
def download_file(url):
"""下载文本文件"""
response = requests.get(url)
return response.text
def extract_email_ids(text):
"""在文本文件中查找电子邮件ID"""
pattern = r"\w+@[a-zA-Z]+\.[a-zA-Z]+"
email_ids = re.findall(pattern, text)
return list(set(email_ids))
def main(url):
"""主函数"""
text = download_file(url)
email_ids = extract_email_ids(text)
for email_id in email_ids:
print(email_id)
if __name__ == "__main__":
url = "https://www.example.com/mail.txt"
main(url)
email_extractor.py
。python email_extractor.py
命令。url
变量的值为目标网站对应的文本文件的URL。使用这个程序进行电子邮件地址采集时,要注意遵守相关的法律法规,不要采集敏感信息,例如个人隐私等。同时,还要注意不要对目标网站造成不良影响。