Waybackurls – 获取 Wayback Machine 知道的域的所有 URL
安全测试中的网络爬行是一个重要方面,因为这是使用自动脚本或爬行程序对网页上的数据进行索引的过程。这些脚本和爬虫程序被称为网络爬虫、蜘蛛、蜘蛛机器人和爬虫。 Waybackurls 也是一个基于 Golang 的脚本或工具,用于在 stdin 上抓取域,从 Wayback Machines 获取已知 URL,也称为 *.targetdomain 的档案并将它们输出到 stdout。
注意:由于 Waybackurls 是一个基于 Golang 语言的工具,所以你的系统上需要有一个 Golang 环境。因此,请查看此链接以在您的系统中安装 Golang – 如何在 Linux 中安装 Go 编程语言
在 Kali Linux 机器上安装 Waybackurls 工具
第一步:如果您的系统中已经下载了Golang,请通过检查Golang的版本来验证安装,使用以下命令。
go version
第二步:通过Go工具获取Waybackurls工具,使用如下命令。
sudo go get github.com/tomnomnom/waybackurls
第 3 步:查看帮助菜单页面以更好地了解该工具,使用以下命令。
waybackurls -h
使用 Waybackurls 工具
示例 1:简单扫描
waybackurls geeksforgeeks.org
- 现在如下图所示,我们已经输入了从目标 geeksforgeeks.org 收集所有可能的waybackurl的命令,该工具将收集所有的 URL 并将它们输出到终端本身。
- 现在如下图所示,我们成功地从我们的目标域(即 geekforgeeks.org)收集了所有可能的 Wayback URL。几乎每个 URL 都由 WaybackURL 工具收集。
示例 2:使用 –no-subs 标签
echo "geeksforgeeks.org" | waybackurls -no-subs
- 在这个例子中,我们的目标是 geeksforgeeks.org 并且我们提供了 -no-subs 标签,在这个标签中,URL 将仅通过主域获取。抓取 URL 时不考虑子域。
- 在下面的截图中,你可以看到 waybackurls 工具已经获取了一些 URL,但有趣的是它只获取了与主域相关的 URL,在抓取时不考虑子域。
示例 3:使用 -dates 标签
echo "geeksforgeeks.org" | waybackurls -dates
- 在这个例子中,我们的目标是 geeksforgeeks.org,我们使用 -dates 标签来获取第一列中的日期。它显示获取该特定 URL 的日期。
- 在下面的屏幕截图中,您可以看到我们在第一列中获得了日期,该列指出了回退机器中特定 URL 的确切获取日期。例如 https://www.geeksforgeeks.org/find-subarray-with-given-sum/ref=leftbar-rightbar ,这个链接是在 2020-09-30 获取的,同时也提到了这个时间22:51:11。
示例 4:使用 -get-versions 标签
echo "geeksforgeeks.org" | waybackurls -get-versions
- 在这个例子中,我们正在重新获取帮助我们获得这些结果或抓取的 URL 的 URL。 -get-versions 标签用于获取 URL。
- 在下面的屏幕截图中,您可以看到除了 geeksforgeeks.org 的已抓取 URL 之外,我们还获得了一些额外的 URL,这些 URL 指定了 geeksforgeeks.org URL 的抓取来源。例子。 https://www.geeksforgeeks.org/ URL 由 https://web.archive.org/web/20210715090226if_ 获取。这可以帮助你直接转到源 URL 可以探索更多关于 geeksforgeeks.org 的爬取 URL。