Waybackurls – 获取 Wayback Machine 知道的域的所有 URL

安全测试中的网络爬行是一个重要方面，因为这是使用自动脚本或爬行程序对网页上的数据进行索引的过程。这些脚本和爬虫程序被称为网络爬虫、蜘蛛、蜘蛛机器人和爬虫。 Waybackurls 也是一个基于 Golang 的脚本或工具，用于在 stdin 上抓取域，从 Wayback Machines 获取已知 URL，也称为 *.targetdomain 的档案并将它们输出到 stdout。

注意：由于 Waybackurls 是一个基于 Golang 语言的工具，所以你的系统上需要有一个 Golang 环境。因此，请查看此链接以在您的系统中安装 Golang – 如何在 Linux 中安装 Go 编程语言

在 Kali Linux 机器上安装 Waybackurls 工具

第一步：如果您的系统中已经下载了Golang，请通过检查Golang的版本来验证安装，使用以下命令。

go version

第二步：通过Go工具获取Waybackurls工具，使用如下命令。

sudo go get github.com/tomnomnom/waybackurls

第 3 步：查看帮助菜单页面以更好地了解该工具，使用以下命令。

waybackurls -h

使用 Waybackurls 工具

示例 1：简单扫描

waybackurls geeksforgeeks.org

现在如下图所示，我们已经输入了从目标 geeksforgeeks.org 收集所有可能的waybackurl的命令，该工具将收集所有的 URL 并将它们输出到终端本身。

现在如下图所示，我们成功地从我们的目标域（即 geekforgeeks.org）收集了所有可能的 Wayback URL。几乎每个 URL 都由 WaybackURL 工具收集。

示例 2：使用 –no-subs 标签

echo "geeksforgeeks.org" | waybackurls -no-subs

在这个例子中，我们的目标是 geeksforgeeks.org 并且我们提供了 -no-subs 标签，在这个标签中，URL 将仅通过主域获取。抓取 URL 时不考虑子域。

在下面的截图中，你可以看到 waybackurls 工具已经获取了一些 URL，但有趣的是它只获取了与主域相关的 URL，在抓取时不考虑子域。

示例 3：使用 -dates 标签

echo "geeksforgeeks.org" | waybackurls -dates

在这个例子中，我们的目标是 geeksforgeeks.org，我们使用 -dates 标签来获取第一列中的日期。它显示获取该特定 URL 的日期。

在下面的屏幕截图中，您可以看到我们在第一列中获得了日期，该列指出了回退机器中特定 URL 的确切获取日期。例如 https://www.geeksforgeeks.org/find-subarray-with-given-sum/ref=leftbar-rightbar ，这个链接是在 2020-09-30 获取的，同时也提到了这个时间22:51:11。

示例 4：使用 -get-versions 标签

echo "geeksforgeeks.org" | waybackurls -get-versions

在这个例子中，我们正在重新获取帮助我们获得这些结果或抓取的 URL 的 URL。 -get-versions 标签用于获取 URL。

在下面的屏幕截图中，您可以看到除了 geeksforgeeks.org 的已抓取 URL 之外，我们还获得了一些额外的 URL，这些 URL 指定了 geeksforgeeks.org URL 的抓取来源。例子。 https://www.geeksforgeeks.org/ URL 由 https://web.archive.org/web/20210715090226if_ 获取。这可以帮助你直接转到源 URL 可以探索更多关于 geeksforgeeks.org 的爬取 URL。