📅  最后修改于: 2020-11-05 04:36:26             🧑  作者: Mango
CSGraph代表压缩稀疏图,它专注于基于稀疏矩阵表示的快速图算法。
首先,让我们了解什么是稀疏图及其在图形表示中的帮助。
图只是节点的集合,节点之间具有链接。图几乎可以代表任何事物-社交网络连接,其中每个节点都是一个人,并与熟人相连;图像,其中每个节点是一个像素,并连接到相邻像素;高维分布的点,其中每个节点都与其最近的邻居相连;以及您可以想象的几乎所有其他内容。
表示图形数据的一种非常有效的方法是在稀疏矩阵中:让我们将其称为G。矩阵G的大小为N x N,而G [i,j]给出节点’i’和node之间的连接值。 ‘j’。稀疏图主要包含零-也就是说,大多数节点只有几个连接。在大多数情况下,此属性都是正确的。
稀疏图子模块的创建是由scikit-learn中使用的几种算法推动的,其中包括以下内容-
Isomap-流形学习算法,需要找到图中最短的路径。
分层聚类-基于最小生成树的聚类算法。
频谱分解-基于稀疏图拉普拉斯算子的投影算法。
举一个具体的例子,假设我们想代表以下无向图-
此图包含三个节点,其中节点0和1通过权重2的边缘连接,节点0和2通过权重1的边缘连接。我们可以构造密集,蒙版和稀疏表示,如以下示例所示,请记住,无向图由对称矩阵表示。
G_dense = np.array([ [0, 2, 1],
[2, 0, 0],
[1, 0, 0] ])
G_masked = np.ma.masked_values(G_dense, 0)
from scipy.sparse import csr_matrix
G_sparse = csr_matrix(G_dense)
print G_sparse.data
上面的程序将生成以下输出。
array([2, 1, 2, 1])
这与前面的图相同,除了节点0和2通过零权重的边连接。在这种情况下,上面的密集表示会导致歧义-如果零是有意义的值,那么如何表示非边缘。在这种情况下,必须使用掩码表示或稀疏表示来消除歧义。
让我们考虑以下示例。
from scipy.sparse.csgraph import csgraph_from_dense
G2_data = np.array
([
[np.inf, 2, 0 ],
[2, np.inf, np.inf],
[0, np.inf, np.inf]
])
G2_sparse = csgraph_from_dense(G2_data, null_value=np.inf)
print G2_sparse.data
上面的程序将生成以下输出。
array([ 2., 0., 2., 0.])
单词阶梯是刘易斯·卡洛尔(Lewis Carroll)发明的游戏,其中单词通过在每个步骤中更改单个字母来链接。例如-
APE→APT→AIT→BIT→大→BAG→MAG→MAN
在这里,我们从“ APE”到“ MAN”经过七个步骤,每次更改一个字母。问题是-我们可以使用相同的规则在这些词之间找到更短的路径吗?该问题自然地表示为稀疏图问题。节点将对应于单个单词,并且我们将在最多相差一个字母的单词之间创建连接。
首先,当然,我们必须获得有效单词的列表。我正在运行Mac,Mac在以下代码块中指定的位置具有单词词典。如果您使用的是其他体系结构,则可能需要进行一些搜索才能找到系统词典。
wordlist = open('/usr/share/dict/words').read().split()
print len(wordlist)
上面的程序将生成以下输出。
235886
现在,我们要查看长度为3的单词,因此让我们只选择长度正确的单词。我们还将消除以大写字母(专有名词)开头或包含非字母数字字符(例如撇号和连字符)的单词。最后,我们将确保所有内容均使用小写字母,以便稍后进行比较。
word_list = [word for word in word_list if len(word) == 3]
word_list = [word for word in word_list if word[0].islower()]
word_list = [word for word in word_list if word.isalpha()]
word_list = map(str.lower, word_list)
print len(word_list)
上面的程序将生成以下输出。
1135
现在,我们有了一个1135个有效的三个字母的单词的列表(确切的数字可能会根据所使用的特定列表而有所变化)。这些单词中的每一个都将成为我们图中的一个节点,并且我们将创建连接与每对单词相关联的节点的边,它们之间仅相差一个字母。
import numpy as np
word_list = np.asarray(word_list)
word_list.dtype
word_list.sort()
word_bytes = np.ndarray((word_list.size, word_list.itemsize),
dtype = 'int8',
buffer = word_list.data)
print word_bytes.shape
上面的程序将生成以下输出。
(1135, 3)
我们将使用每个点之间的汉明距离来确定连接了哪些单词对。汉明距离测量的是两个向量之间的条目分数,它们不同:汉明距离等于1 / N1 / N的任意两个单词,其中NN是在单词阶梯中连接的字母数。
from scipy.spatial.distance import pdist, squareform
from scipy.sparse import csr_matrix
hamming_dist = pdist(word_bytes, metric = 'hamming')
graph = csr_matrix(squareform(hamming_dist < 1.5 / word_list.itemsize))
在比较距离时,我们不使用相等性,因为这对于浮点值可能不稳定。只要单词列表的两个条目都不相同,不等式就会产生所需的结果。现在,我们的图形已建立,我们将使用最短路径搜索来找到图形中任何两个单词之间的路径。
i1 = word_list.searchsorted('ape')
i2 = word_list.searchsorted('man')
print word_list[i1],word_list[i2]
上面的程序将生成以下输出。
ape, man
我们需要检查这些匹配项,因为如果单词不在列表中,则输出中将出现错误。现在,我们所需要做的就是在图中找到这两个索引之间的最短路径。我们将使用dijkstra的算法,因为它允许我们仅找到一个节点的路径。
from scipy.sparse.csgraph import dijkstra
distances, predecessors = dijkstra(graph, indices = i1, return_predecessors = True)
print distances[i2]
上面的程序将生成以下输出。
5.0
因此,我们看到“猿”与“人”之间的最短路径仅包含五个步骤。我们可以使用算法返回的前辈来重建此路径。
path = []
i = i2
while i != i1:
path.append(word_list[i])
i = predecessors[i]
path.append(word_list[i1])
print path[::-1]i2]
上面的程序将生成以下输出。
['ape', 'ope', 'opt', 'oat', 'mat', 'man']