社交网络中的不同数据集形式
先决条件: Python基础
为了构建任何网络,我们需要一个好的数据集,每个网络都有不同的数据集数据格式。基本上,数据集只不过是一个巨大的数据集合,可以进一步用于任何分析。数据集中的数据可以是多种格式。
网络数据集示例:
- 配料网。
- 同义词网络。
- 网络图
- 扎卡里空手道俱乐部网络。
数据集的格式类型:
- CSV(逗号分隔值):扩展名为 .txt 或 .csv 。 CSV 格式文件可以有另外 2 种类型,可以是边缘列表或邻接列表格式。
例子:- EdgeList 格式:如果需要,基本上它可以边缘和权重。每行包含 2 个节点,第一个节点是源节点,第二个节点是目标节点。
0 5 0 11 0 34 0 45 1 56 1 67 1 76 1 89
- 邻接表格式:基本上每个包含2个或更多节点。第一个节点是源节点,同一行的后续节点是直接连接到源节点的节点,如第一行直接连接到 2、5 和 7 个节点。
1 2 4 6 2 3 4 3 2 4 6 4 6 2 3 6 1 3
- EdgeList 格式:如果需要,基本上它可以边缘和权重。每行包含 2 个节点,第一个节点是源节点,第二个节点是目标节点。
- GML(Graph Modeling Language):它是网络数据集最常用的格式,因为它提供了为节点和边分配属性的灵活性,并且非常简单。
graph [ node [ id 1 label "Node 1" ] node [ id 2 label "Node 2" ] node [ id 3 label "Node 3" ] edge [ source 2 target 1 label "Edge 2 to 1" ] edge [ source 3 target 1 label "Edge 3 to 1" ] ]
- Pajek Net:扩展名为 .NET 或 .Paj 。广泛用于网络数据集。对于每一行,您都会返回每个节点,并且所有节点都已完成,您从包含源节点和目标节点的边的信息开始。
*Vertices 6 *Edges 1 2 1 6 2 3 2 5 3 1 3 5 3 6 4 5 5 6 6 2
- GraphML:这里 ML 代表 XML,因为它与 XML 非常相似。与 XML 一样,也有分层结构及其标记。同样在graphml中也有像XML标签、graphml标签、图表标签、节点标签和边标签这样的标签。
在上面的graphml示例中,首先有一个XML标签,然后是他们的graphml标签,在graphml标签里面有graph标签,在里面有几个节点和边标签。
- GEXF(Graph Exchange XML Format):由 Gephi 人创建。 Gephi 是一个开源软件,用于可视化和分析社交网络。这种格式也受到 XML 的启发,因为它具有类似的标签。标签有 XML 标签、GEXF 标签、Meta 标签、Graph 标签、节点标签、边标签。
Gexf.net Geeks for geeks