(2)中介中心性(Betweenness Centrality):
在路径上能够到达其它节点的度量。在TC中,Bill的中介中心性是17,Joseph是14,远高于其它节点,因为如果没有Joseph,Willian和Tom就会与其他人断开关系,同样,Mark必须通过Bill与其他人建立关系。而James、Mark、Henry和Tom的中介中心性为0,因为他们不在其他关系的路径上。
(3)接近中心性(Closeness Centrality):
有能力在最短路径到达其它节点的度量。接近中心性的值越小说明节点更容易到达其它节点,即平均路径最短。
(4)特征向量中心性(Eigenvector Centrality):不仅考虑链接总数,还考虑与谁连接。即\把那些与特定行动者相联结的其他行动者的中心性考虑进来而量度一个行动者中心性指标\。在图2中,William和James的度中心性都是3,但James的特征向量中心性比William的高,因为James与第二受欢迎的Charles连接,而William与处于边缘的Tom连接(他们各自的另一个联系人具有相同的度中心性)。
(4)聚类系数(Clustering Coefficient):
有时候,一个人的朋友之间也是朋友,形成一个小团体(派系)。例如,Henry的三个朋友Gary、Bill和Charles之间也直接相互连接。有时候,一个人的朋友之间没有连接,像William的朋友Tom和Joseph就没有关系。聚类系数用来衡量节点的邻点之间的关系。准确的计算是,邻点之间实际的连接数/邻点之间可能的连接数。辟如说,Joseph有三个朋友,他们之间最多可以有三个连接,而实际上只有一个(Bill和Gary之间),因此,聚类系数是1/3。
第6章 数据准备:融合边和排序标签数据
迄今为止,上面的示例使用小型、简单网络只有少量的顶点。大多数社交媒体网络都大得多,经常会造成杂乱的图是很难解释的。NodeXL包含强大的策略使得能在更大的网络上发现数据的重要特征,但利用这些常常需要准备初始数据。
6.1 SeriousEats分析
本节分析产生于一个网络论坛文章和博客评论的SeriousEats在线社区食品爱好者(http://www. seriouseats.com)。是由Emily Mason从SeriousEats网站手动收集的2009-3-8数据。下载的数据文件名为“Serious_Eats.xlsx(http://casci.umd.edu/NodeXL_Teaching)。文件只包含一个Edges列表。Vertex1为社区成员的用户名,Vertex2为论坛或社区成员发布的博客文章缩写的名字。博客以“B_”开头,论坛帖子以“F_”开头。例如,第一行显示用户gastronomeg发布简短的博客条目标题Misosoup(图21)。这种类型的数据集与Vertex1代表Person,Vertex2代表一些事件(即张贴在论坛或博客内容)是一个典型的“关系数据例子”。更一般的是,Vertex1列和Vertex2列表示两个不同的实体,称为“双模网络”。
图21 SeriousEats分析 6.2 合并重复的边
您可能会注意到,图21有些重复的行(行16、18和20)。这不是一个错误,因为一些社区成员多次发布相同的论坛或博客。例如,用户cucumberpandan粘贴到博客GroceryNinja 3次。 然而,图21所示的红色高亮显示,只显示边的重复的行。NodeXL允许您删除重复的边缘,但保留重复次数信息是重复的。在数据组Prepare Data下拉菜单,单击Merge Duplicate Edges按钮,然后刷新图。
现在,您将看到一个新列Edge Weight,其数量表示边的重复数。如图22所示,现在只有一行连接cucumberpandan B_GroceryNinja显示权重为3,因为3行合并成1行。总的来说,由最初的417条边现在浓缩到362条边。
图22 边合并后的结果
图22所示的图易解释,很大程度上是因为它包含太多的顶点和边。它也不能明确的表示不同顶点代表不同的对象。为了解决这个问题,可以为每个不同类型的顶点设置独特的形状和颜色。
NodeXL可以利用Excel的支持的列排序功能,有效地帮助注释数据和识别重要的顶点。这可以通过点击Vertices工作表Lable列倒三角形下拉菜单的“排序A到Z”选项来完成(图23)。这将按字母顺序排序的所有顶点,所有的博客文章(从“B_”)和论坛帖子(从“F_”)相邻,便于为每个组设置独特的颜色和形状属性。
图23 顶点排序
第7章 过滤:减少杂乱透露重要特性
在处理大型凌乱图表时,过滤掉顶点或边或只关注部分通常很有用。NodeXL提供了多种方式来过滤掉边和顶点,将在本节中使用Serious Eats数据集。
7.1 动态过滤器
过滤掉某些边或顶点,这样它们就不会出现在图中,这是一个很好的方式,以减少混乱。使用动态过滤特性的一种方法通过分析组Dynamic Filters按钮或可视化区域(点击右上角>>按钮,下拉菜单的Dynamic Filters选项)。这将打开一个新对话框(图26)。对话框提供了大量的双框范围内滑块来帮助你过滤。左边数是工作簿中的最小值,而右边的是最大值。顶部的边滑块过滤掉,留下的顶点。第二组滑块过滤顶点和顶点的所有边。
图26 动态过滤器
当计算了额外的指标或添加新列数据时,新的过滤器将被添加到图5中。首先计算指标“Degree”(在下面介绍),然后在图26中点击Read Workbook按钮。现在,您将看到一个新的名为“Degree”的滑块过滤器(图27)。尝试过滤边的权重滑块向右滑动,更改数量从1到2。图应该动态地更新,此时只有权重为2的边被高浪显示。只显示发布到论坛主题(或博客帖子)2次以上的用户。
图27 增加新的过滤器
第8章 聚类
聚类有助于确定顶点在一起形成一个小团体。有时你会知道哪些人应该分为不同的集群(如,共和党和民主党人),而其他时候,你可能想要识别的集群不知道的情况下(如。在大型社交网络)友谊派系。手动聚类允许您创建自己的集群。它还可以帮助自动识别你感兴趣的集群。一旦确认了顶点的颜色和形状,NodeXL便以定制的方式直观地显示集群。为了演示集群是如何工作的,我们分析2007年美国参议员的投票模式。特别感谢克里斯·威尔逊Slate杂志提供的数据集,可以从下载:http://casci.umd.edu/NodeXL_Teaching名为Senate_Raw.xlsx。http://www.arkansasredistricting.org/maps/Pages/default.aspx#data
8.1 2007年参议院投票分析
Vertices工作表包含关于每个参议员,及他们的政党,他们所代表的州,投票的总人数。Edges工作表包含的每一个无向边连接一个参议员到其它参议员。图36增加的列,Vertex1(Vertex1_Total)和Vertex2(Vertex2_Total)是选票总数,Percent_Agreement是赞成百分比。最后两列(图36的K列和L列)用作分母,在计算Percent_Agreement时帮助不在场的人(比如竞选者)。
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库NodeXL手册(4)在线全文阅读。
相关推荐: