Palabras clave: : análisis de redes, clustering, gastos de cruceristas, métricas
Keywords: Network Analysis, Clustering, Cruise Expenses, Metrics
Código JEL: C10, C30, C50
En el marco de un crecimiento sostenido de la economía uruguaya desde hace catorce años, el turismo se debe destacar como una actividad de gran relevancia, en términos de divisas, valor agregado (PIB) y empleo.
El turismo en Uruguay es el primer sector exportador considerado individualmente. A su vez, de acuerdo a la información provista por el Ministerio de Turismo según la estimación de la Cuente Satélite de Turismo, la actividad turística significó desde el año 2005 entre el 5 y el 8 % del PIB del país, siendo en 2018 el 8,6%. En 2017 generó 114.287 puestos de trabajo, que representan el 6,3% del conjunto de puestos totales de la economía - cifra que entre 2008 y 2017 se ha mantenido entre el 5 y el 6% -, según información obtenida en base a la Encuesta Continua de Hogares del Instituto Nacional de Estadística (INE).
Esta actividad genera otros impactos positivos en la economía, usufructuados por la población local: creación de infraestructuras y servicios, mejora de recursos humanos, aplicación de nuevas tecnologías, surgimiento de nuevas oportunidades de negocios, recuperación y/o preservación del patrimonio, puesta en valor de recursos. Debe advertirse, sin embargo, que la actividad turística también puede afectar negativamente un destino, cuando no se toman en consideración los impactos medioambientales y socioculturales de ciertas actividades. El Ministerio de Turismo de Uruguay ha desarrollado una mirada estratégica sobre la actividad, intentando mitigar este tipo de efectos.
En el caso del turismo de cruceros, además de su interés económico, se señala que es muy habitual que pasajeros de cruceros (“cruceristas”), regresen al destino visitado, ya no en esta modalidad, sino como turistas, es decir, alojándose y permaneciendo algunos días en el país, con el consiguiente impacto positivo en la exportación de servicios turísticos. Debe tenerse en cuenta que el turismo de cruceros se trabaja por temporada, la cual en Uruguay se extiende, generalmente, entre octubre de un año y abril del siguiente.
De acuerdo a los datos relevados por el Ministerio de Turismo a partir de sus encuestas, el turismo de cruceros presenta una evolución creciente en Uruguay, partiendo de 75 arribos y 56.167 pasajeros desembarcados en la temporada 2004-2005 (desde cuando se dispone de datos). Entre esa temporada y la última (2017-2018), la cantidad de personas desembarcadas aumentó más del 300%. El máximo de arribos se da en 2013-2014, con 237 barcos, el mayor gasto se registra en 2012-2013 con 411.937 dólares corrientes y es en la temporada 2009-2010 donde se verifica el mayor gasto per cápita, U$S 61.
Este desarrollo ha determinado la construcción de una nueva terminal de cruceros en el Puerto de Montevideo por parte de la Administración Nacional de Puertos, a lo que se agrega al hecho que desde diciembre de 2011 Montevideo es puerto de embarque y desembarque de pasajeros a cruceros, lo que implica un mayor derrame en la economía.
El siguiente cuadro muestra los cruceros arribados a los dos únicos puertos que reciben cruceros en Uruguay, Montevideo (MVD) y Punta del Este (PDE).
TEMPORADA |
MVD |
PDE |
TOTAL |
CRECIMIENTO ANUAL |
|
2004-2005 |
63 |
12 |
75 |
MVD |
PDE |
2005-2006 |
65 |
34 |
99 |
32% |
183% |
2006-2007 |
80 |
50 |
130 |
31% |
47% |
2007-2008 |
98 |
68 |
166 |
28% |
36% |
2008-2009 |
79 |
86 |
165 |
-1% |
26% |
2009-2010 |
83 |
96 |
179 |
8% |
12% |
2010-2011 |
76 |
95 |
171 |
-4% |
-1% |
2011-2012 |
119 |
106 |
225 |
32% |
12% |
2012-2013 |
122 |
101 |
223 |
-1% |
-5% |
2013-2014 |
121 |
116 |
237 |
6% |
15% |
2014-2015 |
108 |
64 |
172 |
-27% |
-45% |
2015-2016 |
105 |
56 |
161 |
-6% |
-13% |
2016-2017 |
98 |
52 |
150 |
-7% |
-7% |
2017-2018 |
86 |
54 |
140 |
-7% |
4% |
Tabla Nº1. Cruceros arribados según puerto
Fuente: Área de Investigación y Estadística, Ministerio de Turismo
Es importante considerar las personas desembarcadas y su gasto, lo cual se evidencia en el cuadro siguiente:
TEMPORADA |
GASTO |
PERSONAS |
GASTO/PERSONA |
2004-2005 |
S/D |
56.167 |
----- |
2005-2006 |
4.241.639 |
110.827 |
38 |
2006-2007 |
11.235.466 |
149.062 |
75 |
2007-2008 |
16.818.273 |
256.593 |
66 |
2008-2009 |
14.384.413 |
247.120 |
58 |
2009-2010 |
17.830.909 |
292.048 |
61 |
2010-2011 |
13.291.304 |
278.627 |
48 |
2011-2012 |
20.884.091 |
353.727 |
59 |
2012-2013 |
18.612.467 |
411.937 |
45 |
2013-2014 |
18.855.505 |
409.371 |
46 |
2014-2015 |
10.943.470 |
332.118 |
33 |
2015-2016 |
11.141.587 |
317.205 |
35 |
2016-2017 |
9.798.264 |
260.704 |
38 |
2017-2018 |
7.692.437 |
242.466 |
32 |
Tabla Nº 2. Gasto total de cruceristas
Fuente: Área de Investigación y Estadística, Ministerio de Turismo
La nacionalidad de los cruceristas que llegan a Uruguay es mayoritariamente brasileña, seguida de argentinos y luego norteamericanos y europeos; sin embargo atendiendo al gasto per cápita, son los europeos y norteamericanos quienes realizan el mayor gasto. En general el rubro de mayor relevancia en el gasto ha sido el de Compras, seguido de Alimentación. Las Compras se han visto fomentadas por algunas políticas de beneficios para los turistas, como el régimen de devolución de IVA (Tax Free), implantado desde diciembre de 2012 en Uruguay.
Teniendo en cuenta estos antecedentes y partiendo de trabajo anteriores, sobre los que se aplicaron técnicas de clustering (Álvarez Vaz et al., 2015) para crear tipologías de cruceristas, se propone complementar esos resultados a través del análisis de redes.
El presente trabajo se centra en la temporada 2010-2011, durante la cual llegaron 171 barcos (95 de ellos a Punta del Este), desembarcando 278.627 personas, que realizaron un gasto en dólares corrientes de 13.291.304.
El objetivo principal de este trabajo es caracterizar los grupos de cruceristas que viajan en los diferentes cruceros seleccionados y los objetivos específicos son los siguientes:
El trabajo está organizado de la siguiente forma: en la sección 2 se detalla la metodología; en la 3 se presenta el problema en estudio y se desarrollan las técnicas a aplicar y los datos que se utilizan; la sección 4 incluye los resultados, que se discuten en la sección 5; la sección 6, es donde se presentan las conclusiones y futuros pasos para la investigación en el tema.
En esta sección se presentan las diferentes métricas que se usan para la caracterización de las redes. Para la presentación de las mismas se seguirá la notación de del libro ’Statistical Analysis of Network Data with R’ (Kolaczyk y Csárdi, 2014), (Luke, 2015) aunque textos seminales como (Wasserman y Faust, 1994), (Borgatti et al., 2013) son una guía también a seguir.
Los grados de de un vértice de un grafo es el número de aristas en incidentes sobre . A partir de esta medida se puede definir como la fracción de vértices de con grado . El conjunto es lo que se llama distribución de grados de . Para las redes ponderadas, una generalización útil del grado es la noción de Fuerza de vértice que se obtiene simplemente sumando los pesos de los bordes de un vértice dado.
Las medidas de centralidad de intermediación tienen por objeto resumir en qué medida un vértice se encuentra ’entre’ otros pares de vértices (Freeman, 1979) (Betweenness centrality).
donde es el número total de caminos más cortos entre y que pasan a través de , y es el número total de caminos más cortos entre y (independientemente de si pasan o no por ).Esta medida de centralidad puede rescalarse al intervalo mediante un factor de , siendo el número de vértices del grafo .
Las medidas de centralidad de proximidad intentan capturar la noción de que un vértice es ’Central’ si está ’cerca’ de muchos otros vértices. (Freeman, 1979), (Brandes, 2001) El enfoque estándar, introducido por (Sabidussi, 1966), es dejar que la centralidad varı́e inversamente con una medida de la distancia total de un vértice de todos los demás (Closeness centrality).
Donde es la distancia geodésica entre los vértices . También para comparar entre otras medidas de centralidad, esta medida se puede rescalar al intervalo , a través de la multiplicación por un factor .
Finalmente, otras medidas de centralidad se basan en nociones de prestigio o rango. Es decir, buscan capturar la idea de que cuanto más centrales sean los vecinos de un vértice, más central es el vértice en sı́ mismo. Estas medidas pueden expresarse en términos de vectores propios de soluciones de sistemas lineales de ecuaciones y hay muchas medidas de centralidad de vectores propios.
De acuerdo a (Bonacich, 1987), (Bonacich y Lloyd, 2001)
El vector es la solución al autovalor para , donde es la matriz de adyacencia para el grafo .
Bonacich sostiene que una elección óptima de es el autovalor más grande de , y por lo tanto es el autovector correspondiente. Cuando es no dirigido el valor propio más alto de será simple y su autovector tendrá valores distintos de cero y del mismo signo.
Se puede extender la idea de intermediación a los enlaces, aspecto que se denomina (Edge betweenness centrality) y que es una extensión de la intermediación de nodos asignando a cada enlace un valor que refleja el número de caminos más cortos (shortest paths), que atraviesan ese enlace. Para otra medidas de centralidad que caractericen los enlaces se puede consultar a (Brandes y Erlebach, 2005).
Las caracterizaciones de la cohesión de red que surgen de los subgrafos y cliques consisten en ver con qué frecuencia y donde se encuentran a través de métricas como las que se presentan a continuación. La densidad de un Gráfico es la frecuencia de los enlaces realizados en relación con el potencial número efectivo de bordes. Por ejemplo, en un grafo (no dirigido) sin auto-bucles y sin múltiples enlaces, la densidad de un subgrafo
donde el valor de estará entre y proporciona una medida de que tan cerca está el grafo de ser un clique; En el caso de que sea un grafo dirigido, el denominador en la ecuación (4) se sustituye por .
Otro concepto que se maneja para evaluar la densidad de la red es lo que (Kolaczyk y Csárdi, 2014) denominan clustering coefficient, donde surge un coeficiente de agrupamiento que puede medirse como
donde es el número de triángulos en el grafo , y ), el número de tripletas conectadas un subgrafo de tres vértices conectados por dos bordes, también A veces llamado un 2 estrellas). El valor se denomina alternativamente transitividad y es una métrica estándar en el estudio de las redes sociales, también conocido como “fracción de tripletas transitivas”. Por otra parte ) es una medida de la agrupación global o de clustering, resumiendo la frecuencia relativa con la que las tripletas conectadas forman triángulos cerrados.
Una noción de conectividad es la que tiene que ver con el hecho de que si dado un subconjunto de k vértices (o enlaces) se quitan del grafo, el subgrafo restante aún permanece conectado. En particular un grafo se llama k-vértice-conectado si el número de vértices > k, y al eliminar cualquier subconjunto de vértices de cardinalidad deja un subgrafo conectado.
A su vez, si se denomina k-borde-conectado si , y al eliminar cualquier subconjunto de aristas de cardinalidad deja un subgrafo que está conectado’. De esa manera se define como conectividad de vértice (enlace) de al entero más grande tal que es k-vértice- (k-borde) conectado. (Kolaczyk y Csárdi, 2014) manifiestan que se puede demostrar que la conectividad del vértice está acotada por la conectividad de enlace, la que a su vez está acotada por el grado mínimo d entre los vértices en .
Cuando se habla de partición de la red , de un conjunto se refierea la división de la misma en clase naturales tales que estas son disjuntas entre sı́ y a su vez la unión de ellas reproducen el conjunto de partida . Pero, a su vez, es importante también evaluar si un subconjunto de nodos (algunas de esas clases) es ’cohesivo’, para lo cual se entiende que es así si los nodos están bien conectados entre sı́ y, al mismo tiempo, están relativamente bien separados de los nodos restantes.
Así los algoritmos de particionado buscan una partición , de un grafo G = (V,E) de manera que los conjuntos de enlaces conectando nodos de en sea relativamente pequeña en comparación al conjunto = de enlaces que conectan nodos al interior de .
Una primera forma de evaluar el particionado de la red es a través de clustering jerárquico, de tipo aglomerativo, donde se incorpora una función de costo, que refleja la cohesión, con lo cual surge el concepto de modularidad de , donde se define como la fracción de enlaces de la red original que conectan nodos de con nodos de .
donde es el valor esperado de bajo el supuesto de un modelo aleatorio de asignación de enlaces. Valores grandes de la modularidad sugieren que captura una estructura no trivial de grupos (es decir que existen grupos), a la inversa si los enlaces se asignasen al azar.
donde es el valor esperado de bajo el supuesto de un modelo aleatorio de asignación de enlaces. Valores grandes de la modularidad sugieren que captura una estructura no trivial de grupos (es decir que existen grupos), a la inversa si los enlaces se asignasen al azar.
Otra aspecto importante para evaluar la topología de una red es la evaluación de lo que se denomina enlace selectivo entre nodos de acuerdo a algunas características y que se miden con lo que se conoce como Assortativity coefficient y que tiene una lógica muy similar a la de los coeficientes de correlación. Este concepto a veces también se conoce como homofilia, y expresa la tendencia de las personas a relacionarse con personas que se le parecen.
Cuando la característica que se estudia es de tipo categórico (nominal u ordinal) la medida es:
Donde es la fracción de enlaces en que unen un nodo en la i-ésima categorı́a ,con un nodo en la j-ésima categoría y, expresan la suma de la i-ésima fila y columna respectivamente, de la matriz resultante f de frecuencias (Newman, 2002), (Newman, 2003).
El coeficiente descrito en la ecuación (8) está acotado en el intervalo , expresando que si es cercano a 0, la mezcla de nodos en el grafo no difiere de la que se obtendría al asignar los enlaces al azar, preservando la distribución de grados marginal; cuando el coeficiente se acerca a 1 o -1 existe una mezcla selectiva perfecta.
Cuando los nodos tienen una característica de interés que es continua, para evaluar la homofilia, se consideran como los valores que toman los nodos enlazados por el enlace e, para lo cual se usa el coeficiente de correlación de Pearson de los pares .
Se trabaja solamente con 2225 cruceristas que son los que hicieron algún gasto. Dado que las unidades de análisis son grupos de cruceristas (individuales o múltiples), se propone armar redes para cada crucero. Como los cruceros no vienen una sola vez en la temporada, es necesario seleccionar los cruceros de la Tabla de datos diferenciando para cuál de las veces que vino en la temporada corresponde la información. Hay cruceros de diferente tamaño en términos de pasajeros, por lo cual se elegirán cruceros de diferentes capacidades y sobre esos se construirán las redes usando como criterios de enlace la cantidad de gastos que comparten. Se trabaja con el software Gephi (Bastian et al., 2009) y el R (R Core Team, 2016), para el que se usan varias librerías (Butts, 2016), (Csardi y Nepusz, 2006), (Kolaczyk y Csi, 2017).
Se crea una variable corte que sirve para saber qué cantidad de los 2225 grupos de cruceristas encuestados corresponde a un crucero en algunas de las veces que vino en la temporada.
Luego se crea una variable compuesta entre código de crucero y corte (que indica el ordinal de llegada en la temporada) para poder tener en la Tabla de datos los cruceros cada vez que vienen y es sobre esta variable que se van a seleccionar de tres a cinco unidades (son cruceros en cada oportunidad) y sobre eso se armarán las redes de cruceristas. De esta manera se tiene una variable que dimensiona a los diferentes cruceros en cada venida y teniendo en cuenta que solo se consideran los cruceristas que tuvieron algún gasto.
La forma de interpretar esta nueva variable es la siguiente:
Se puede ver a continuación el total de cruceristas encuestados en cada crucero que llegó en la temporada y fue seleccionado en la primera etapa de muestreo.
Por ejemplo el crucero 9 llegó 7 veces (en el ordinal 14, 16,18, 37, 59,62 y 63 de los 82 cruceros que llegaron) y en esas 7 oportunidades se encuestaron 27, 28, 30, 34, 31, 32, 21 cruceristas. Pueden existir varias formas de seleccionar cruceros para analizarlos bajo la lógica del SNA y que a su vez sean diferentes entre sı́ para poder compararlos.
Se opta por clasificar a los cruceros de acuerdo a su capacidad de pasajeros, lo cual estaría dando lugar a redes de cruceristas provenientes de cruceros pequeños, medianos y grandes, lo que pude ser una característica importante para la estructura interna de cada red.
Resumiendo la Tabla Nº 3 se ve que hay cuatro tamaños de cruceros: menos de 1000, entre 1000 y 2000, 2000 a 3000 y 3000 o más pasajeros. De esta manera se propone elegir cuatro cruceros, uno en cada estrato.
De las nuevas unidades ’cruceros veces’ clasificadas en cuatro estratos, de acuerdo a la capacidad de cada crucero, se selecciona mediante MAS (muestro aleatorio simple) uno en cada estrato, con los que se construyen redes, una para cada crucero en la oportunidad que llegó.
En la temporada 2010-2011 se muestrearon un total de 82 cruceros.
De la Tabla Nº 3 se ve que aparece el crucero con el que se construirá la red g1 y la etiqueta 4453, significa que es el crucero 44 que fue muestreado a mitad de temporada (llegó en el lugar 53 de los 82), mientras que el crucero para la red g3 es el 49, en el que se aplicó la encuesta casi a comienzos de la temporada.
Para el resto del análisis de los resultados, para cada crucero seleccionado se crea una red que se denominará g1, g2, g3, g4.
estrato |
Nh |
Crucero seleccionado |
menos de 1000 (1) |
7 |
4453 |
de 1000 a 2000 (2) |
22 |
1644 |
de 2000 a 3000(3) |
40 |
4912 |
3000 o más (4) |
13 |
5150 |
Total |
82 |
|
Tabla Nº 3. Descripción de los estratos de cruceros
Crucero | nj |
Red |
Etiqueta |
j=1 |
23 |
G1 |
4453 |
j=2 |
38 |
G2 |
1644 |
j=3 |
34 |
G3 |
4912 |
j=4 |
32 |
G4 |
5150 |
Tabla Nº 4. Descripción de los cruceros analizado
Para visualizar las redes y poner de manifiesto con claridad la estructura que existe en las mismas es importante manejar un concepto que en la literatura del SNA se denomina layout.
Por ejemplo, si se considera una red de tamaño moderado con 50 nodos, podría usarse una grilla cuadrada de 10 por 10, donde ir posicionando cada nodo. El primer nodo en la red podría ir en cualquiera de las 100 posiciones, el segundo nodo en 99 posiciones, y así́ sucesivamente, lo que da una cantidad muy grande de diferentes diseños de red posibles.
Sin embargo muchas de estas posibles configuraciones pueden dar lugar a representaciones gráficas muy confusas, donde van a haber muchos enlaces que se cruzan, con lo cual la idea es elegir un diseño que tenga una probabilidad más alta de ser visualmente aceptable, por lo cual hay necesidad de recurrir a diferentes algoritmos que busquen maximizar ese efecto (Kolaczyk y Csi, 2017), (Csardi y Nepusz, 2006).
En el Gráfico 1 puede verse cuál es el resultado de disponer un layout de tipo aleatorio, donde se ven varios enlaces que se cortan (esto debido a que la red para el caso del crucero 1 es chica); además el uso de esta forma de visualizar hace que la disposición sea distinta cada vez que se gráfica, al ser aleatoria la disposición espacial de cada nodo (por ende de cada enlace) en la red.
Gráfico Nº 1. Red del crucero estrato 1 (layout aleatorio)
En este caso, como aparece en Gráfico 2, el diseño usado para visualizar el grafo, parte de ubicar el nodo 1 y disponer los restantes nodos en sentido trigonométrico negativo y donde de cada nodo parten los enlaces correspondientes. Este diseño tiene el inconveniente de generar grafos con mucha densidad de enlaces que se cruzan, sobre todo si el número de enlaces es muy grande y con lo cual no es claro el patrón de conexiones en la red.
Gráfico Nº 2. Red g1 del estrato 1 (layout Circle)
Se ha desarrollado un gran número de enfoques para el diseño automático de Gráficos de red. Una clase general de algoritmos, llamados de fuerza-dirigida, trabajan a partir de un enfoque en el que los nodos conectados tengan una fuerza de atracción similar a un resorte, al mismo tiempo que asignan fuerzas repulsivas a todos los pares de nodos. Los resortes en este algoritmo actúan para tirar de los nodos conectados más cerca uno del otro, mientras que las fuerzas repulsivas empujan los nodos no conectados lejos uno d otros. El sistema de red resultante se moverá y oscilará durante un tiempo, antes de llegar al estado estacionario que tiende a minimizar la energía en la red. Esto algoritmo, tiende a producir representaciones de las redes estéticamente agradables (Fruchterman y Reingold, 1991).
Gráfico Nº 3. Red g1 del estrato 1 (layout Fruchterman-Reingold)
Los algoritmos usados en este caso para detectar comunidades estructurales tratan de encontrar subgrafos densos, usando paseos aleatorios (random walk) y donde la idea es que, los paseos aleatorios cortos tienden a estar en la misma comunidad (Pons y Latapy, 2015).
grados |
frecuencia |
4 |
1 |
6 |
3 |
8 |
1 |
11 |
6 |
12 |
7 |
14 |
1 |
15 |
19 |
19 |
3 |
Total |
23 |
Tabla Nº 5. Distribución de los grados de g1
Gráfico Nº 4. Clustering para Red g 1 del estrato 1 con algoritmo walktrap
Para poder determinar los clusters en la red se usa una función que tratar de evidenciar grafos densos, optimizando el score de modularidad, a través del algoritmo fast greedy que aparece en Finding community structure in very large networks, http://www.arxiv.org/abs/cond-mat/0408187 (Clauset et al., 2004).
Gráfico Nº 5. Clustering para Red g1 del estrato 1 con algoritmo fast greedy
En este caso el criterio para determinar los clusters o comunidades basado en edge-betweenness es que, probablemente, los enlaces que conectan módulos separados tiene alto edge-betweenness, ya que los caminos más cortos de una comunidad a otra deben atravesarlos.
Por lo tanto, si gradualmente se van quitando enlaces con el más alto edge betweenness, se obtendría un mapa jerárquico que, en este caso, es un árbol raíz o dendrograma, donde los tallos representan los nodos individuales y la raíz el grafo enteramente.
El algoritmo cluster-edge-betweenness en forma iterativa calcula la intermediación de enlaces del grafo, quitando el enlace con más alta intermediación y volviendo a recalcular, hasta encontrar estabilidad (Newman y Girvan, 2004).
El algoritmo label prop es el más rápido, con performance de tiempo lineal, que se usa para detectar comunidades en redes. Comienza etiquetando los nodos con etiquetas únicas y luego adaptando las mismas por voto mayoritario en la vecindad (neighborhood) del nodo (Raghavan et al., 2007).
Gráfico Nº 6. Clustering para Red g1 del estrato 1 con algoritmo edge betweenness
Gráfico Nº 7. Clustering para Red g1 del estrato 1 con algoritmo label prop
algoritmo |
modularidad |
Nro de clusters |
cluster walktrap (cw.1) |
0.2880 |
3 |
cluster fast greedy cfg.1) |
0.2654 |
3 |
cluster edge etweenness (eb.1) |
0.2880 |
3 |
cluster label prop (clp.1) |
0.2923 |
3 |
Tabla Nº 6. Modularidad para g1 con diferentes algoritmos
CARACTERIZACIÓN DE LA RED
En la Tabla Nº 7 se ven las características de los 23 nodos, donde se consignan las métricas de centralidad (cercanía e intermediación), grados de cada nodo, así́ como el número de triángulos que conforman cada uno de ellos.
En la Figura 8 se puede ver cómo es la relación entre el número de grados de cada nodo y la betweenness, donde resalta el nodo 1 que tiene 13 grados siendo el nodo más intermediario; en el Gráfico los puntos que aparecen con forma de estrella en rojo significa que en esa coordenada (valor de número de grado y betweenness) cae más de un nodo, por ejemplo para el valor 10 grados hay 7 nodos.
Para el caso de la cercanía se ve que la relación entre ésta y el número de grados es creciente, siendo los nodos 2 y 7 los más centrales y con mayor grado.
En la Tabla Nº 8 puede verse como es la relación entre el número de gastos por cruceristas y la configuración de clusters que queda para g1 usando los diferentes algoritmos de detección de comunidades presentados antes.
En la Tabla Nº 9 puede verse como es la relación entre los grupos creados mediante las técnicas de clustering convencional y la configuración de clusters que queda para g1 usando los diferentes algoritmos de detección de comunidades presentados antes.
Para poder comparar cómo es la eventual asociación entre el clustering generado por el análisis de redes y la tipología previa que se tenía de los cruceristas mediante técnicas de clustering convencionales, en este caso mediante algoritmos jerárquico de Ward, usando distancias binarias, se presentan las siguientes Tablas:
El cluster que en la totalidad de cruceros tiene más frecuencia es el 2, con 78,5 %, aspecto que se repite para los cuatro cruceros seleccionados para la construcción de las redes, donde el grupo 2 tiene una presencia mayoritaria, en general con un 82%.
Una forma de comparar las diferencias entre las redes es evaluar cómo funciona el nivel de homofilia. Para eso se seleccionan 2 atributos que son la cantidad de gastos que tiene cada nodo y a su vez el tramo de gasto (quintil de gasto) de ese nodo en algunos de los gastos:
Para el resto de redes g2, g3, g4 solamente se reportan los resultados correspondientes a las métricas evaluadas sobre las mismas y que aparecen en la Tabla Nº 13.
En la Tabla Nº 13 se puede ver un resumen de las diferentes métricas evaluadas para los 4 grafos y con qué software se hizo. Si bien solamente aparece reseñados los valores y el software aplicado, en general ambos permiten la evaluación de las mismas.
En la sección 4.3 se hace una identificación de la topología del grafo g1, a través de la evaluación de las diferentes métricas que caracterizan a los nodos y los enlaces y a la estructura de la misma, con el estudio de la cantidad de comunidades y el particionado a través de valores propios. También se estudia y se compara el grafo g1 con redes aleatorias o de pequeño mundo con los mismos parámetros Para los restantes grafos, se presentan solamente las métricas principales que se consignan en la Tabla Nº 13, aunque el procedimiento es equivalente.
Si se analizan los valores de la Tabla Nº 13, las métricas globales de los cuatro grafos muestran grado medio que crece con la cantidad de nodos, siendo g1 el que tiene menor ratio enlace/nodo, menor grado medio y menor densidad de enlaces y mayor modularidad y menor densidad de los cuatro grafos. El grafo g3 es el que tiene menor intermediación de centralidad. En términos de cercanía las cuatro redes muestran un comportamiento similar, así como de transitividad de nodos. También el nivel de clusterización de las redes es similar y se destaca g1 por ser el que tiene mayor longitud media de camino y menor centralidad de valores propios. A su vez, todos los grafos presentan, como era de esperar, un único componente conexo.
Además se describen las características socio demográficas y por gasto de los cuatro clusters binarios creados mediante técnicas de clustering convencional, considerando la totalidad de los cruceristas y cruceros (2225) para luego evaluar para los cuatro grafos (uno por crucero), cómo son las comunidades.
Teniendo en cuenta esa tipología, creada como si los 2225 pasajeros no viajasen en diferentes cruceros a lo largo de la temporada, es importante cruzar la pertenencia de cada nodo (un grupo de cruceristas de cada red, que coincide con la venida de un crucero en un día de la temporada) con la comunidad identificada. Para esta caracterización se usa solamente el algoritmo de fast greedy, que busca maximizar la modularidad, como fuera dicho en la sección 4.3.
Para g1 se puede ver que hay tres comunidades repartidas en forma homogénea y que a la interna del cluster 2, que es el mayoritario, también se reparten en forma pareja.
Para los grafos g2 y g3, a diferencia de como quedaba la distribución por clusters, donde había un grupo que se llevaba el 90%, en este caso surgen dos comunidades.
Para el grafo g4, a diferencia de cómo quedaba la distribución por clusters, donde había un grupo que se llevaba el 90%, en este caso surgen dos comunidades.
En la Tabla Nº 18 se pueden ver los perfiles en términos de gastos de los nodos más relevantes de cada grafo, donde los que se seleccionaron son aquellos que tienen número de enlaces, closeness y betweeness, en valores mínimos, medios y máximos.
Por lo tanto, para el caso del nodo 19 de grafo g1, se está ante un nodo casi aislado, de los pocos que gasta en Tour, mientras que el nodo 7, con mayor número en enlaces y closeness, que comparte el gasto en Alimentación y Shopping (Compras).
Para el grafo g2, los nodos que sobresalen son el 6, que se caracteriza por tener un alto nivel de centralidad, solo conectado con otro nodo, que gasta en Transporte, mientras que un nodo como el 28, que gasta en Alimentación y Shopping, tiene 32 grados y una centralidad mediana a pesar de no tener casi intermediación.
Para el grafo g3, los nodos que se identifican son el 24 que solo gasta en Transporte, también solo conectado con otro nodo y muy bajo valor de centralidad y el nodo 11, que tiene el mayor grado, con casi 0.75 de centralidad y que se caracteriza por tener gasto en Alimentación y Shopping.
En cuanto al grafo g4, los nodos que se distinguen son el 6, que tiene un solo gasto (en Shopping), con un número medio de grados, alta centralidad y baja intermediación, en contraposición con el nodo 24, de cruceristas que gastan en Alimentación y Shopping, un número alto de grados y de centralidad y también de triángulos.
El rubro mayoritario de gastos en general, tal como se ve en la última línea de la Tabla Nº 18, corresponde a Shopping, con casi la mitad del gasto total, seguido por Alimentación, que absorbe una tercera parte del mismo, siendo los restantes rubros minoritarios. Esta relación, sin embargo, no se mantiene a la interna de los cruceros seleccionados para hacer el análisis de SNA, lo que estaría indicando que hay una cierta estructura en el perfil de gasto, que varía al cambiar de crucero.
Cuando se cambia de crucero (de tamaño de crucero), si bien la presencia del cluster 2, que corresponde a la tipología previa que es mayoritaria, no siempre los nodos se alinean con esta partición, lo que estaría indicando que la variabilidad intra crucero condiciona la partición en comunidades, que no se corresponden con los grupos creados usando todos los cruceristas de la temporada.
Gráfico Nº 10. Clustering para Red g1 contrastado de acuerdo a las comunidades formadas mediante algoritmo fast greedy
En forma preliminar, puede decirse que las cuatro redes, luego de ser caracterizadas en términos de las métricas de nodos y enlaces, muestran comportamientos diferentes entre sí. También las comunidades detectadas muestran una segmentación que difiere si se hace en forma global (clustering binario).
A su vez, en la segmentación creada con el SNA, aparecen comportamientos diferenciados en términos del nivel o número de gastos y que no se asocian directamente con la lógica usada para crear las redes en cada crucero, en base a si compartían alguno de los cinco rubros de gasto.
Por otra parte, en términos de la aplicación, se trabajó con el software Gephi, que tiene la gran ventaja de permitir visualizar grafos con muchos nodos y enlaces. Es una herramienta donde los gráficos son bastante parametrizables y que calcula una serie de métricas clásicas en el SNA. Tiene la desventaja de ser una herramienta básicamente interactiva, con lo cual es necesario que el usuario haga los cambios personalmente.
En cambio el R tiene la ventaja de poder generar incluso más cantidad de métricas y, sobre todo, de ser un entorno de programación, donde se pueden incluso programar mediante funciones, otras métricas, simular diferentes tipos de redes y trabajar en SNA desde una perspectiva del modelado y la inferencia. Se aprovecha la potencia que tiene el R como lenguaje de programación orientado a objetos, que permite el tratamiento de éstos con diferentes bibliotecas desarrolladas en R. Sin embargo, la performance del R para la visualización de grafos, cuando estos son de tamaño mediano, es lenta.
Teniendo en cuenta los comentarios previos, se propone continuar la investigación en las siguientes líneas: