Tests de performance y de stress

Introducción

Los tests de performance son aquellos que sirven para determinar qué tan rápido o qué tan bien se comporta un sistema sometido a una carga en particular. También pueden ser utilizados para validar y verificar otros requerimientos no funcionales del sistema como ser estabilidad, escalabilidad, disponibilidad o consumo de recursos.

Los tests de performance pueden buscar diferentes objetivos. Pueden servir para demostrar que un sistema cumple con determinado criterio de aceptación, para comparar dos sistemas y determinar cuál se comporta mejor o bien para detectar qué sistema externo o qué componente interno es el cuello de botella. Para el último caso, los tests de performance se pueden utilizar junto a profilers para medir y determinar cómo se distribuye el uso de recursos (tiempo, CPU, I/O, memoria, etc.) entre los diferentes componentes del sistema.

Los tests de stress, en cambio, son tests diseñados para verificar el comportamiento de un sistema al introducir caos o incertidumbre, y el objetivo es comprobar la robustez del software cuando es sometido a condiciones diferentes a la de operación normal. Estos tests son particularmente importantes para software considerado crítico, y hacen énfasis en características como robustez, disponibilidad o manejo controlado de errores y situaciones de excepción.

Al igual que con los tests unitarios o de integración, la noción de “testear temprano y testear seguido” también aplica para los tests de performance y de stress. Es importante considerar al principio de un proyecto si se van a requerir tests de performance y/o stress (por ejemplo para cumplir requerimientos no funcionales) o qué componentes van a participar de estos tests. De forma análoga
a la detección de bugs, la detección de problemas de performance se va complicando a medida que vamos avanzando en las etapas del proyecto, y nuestro sistema está más cerca del producto final. Si bien encontrar problemas de performance en una prueba de concepto o prototipo puede llegar a determinar un cambio de arquitectura o de tecnología y consumir varias horas de retrabajo, el detectar este mismo problema luego de puesto en producción puede llegar a ser un problema de varios órdenes de magnitud peor. Sin embargo, no es tan fácil poder contar con un ambiente, con los sistemas externos -o procesos que los simulen- y con los datos necesarios, pero es importante establecer si va a ser posible y en qué momento se realizarán.

Este post estará mayormente centrado en los tests de performance, pero varios de los puntos destacados aplican también a la hora de planificar los tests de stress.

Objetivos

Como comentábamos en la introducción, los tests de performance pueden perseguir diferentes objetivos.
Es importante delinear estos objetivos al diseñar los tests, así como también los parámetros fijos y variables con los que se ejecutarán. Por ejemplo, si imaginamos que queremos determinar la capacidad máxima de respuestas por segundo de un web service, no es lo mismo realizar las pruebas con 3 clientes concurrentes que con 3000 clientes concurrentes. Se debe conocer de antemano a la realización de los tests en qué aspectos debemos enfocarnos, y con qué parámetros analizaremos esos aspectos.

Algunos objetivos posibles a perseguir pueden ser:

Cumplir con requerimientos no funcionales

Además de la definición de requerimientos funcionales (por ejemplo en forma de casos de uso), un sistema se pueden definir también con requerimientos que son ortogonales a los funcionales. Ejemplos típicos de estos requerimientos no funcionales pueden ser seguridad, escalabilidad, volumen de datos a manejar o niveles mínimos aceptables de performance.

El cumplimiento o no de algunos requerimientos no
funcionales se puede determinar en función del resultado de tests de performance, si se diseñan para comprobar que el sistema cumple con los criterios establecidos.

Conocer nuestro sistema

Un test de performance puede ser utilizado para conocer cuánto podemos esperar de nuestro sistema para un aspecto determinado. Volviendo al caso del web service, si bien puede que no haya requerimientos no funcionales acerca de la cantidad máxima de requests por segundo, puede llegar a interesarnos el conocer su límite, para tenerlo en cuenta luego en un monitoreo en producción. Por supuesto, que este tipo de test de performance debe ser realizado en un ambiente (hardware, software, datos) lo más parecido posible al real.

También puede ser interesante determinar cuál es el aspecto limitante, y que este conocimiento nos ayude en un futuro dimensionamiento de sistemas similares.

Profiling

Si pensamos en hacer tests de performance utilizando además herramientas de profiling,
podremos pensar en encontrar cuellos de botella de nuestro sistema. Una sesión de profiling puede ser tan simple como registrar estadísticas en un log y analizarlas a mano o tan complejas como el uso de herramientas especialmente construidas para este fin. Un ejemplo de dichas herramientas para el caso del lenguaje Java puede ser el excelente JProfiler, que permite monitorear el tiempo usado por cada método, clase, paquete e inclusive invocaciones JDBC o JMS. También permite monitorear el uso de memoria en los diferentes heaps, garbage collection o cantidad de instancias por clase.

Para el uso de herramientas de profiling generalmente es necesario generar en el sistema una carga de trabajo que simule su uso en la vida real. Acá es donde los tests de performance entran en juego, combinándose una herramienta que sepa generar la carga, y otro que sepa analizar el funcionamiento de nuestro sistema.

Cabe
destacar que la performance de nuestro sistema es muy inferior cuando la herramienta de profiling la monitorea, pero los recursos consumidos deberían ser proporcionales a los reales.

Comparación entre sistemas

Los tests de performance y de stress pueden servir para conocer y optimizar nuestro sistema, pero también pueden servir para comparar dos o más sistemas similares, y determinar cuál de ellos es superior en algún aspecto que nos interese comparar.

Un ejemplo de esto puede ser la comparación entre dos implementaciones de una misma funcionalidad. Otro posible podría ser la medición de performance de dos motores de base de datos diferentes. Es más, podemos querer determinar cómo se comporta un mismo sistema en distintos ambientes, haciendo cambios en el hardware o en el software de base (por ejemplo sistema operativo) y descubrir cómo impactan estos cambios en la performance de nuestro sistema.

Objetos

La lista de objetos o sistemas a los que podemos realizarles tests de
performance y de stress es demasiado amplia para detallarla en su totalidad. A modo de ejemplo, algunos de los sistemas objeto de los tests pueden ser:

  • Bases de datos, stored procedures, consultas SQL
  • Web services
  • Sitios y servidores web
  • Servidores FTP
  • Colas de mensajes (MQs)
  • Sistemas que interactúan directamente utilizando mediante conexiones TCP/IP

Tipos de tests de stress

Como comentamos al principio, los tests de stress o de performance pueden apuntar a aspectos bien diferentes de un sistema. Repasemos cuáles de estos aspectos nos pueden interesar.

Concurrencia

En sistemas de tipo servidor, siempre es importante comprobar que para un sistema es posible procesar correctamente la carga de invocaciones de sus clientes. En general, esta carga es medida en función de la cantidad de pedidos que es capaz de contestar por unidad de tiempo (medida en TPS – transacciones por segundo) y en función de la cantidad de
clientes concurrentes que le realizan esos pedidos. En la gran mayoría de los casos estas dos variables no son independientes.

Tiempo de respuesta

De la mano de las TPS para una determinada cantidad de clientes viene el tiempo requerido para procesar cada invocación. Generalmente este tiempo de respuesta crece cuando se crece la cantidad de clientes o la cantidad de TPS generadas por cada cliente. La rapidez con la que crece el tiempo de respuesta determinará -de forma inversamente proporcional- la escalabilidad de nuestro sistema.

Generalmente es uno de los requerimientos no funcionales de sistemas cliente-servidor o servidor, e impacta directamente en la agilidad percibida por el usuario final. Es necesario definir y verificar los requerimientos mínimos determinando de antemano el ambiente y un perfil de uso.

De resistencia (endurance testing)

Los tests de resistencia generalmente se realizan para determinar o comprobar que un sistema puede funcionar cierto tiempo con la carga esperada. En estos tests pueden surgir problemas de degradación de performance o resource leaks (memoria RAM, handles de archivos, conexiones abiertas, etc.). También –especialmente en sistemas con alta concurrencia– pueden ser útiles para detectar deadlocks, situaciones de por si bastante complicadas de diagnosticar y solucionar.

Límite del sistema (break point)

El encontrar el límite o break point de un sistema implica exigirlo hasta tal punto que ya no sea capaz de responder como debería. Para simular escenarios de stress extremo podemos optar por exigir al sistema de forma superior para la cual fue diseñado, o también tenemos la opción de destinar menos recursos de los previstos para el sistema: que esté en un servidor con el CPU ya ocupado, configurar el uso de memoria máximo permitido a menos de lo mínimo aconsejable, utilizar dispositivos de almacenamiento lentos, etc.

nSi bien no es esperado que el sistema procese de forma correcta todas las peticiones, con este tipo de tests podemos comprobar que el sistema se comportará de una manera aceptable (sin corromper datos o dejar recursos inutilizables).

A tener en cuenta

Existen varias consideraciones que, si no se tienen en cuenta pueden hacer que los tests de performance o de stress no ayuden a diagnosticar problemas, o que nos lleven camino a solucionar problemas que no existen.

Algunos de estos puntos son:

  • Repetibilidad: generalmente los tests de performance implicarán varios ciclos de correr el test, evaluar los resultados, hace algún cambio, y correr el test nuevamente. Es deseable tener un ambiente en el cual los tests se puedan repetir sin sufrir cambios en los resultados.
  • Se deberá recrear el ambiente de forma lo más similar posible para cada ronda. Se debe tener en cuenta que los arranques en frío (cold startup), caching, estado de los sistemas externos, etc. pueden
    afectar el resultado de los tests. Por ejemplo, un sistema que utilice una base de datos puede no tener inicializado su pool de conexiones a la base de datos en la primera ejecución del test, y esto hará que el primer ciclo de pruebas difiera en resultados del segundo y posteriores. Deberán ser consideradas técnicas de “calentamiento” del sistema, o correr los tests de cada ciclo partiendo del estado inicial.
  • Como consideración adicional a los puntos anteriores, puede ser deseable construir mocks (simuladores) de los sistemas externos. Esto ayudará a que nuestros tests sean más repetibles, ya que nos liberamos de una dependencia a sistemas que no podemos modificar. Como punto en contra de los mocks, debemos tener claro que pueden no comportarse de manera idéntica a los sistemas originales, distorsionando los tests.
  • Code freeze: es deseable que los diferentes ciclos de tests se ejecuten partiendo del mismo código, y que los cambios realizados sean conocidos.
    Debemos evitar introducir demasiados cambios entre ciclo y ciclo, para tener claro cómo impactó cada uno de ellos.
  • Si queremos conocer datos de cómo se comportará nuestro sistema en producción, el ambiente en el que corramos los tests debe ser lo más parecido al de producción posible. Esto incluye hardware, sistema operativo, base de datos, otros sistemas, configuración, etc. A veces no es posible acceder a este tipo sistemas, ya sea por su costo o porque directamente porque hay sistemas externos que no podemos utilizar para las pruebas. Si sabemos que podemos tener un cuello de botella distinto al de producción, considerar sistemas mocks para aislarnos del mismo (ver uno de los puntos anteriores).
  • Es deseable que la distribución del juego de datos para los test sea lo más parecida posible a la realidad. Por ejemplo, si sabemos al testear una base de datos que hay un 80% de selects, un 15% de inserts y que el restante 5% son updates, deberíamos
    distribuir las invocaciones SQL de la misma manera, para que el sistema se comporte de forma semejante a la real.
  • Utilizar un determinado juego de datos puede distorsionar los resultados de los tests. Imaginemos que nuestro sistema expone un web service con un método que recupera empleados de una tabla de una base de datos. Si nuestros tests invocan siempre el método del web service con el mismo identificador de empleado, podría pasar que los datos recuperados queden cacheados y no se esté yendo a la base de datos a recuperarlos. Otro escenario podría ser que se ocasionen bloqueos entre los diferentes pedidos concurrentes. Por ejemplo, si el mismo web service sólo permite una operación concurrente por empleado. En este caso, si todos los clientes del web service envían el mismo id de empleado, la carga no será representativa de la realidad, y los resultados serán mucho peores.

Herramientas

JMeter

JMeter es un projecto open source de Apache Jakarta. Está construido 100% en Java, lo que garantiza su portabilidad entre plataformas. Permite realizar tests de performance a una variedad de tipos de sistemas (desde servlets y páginas web estáticas hasta ejecución de stored procedures de una base de datos). Permite extensiones en la forma de nuevas clases de tests, lo que permite probar prácticamente cualquier tipo de sistema con cualquier juego de datos.

Brinda además herramientas para hacer análisis gráficos de los resultados, e inclusive posibilidades de controlar una “red de esclavos JMeter” para poder correr tests masivos sin que el cliente sea el cuello de botella.

JProfiler

JProfiler es un producto comercial de ej-technologies para hacer profiling de aplicaciones en tiempo real. Puede funcionar stand-alone o integrado a los IDEs más utilizados.

Su intuitiva interfaz gráfica, la facilidad de uso y su potencial lo hacen una excelente herramienta, digna de probarla por lo menos durante los 10 días de evaluación.

Scripts manuales

No es obligatorio contar con herramientas muy complejas para crear tests de stress o de performance. En algunos casos, un buen conjunto de scripts o de programas de test y algunas líneas adicionales de log de nuestra aplicación puede servir para descubrir cuellos de botella o para comprobar el correcto cumplimiento de ciertos requerimientos no funcionales.

Referencias

Wikipedia – Software load testing

MSDN Library patterns and practices – Performance Testing Guidance for Web Applications

The art of application performance testing (libro)

Performance vs. load vs. stress testing

JMeter

JProfiler

m2eclipse: un plugin de Eclipse para proyectos de Maven

m2eclipse es un plugin de Eclipse para la integración con Maven. Permite usarlo para manejar, proyectos simples, multi-módulo, ejecutar builds de Maven utilizando la interfaz de Eclipse e interactuar con repositorios de Maven. El plugin ya está bastante maduro, y resulta muy cómodo para trabajar con este tipo de proyectos.

La instalación es bastante simple. Tenemos que agregar el update site, que es http://m2eclipse.sonatype.org/sites/m2e. Hay una única opción para instalar, llamada “Maven Integration for Eclipse (Required)“. Se instalará el core, el editor de POMs y la integración al repositorio de Maven.

En el sitio oficial hay target="_blank">links a videos bastante descriptivos acerca del proceso de instalación, creación de proyectos, etc.

m2eclipse trae un Maven embebido. Si ya tenemos una instalación de Maven configurada y un repositorio local con artefactos descargados podemos aprovecharla, configurando m2eclipse para que haga uso de ella. Para agregar instalaciones de Maven a m2clipse, debemos acceder al menú de preferencias de Eclipse, agregar la instalación seleccionando el directorio en el cual está ubicado y marcarla como la instalación activa:
Configurar instalaciones de maven height="594" />

El plugin cuenta con bastante documentación. Es posible descargar la referencia de m2eclipse en PDF desde éste link (es necesario llenar algunos datos) o leer la documentación on-line aquí. Tiene una FAQ bastante completa, y el blog de m2eclipse es éste.

La página principal del plug-in es http://m2eclipse.sonatype.org/index.html

Tests parametrizados con TestNG

En el post anterior vimos cómo podíamos implementar tests parametrizados utilizando JUnit 4. TestNG es un framework similar a JUnit, compartiendo entre ellos casi la totalidad de sus features.

TestNG propone un enfoque un poco diferente a la implementación de tests parametrizados. Me pareció más flexible y prolija, por lo que creo que vale la pena continuar el post anterior con el ejemplo implementado utilizando este framework.

En TestNG, los pasos que debemos seguir para implementar un test parametrizado son los siguientes:

  • Escribir un método anotado con @DataProvider(name = “[nombre]“), donde [nombre] es el nombre por el cual se referenciará a este DataProvider en los métodos de test. Si los juegos de datos tienen más de una variable, deberá retornar un array
    multidimensional. Si es necesario -generalmente lo es-, podría contener además el resultado esperado para cada juego de datos de entrada.
  • Escribir un método anotado con @Test(dataProvider = “[nombre]“), que reciba tantos parámetros como cantidad de datos se tenga en cada item del array que retorna el método anotado con @DataProvider.

No hay necesidad de aislar los tests parametrizados de los tests que no lo son. Se puede inclusive tener varios DataProviders en una misma clase, asociando métodos de tests diferentes a cada uno.

Veamos un ejemplo de la case de test utilizando TestNG (el proyecto está disponible para bajar aquí):

package com.josearrarte;

import static org.junit.Assert.assertEquals;

import org.testng.annotations.DataProvider;
import org.testng.annotations.Test;

public class ParametrizedTestNGTest {

	@DataProvider(name="test1")
	public 
Object[][] createData1() {
		return new Object[][] { 
				{ DateFormatProvider.OPERATION_TYPE_1, "MMYY" },
				{ DateFormatProvider.OPERATION_TYPE_2, "YYMM" }, 
				{ DateFormatProvider.OPERATION_TYPE_3, "YYYYMM" } };
	}

	@Test(dataProvider="test1")
	public void verifyDateFormats(int operationType, String dateFormat)
		throws Exception {
		DateFormatProvider provider = new DateFormatProvider();
		
		String result = provider.getDateFormatFor(operationType);
		assertEquals(dateFormat, result);
	}

	@Test(expectedExceptions=IllegalArgumentException.class)
	public void verifyDateFormats_ShouldThrowIllegalArgumentException()
		throws Exception {
		DateFormatProvider provider = new DateFormatProvider();
		
		provider.getDateFormatFor(-1);
	}	
}

Como vemos, la idea es exactamente la misma que en JUnit, pero está mejor implementada. Los tests parametrizados se diferencian mejor, y no es necesario tener miembros de la clase y constructores
comunes para almacenar los datos.

Además, el hecho de separar la creación de los tests (instanciación) con la generación de los juegos de datos (data providers) nos permite tener en una misma clase tests con y sin parámetros.

Tests parametrizados con JUnit 4

Una de las nuevas características de JUnit 4 es la posibilidad de correr tests parametrizados. Los tests parametrizados son una forma de escribir un test genérico y poder correrlo con juegos de datos diferentes.

Creando tests parametrizados

Para crear un test parametrizado con JUnit, necesitamos seguir los siguientes pasos:

  • Crear una clase de test anotada con @RunWith(Parameterized.class). El nombre completo del runner es org.junit.runners.Parameterized.
  • Agregar miembros de la clase que representen los parámetros de los tests.  Estos miembros no necesitan tener getters y setters, y pueden ser miembros privados.
  • Crear un constructor común de la clase, que reciba parámetros del tipo de los miembros y les asigne sus valores.
  • Crear un método estático que retorne una java.util.Collection.  Este
    método deberá estar anotado con @Parameters, y será el que define el juego de datos a utilizar.  Si los juegos de datos tienen más de una variable, deberá retornar una colección de arrays. Si es necesario -generalmente lo es-, podría contener además el resultado esperado para cada juego de datos de entrada.
  • Escribir un método anotado con @Test, en el cual se usen los miembros de la clase antes definidos.

Ejecución de tests parametrizados

La ejecución de un test parametrizado se realiza de forma idéntica a un test normal.

Al ejecutar el test, JUnit invocará al método anotado con @Parameters, construirá la clase de test tantas veces como juegos de datos haya, invocando cada vez al constructor con un juego diferente de datos. En cada una de esas instancias del tests ejecutará el test de forma normal, invocando -si existen- a los métodos anotados con @BeforeClass, @AfterClass, @Before, @After y al test en si. En resumen, la ejecución será:

  • @Parameters
  • @BeforeClass
  • @Before
  • @Test (juego de datos 1)
  • @After
  • @Before
  • @Test (juego de datos 2)
  • @After
  • @Before
  • @Test (juego de datos N)
  • @After
  • @AfterClass

Ejemplo

A modo de ejemplo imaginemos que tenemos una clase com.josearrarte.DateFormatProvider con un método getDateFormatFor(int operationType) y que, dependiendo del valor del operationType recibido, retorna un java.lang.Stringcon diferentes formatos de fecha (“MMYY”, “YYMM” o “MMYYYY”).

El código completo del ejemplo está disponible para bajar aquí.

package com.josearrarte;

public class DateFormatProvider {

	public 
static final int OPERATION_TYPE_1 = 1;
	
	public static final int OPERATION_TYPE_2 = 2;
	
	public static final int OPERATION_TYPE_3 = 3;

	public String getDateFormatFor(int operationType) 
		throws IllegalArgumentException {

		switch (operationType) {
			case OPERATION_TYPE_1: {
				return "MMYY";
			}
			case OPERATION_TYPE_2: {
				return "YYMM";
			}
			case OPERATION_TYPE_3: {
				return "YYYYMM";
			}
			default: {
				throw new IllegalArgumentException("Unknown operation type");
			}
		}
	}
}

Podríamos generar una serie de tests parametrizados para los flujos básicos de ejecución y otro test para le caso que operationType no sea 1, 2 o 3. La clase de test podría ser como la siguiente;

package com.josearrarte;

import static org.junit.Assert.assertEquals;

import java.util.Arrays;
import java.util.Collection;

import org.junit.Test;
import org.junit.runner.RunWith;
import org.junit.runners.
Parameterized;
import org.junit.runners.Parameterized.Parameters;

@RunWith(Parameterized.class)
public class ParametrizedJunitTest {

	private int operationType;
	private String dateFormat;

	public ParametrizedJunitTest(int operationType, String dateFormat) {
		super();
		this.operationType = operationType;
		this.dateFormat = dateFormat;
	}
	
	@Parameters
	public static Collection operationTypeValues() {
		
		return Arrays.asList(new Object[][] { 
				{ DateFormatProvider.OPERATION_TYPE_1, "MMYY" },
				{ DateFormatProvider.OPERATION_TYPE_2, "YYMM" }, 
				{ DateFormatProvider.OPERATION_TYPE_3, "YYYYMM" }
		});
	}

	@Test
	public void verifyDateFormats() throws Exception {
		DateFormatProvider provider = new DateFormatProvider();
		
		String result = provider.getDateFormatFor(operationType);
		assertEquals(dateFormat, result);
	}

	@Test(expected=IllegalArgumentException.class)
	public void verifyDateFormats_
ShouldThrowIllegalArgumentException() 
		throws Exception {

		DateFormatProvider provider = new DateFormatProvider();
		
		provider.getDateFormatFor(-1);
	}
}

Dejo planteado un problema que no supe resolver con JUnit. Si escribo un test parametrizado y otro que no es parametrizado en una misma clase, JUnit correrá a ambos como si fueran parametrizados, tantas veces como el tamaño de la colección de los datos. No encontré forma de configurar JUnit para que uno de los métodos (verifyDateFormats_ShouldThrowIllegalArgumentException() en el ejemplo) se ejecute como un test común y corriente. En éste post muestro cómo se puede resolver este tema utilizando TestNG en lugar de JUnit 4.

En resumen

Los tests parametrizados nos simplifican la tarea de escribir varios tests cuando su implementación es similar entre ellas.
Generalmente aporta claridad al código de la clase de test, ya que no se escribe tanto código repetido.

Sin embargo, si utilizamos JUnit debemos escribir los tests parametrizados en una clase separada de los tests comunes, ya que no es posible decirle a JUnit la forma de ejecutar un método de test y otro. Si no queremos tener este problema podemos utilizar TestNG, otro framework de testing unitario. En éste post muestro detalles de cómo hacerlo.

Quinta edición del CSS Naked Day

Este 9 de abril y por quinto año consecutivo se celebra el CSS Naked Day. La idea detrás de este evento es promocionar los estándares web. Durante 48 horas (tiempo durante el cual es 9 de abril en algún lugar del mundo) los interesados en apoyar la iniciativa “desnudan” sus sitios mostrándolos sin CSS.

Según la página oficial del CSS Naked Day

La idea detrás del CSS Naked Day (Día de CSS Desnudo) es promover los estándares web.
Esto incluye uso correcto de (X)HTML, markup semántico, una buena estructura jerárquica y por supuesto, un juego de palabras. Es hora de mostrar tu cuerpo ()

Para apoyar esta iniciativa, instalé este plugin de WordPress que automatiza esto de sacar los CSS del blog. El plugin provee una función PHP is_naked_day() para facilitar las cosas, pero le modifiqué la
implementación según el código de la página oficial:

function is_naked_day() {
  $start = date('U', mktime(-12, 0, 0, 04, 9, date('Y')));
  $end = date('U', mktime(36, 0, 0, 04, 9, date('Y')));
  $z = date('Z') * -1;
  $now = time() + $z; 
  if ( $now >= $start && $now <= $end ) {
    return true;
  }
  return false;
}

Saludos, y todos a disfrutar de la desnudez.