Tests de performance y de stress

Introducción

Los tests de performance son aquellos que sirven para determinar qué tan rápido o qué tan bien se comporta un sistema sometido a una carga en particular. También pueden ser utilizados para validar y verificar otros requerimientos no funcionales del sistema como ser estabilidad, escalabilidad, disponibilidad o consumo de recursos.

Los tests de performance pueden buscar diferentes objetivos. Pueden servir para demostrar que un sistema cumple con determinado criterio de aceptación, para comparar dos sistemas y determinar cuál se comporta mejor o bien para detectar qué sistema externo o qué componente interno es el cuello de botella. Para el último caso, los tests de performance se pueden utilizar junto a profilers para medir y determinar cómo se distribuye el uso de recursos (tiempo, CPU, I/O, memoria, etc.) entre los diferentes componentes del sistema.

Los tests de stress, en cambio, son tests diseñados para verificar el comportamiento de un sistema al introducir caos o incertidumbre, y el objetivo es comprobar la robustez del software cuando es sometido a condiciones diferentes a la de operación normal. Estos tests son particularmente importantes para software considerado crítico, y hacen énfasis en características como robustez, disponibilidad o manejo controlado de errores y situaciones de excepción.

Al igual que con los tests unitarios o de integración, la noción de “testear temprano y testear seguido” también aplica para los tests de performance y de stress. Es importante considerar al principio de un proyecto si se van a requerir tests de performance y/o stress (por ejemplo para cumplir requerimientos no funcionales) o qué componentes van a participar de estos tests. De forma análoga
a la detección de bugs, la detección de problemas de performance se va complicando a medida que vamos avanzando en las etapas del proyecto, y nuestro sistema está más cerca del producto final. Si bien encontrar problemas de performance en una prueba de concepto o prototipo puede llegar a determinar un cambio de arquitectura o de tecnología y consumir varias horas de retrabajo, el detectar este mismo problema luego de puesto en producción puede llegar a ser un problema de varios órdenes de magnitud peor. Sin embargo, no es tan fácil poder contar con un ambiente, con los sistemas externos -o procesos que los simulen- y con los datos necesarios, pero es importante establecer si va a ser posible y en qué momento se realizarán.

Este post estará mayormente centrado en los tests de performance, pero varios de los puntos destacados aplican también a la hora de planificar los tests de stress.

Objetivos

Como comentábamos en la introducción, los tests de performance pueden perseguir diferentes objetivos.
Es importante delinear estos objetivos al diseñar los tests, así como también los parámetros fijos y variables con los que se ejecutarán. Por ejemplo, si imaginamos que queremos determinar la capacidad máxima de respuestas por segundo de un web service, no es lo mismo realizar las pruebas con 3 clientes concurrentes que con 3000 clientes concurrentes. Se debe conocer de antemano a la realización de los tests en qué aspectos debemos enfocarnos, y con qué parámetros analizaremos esos aspectos.

Algunos objetivos posibles a perseguir pueden ser:

Cumplir con requerimientos no funcionales

Además de la definición de requerimientos funcionales (por ejemplo en forma de casos de uso), un sistema se pueden definir también con requerimientos que son ortogonales a los funcionales. Ejemplos típicos de estos requerimientos no funcionales pueden ser seguridad, escalabilidad, volumen de datos a manejar o niveles mínimos aceptables de performance.

El cumplimiento o no de algunos requerimientos no
funcionales se puede determinar en función del resultado de tests de performance, si se diseñan para comprobar que el sistema cumple con los criterios establecidos.

Conocer nuestro sistema

Un test de performance puede ser utilizado para conocer cuánto podemos esperar de nuestro sistema para un aspecto determinado. Volviendo al caso del web service, si bien puede que no haya requerimientos no funcionales acerca de la cantidad máxima de requests por segundo, puede llegar a interesarnos el conocer su límite, para tenerlo en cuenta luego en un monitoreo en producción. Por supuesto, que este tipo de test de performance debe ser realizado en un ambiente (hardware, software, datos) lo más parecido posible al real.

También puede ser interesante determinar cuál es el aspecto limitante, y que este conocimiento nos ayude en un futuro dimensionamiento de sistemas similares.

Profiling

Si pensamos en hacer tests de performance utilizando además herramientas de profiling,
podremos pensar en encontrar cuellos de botella de nuestro sistema. Una sesión de profiling puede ser tan simple como registrar estadísticas en un log y analizarlas a mano o tan complejas como el uso de herramientas especialmente construidas para este fin. Un ejemplo de dichas herramientas para el caso del lenguaje Java puede ser el excelente JProfiler, que permite monitorear el tiempo usado por cada método, clase, paquete e inclusive invocaciones JDBC o JMS. También permite monitorear el uso de memoria en los diferentes heaps, garbage collection o cantidad de instancias por clase.

Para el uso de herramientas de profiling generalmente es necesario generar en el sistema una carga de trabajo que simule su uso en la vida real. Acá es donde los tests de performance entran en juego, combinándose una herramienta que sepa generar la carga, y otro que sepa analizar el funcionamiento de nuestro sistema.

Cabe
destacar que la performance de nuestro sistema es muy inferior cuando la herramienta de profiling la monitorea, pero los recursos consumidos deberían ser proporcionales a los reales.

Comparación entre sistemas

Los tests de performance y de stress pueden servir para conocer y optimizar nuestro sistema, pero también pueden servir para comparar dos o más sistemas similares, y determinar cuál de ellos es superior en algún aspecto que nos interese comparar.

Un ejemplo de esto puede ser la comparación entre dos implementaciones de una misma funcionalidad. Otro posible podría ser la medición de performance de dos motores de base de datos diferentes. Es más, podemos querer determinar cómo se comporta un mismo sistema en distintos ambientes, haciendo cambios en el hardware o en el software de base (por ejemplo sistema operativo) y descubrir cómo impactan estos cambios en la performance de nuestro sistema.

Objetos

La lista de objetos o sistemas a los que podemos realizarles tests de
performance y de stress es demasiado amplia para detallarla en su totalidad. A modo de ejemplo, algunos de los sistemas objeto de los tests pueden ser:

  • Bases de datos, stored procedures, consultas SQL
  • Web services
  • Sitios y servidores web
  • Servidores FTP
  • Colas de mensajes (MQs)
  • Sistemas que interactúan directamente utilizando mediante conexiones TCP/IP

Tipos de tests de stress

Como comentamos al principio, los tests de stress o de performance pueden apuntar a aspectos bien diferentes de un sistema. Repasemos cuáles de estos aspectos nos pueden interesar.

Concurrencia

En sistemas de tipo servidor, siempre es importante comprobar que para un sistema es posible procesar correctamente la carga de invocaciones de sus clientes. En general, esta carga es medida en función de la cantidad de pedidos que es capaz de contestar por unidad de tiempo (medida en TPS – transacciones por segundo) y en función de la cantidad de
clientes concurrentes que le realizan esos pedidos. En la gran mayoría de los casos estas dos variables no son independientes.

Tiempo de respuesta

De la mano de las TPS para una determinada cantidad de clientes viene el tiempo requerido para procesar cada invocación. Generalmente este tiempo de respuesta crece cuando se crece la cantidad de clientes o la cantidad de TPS generadas por cada cliente. La rapidez con la que crece el tiempo de respuesta determinará -de forma inversamente proporcional- la escalabilidad de nuestro sistema.

Generalmente es uno de los requerimientos no funcionales de sistemas cliente-servidor o servidor, e impacta directamente en la agilidad percibida por el usuario final. Es necesario definir y verificar los requerimientos mínimos determinando de antemano el ambiente y un perfil de uso.

De resistencia (endurance testing)

Los tests de resistencia generalmente se realizan para determinar o comprobar que un sistema puede funcionar cierto tiempo con la carga esperada. En estos tests pueden surgir problemas de degradación de performance o resource leaks (memoria RAM, handles de archivos, conexiones abiertas, etc.). También –especialmente en sistemas con alta concurrencia– pueden ser útiles para detectar deadlocks, situaciones de por si bastante complicadas de diagnosticar y solucionar.

Límite del sistema (break point)

El encontrar el límite o break point de un sistema implica exigirlo hasta tal punto que ya no sea capaz de responder como debería. Para simular escenarios de stress extremo podemos optar por exigir al sistema de forma superior para la cual fue diseñado, o también tenemos la opción de destinar menos recursos de los previstos para el sistema: que esté en un servidor con el CPU ya ocupado, configurar el uso de memoria máximo permitido a menos de lo mínimo aconsejable, utilizar dispositivos de almacenamiento lentos, etc.

nSi bien no es esperado que el sistema procese de forma correcta todas las peticiones, con este tipo de tests podemos comprobar que el sistema se comportará de una manera aceptable (sin corromper datos o dejar recursos inutilizables).

A tener en cuenta

Existen varias consideraciones que, si no se tienen en cuenta pueden hacer que los tests de performance o de stress no ayuden a diagnosticar problemas, o que nos lleven camino a solucionar problemas que no existen.

Algunos de estos puntos son:

  • Repetibilidad: generalmente los tests de performance implicarán varios ciclos de correr el test, evaluar los resultados, hace algún cambio, y correr el test nuevamente. Es deseable tener un ambiente en el cual los tests se puedan repetir sin sufrir cambios en los resultados.
  • Se deberá recrear el ambiente de forma lo más similar posible para cada ronda. Se debe tener en cuenta que los arranques en frío (cold startup), caching, estado de los sistemas externos, etc. pueden
    afectar el resultado de los tests. Por ejemplo, un sistema que utilice una base de datos puede no tener inicializado su pool de conexiones a la base de datos en la primera ejecución del test, y esto hará que el primer ciclo de pruebas difiera en resultados del segundo y posteriores. Deberán ser consideradas técnicas de “calentamiento” del sistema, o correr los tests de cada ciclo partiendo del estado inicial.
  • Como consideración adicional a los puntos anteriores, puede ser deseable construir mocks (simuladores) de los sistemas externos. Esto ayudará a que nuestros tests sean más repetibles, ya que nos liberamos de una dependencia a sistemas que no podemos modificar. Como punto en contra de los mocks, debemos tener claro que pueden no comportarse de manera idéntica a los sistemas originales, distorsionando los tests.
  • Code freeze: es deseable que los diferentes ciclos de tests se ejecuten partiendo del mismo código, y que los cambios realizados sean conocidos.
    Debemos evitar introducir demasiados cambios entre ciclo y ciclo, para tener claro cómo impactó cada uno de ellos.
  • Si queremos conocer datos de cómo se comportará nuestro sistema en producción, el ambiente en el que corramos los tests debe ser lo más parecido al de producción posible. Esto incluye hardware, sistema operativo, base de datos, otros sistemas, configuración, etc. A veces no es posible acceder a este tipo sistemas, ya sea por su costo o porque directamente porque hay sistemas externos que no podemos utilizar para las pruebas. Si sabemos que podemos tener un cuello de botella distinto al de producción, considerar sistemas mocks para aislarnos del mismo (ver uno de los puntos anteriores).
  • Es deseable que la distribución del juego de datos para los test sea lo más parecida posible a la realidad. Por ejemplo, si sabemos al testear una base de datos que hay un 80% de selects, un 15% de inserts y que el restante 5% son updates, deberíamos
    distribuir las invocaciones SQL de la misma manera, para que el sistema se comporte de forma semejante a la real.
  • Utilizar un determinado juego de datos puede distorsionar los resultados de los tests. Imaginemos que nuestro sistema expone un web service con un método que recupera empleados de una tabla de una base de datos. Si nuestros tests invocan siempre el método del web service con el mismo identificador de empleado, podría pasar que los datos recuperados queden cacheados y no se esté yendo a la base de datos a recuperarlos. Otro escenario podría ser que se ocasionen bloqueos entre los diferentes pedidos concurrentes. Por ejemplo, si el mismo web service sólo permite una operación concurrente por empleado. En este caso, si todos los clientes del web service envían el mismo id de empleado, la carga no será representativa de la realidad, y los resultados serán mucho peores.

Herramientas

JMeter

JMeter es un projecto open source de Apache Jakarta. Está construido 100% en Java, lo que garantiza su portabilidad entre plataformas. Permite realizar tests de performance a una variedad de tipos de sistemas (desde servlets y páginas web estáticas hasta ejecución de stored procedures de una base de datos). Permite extensiones en la forma de nuevas clases de tests, lo que permite probar prácticamente cualquier tipo de sistema con cualquier juego de datos.

Brinda además herramientas para hacer análisis gráficos de los resultados, e inclusive posibilidades de controlar una “red de esclavos JMeter” para poder correr tests masivos sin que el cliente sea el cuello de botella.

JProfiler

JProfiler es un producto comercial de ej-technologies para hacer profiling de aplicaciones en tiempo real. Puede funcionar stand-alone o integrado a los IDEs más utilizados.

Su intuitiva interfaz gráfica, la facilidad de uso y su potencial lo hacen una excelente herramienta, digna de probarla por lo menos durante los 10 días de evaluación.

Scripts manuales

No es obligatorio contar con herramientas muy complejas para crear tests de stress o de performance. En algunos casos, un buen conjunto de scripts o de programas de test y algunas líneas adicionales de log de nuestra aplicación puede servir para descubrir cuellos de botella o para comprobar el correcto cumplimiento de ciertos requerimientos no funcionales.

Referencias

Wikipedia – Software load testing

MSDN Library patterns and practices – Performance Testing Guidance for Web Applications

The art of application performance testing (libro)

Performance vs. load vs. stress testing

JMeter

JProfiler

Etiquetado , , . Bookmark the permalink.

4 respuestas a Tests de performance y de stress

  1. Monica says:

    Excelente Tito… meses de trabajo y experiencias resumidos en un blog 🙂

  2. Pingback: Tests de performance y de stress - DbRunas

  3. Pingback: Tests de performance y de stress | José Arrarte | Blog de notas | ordenadorservidor.com

  4. jarrarte says:

    @Monica
    Mónica, muchas gracias por tu comentario. Y es como dices, varios de los puntos del post son consecuencia de horas de prueba y error 😀 ¡Saludos!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *