Sistema de almacenamiento ceph

viernes 11 de noviembre de 2016 - 15:01 GMT+0000

Sistemas de almacenamiento de datos en la ULL

    Los datos constituyen en la actualidad un activo muy importante para una entidad, y su correcto almacenamiento es un pilar fundamental para el desarrollo de las actividades de cualquier empresa. Una Universidad debe disponer de infraestructuras que cumplan estrictos criterios de seguridad, disponibilidad y eficiencia a la hora de almacenar y acceder a sus datos.

    Desde el Servicio TIC, a lo largo del tiempo, esta seguridad, disponibilidad y eficiencia se ha logrado usando diferentes soluciones o más bien, una combinación estas.

En líneas generales, las tecnologías que se usan son:

Sistemas tipo SAN

Consisten en grandes equipos, muy potentes, gestionados de forma centralizada y que permiten acceso a los datos a alta velocidad.

Ventajas

      1. Se consigue un alto rendimiento de acceso ya que la conexión suele ser a través de redes de fibra óptica y los discos son de diferentes tecnologías.
      2. Se pueden conseguir grandes capacidades de almacenamiento por la capacidad de ampliación que nos ofrece.

Desventajas

      1. Muchos servicios en una misma infraestructura, por lo que cualquier actuación significa dejar de dar servicios, lo que implica que se llegue a tener gran dependencia en una sola infraestructura.
      2. Precio muy alto, tanto de adquisición como de mantenimiento y ampliaciones.
      3. Alta dependencia con el fabricante, son soluciones propietarias.
      4. Un cambio de tecnología es un proceso traumático para la organización.

Sistemas tipo NAS

    Consiste en cabinas de disco a los que se accede a través de la red, normalmente sus capacidades son de varios órdenes de magnitud menor que las SAN. Para conseguir  alta disponibilidad, se configuran en parejas redundantes.

Ventajas

      1. Buen rendimiento, aunque menor que las SAN.
      2. Coste menor que las SAN.

Desventajas

      1. Dependencia de fabricante.
      2. Para crecer, normalmente es necesario adquirir más equipos.
      3. Son soluciones poco flexibles

Ceph

    Ceph es un sistema de almacenamiento distribuido destinado a proporcionar un buen rendimiento y una alta fiabilidad y escalabilidad. Está desarrollado en código abierto, por lo que está disponible libremente y se ejecuta sobre hardware básico.

Ventajas

      1. Rendimiento bastante alto
      2. Coste relativamente bajo y que se reduce cada vez más según la capacidad aumenta.
      3. Total independencia de fabricantes
      4. Para crecer, sólo es es necesario añadir más equipos, crecimiento horizontal.
      5. Soluciones altamente flexibles.
      6. Control total sobre la solución.

Desventajas

      1. Para pequeñas capacidades, el coste de implantación es elevado.
      2. Dependiendo de la entidad donde se monta, el que todo sea autogestionado, podría ser una desventaja.

Si le interesa conocer la historia que hay detrás de Ceph puede hacerlo a través del siguiente enlace.

Nuestra solución

    En el Servicio TIC se han utilizado tanto sistemas NAS como SAN, pero debido a los defectos mencionados en este artículo, los sistemas tipo SAN se han dejado de utilizar y actualmente los sistemas de almacenamiento se ofrecen con tecnologías tipo NAS y Ceph. Nos centraremos en nuestra experiencia con ceph, pues para la parte de NAS, ya hay mucha documentación sobre esta tecnología.

    Los principales objetivos que justifican la implantación de un sistema de estas características en el Servicio TIC son:

  1. Proporcionar almacenamiento tanto a máquinas virtuales, como a máquinas físicas alojadas en el Centro de Proceso de Datos (CPD).
  2. Depositar grandes cantidades de datos a un precio asequible para garantizar la sostenibilidad y con alta disponibilidad.
  3. Ampliar la capacidad del sistema según se vaya necesitando y de forma totalmente horizontal.

captura

 

    Ceph de por sí no proporciona la flexibilidad suficiente para cubrir toda la casuística que se nos presentaba. Por ello, además del cluster Ceph, se ha implantado un cluster de tipo pacemaker – también empleando software open source –  a modo de cabecera para proveer servicios mediante los protocolos iSCSI, NFS y SMB.

  • El protocolo iSCSI va destinado a proveer la infraestructura de máquinas virtuales.
  • El protocolo NFS para servidores en general alojados en nuestro centro de datos y con administración propia.
  • El protocolo SMB que proporciona almacenamiento para servidores en status de “housing” en nuestro centro de datos, así como para el servicio de disco duro virtual de la institución (DDV).

    En el caso de los volúmenes exportados mediante RBD, NFS y SMB se nos presentan las siguientes ventajas adicionales respecto a la realización de copias de seguridad:

  1. Pueden programarse en los nodos cabecera y hacerse desde estos sin intervención de la máquina a la que dan servicio.
  2. Pueden hacerse en caliente mediante snapshots, con lo que son consistentes respecto a un determinado punto en el tiempo.
  3. Van destinadas directamente a almacenamiento “frío” (dispositivos LTO-5 en este caso).
  4. Pueden hacerse de forma incremental.

    En conclusión, el sistema de almacenamiento Ceph nos aporta control total sobre el sistema, posibilidad de crecimiento horizontal, e independencia de cualquier fabricante, coste reducido para grandes cantidades de datos y un buen rendimiento, por lo que parece que se va a convertir en el backend de almacenamiento principal de la Universidad para los próximos años.