Ceph – Tranquilinho

Secuencia de escritura

El cliente conoce los monitores que figuran en el fichero de configuraciÃ³n ceph.conf. Contacta con uno para conseguir una copia actualizada del «Cluster Map». Este mapa global contiene la topologÃa del cluster Ceph, repartida en 5 mapas especÃficos: el mapa de los monitores, el mapa de los OSD, el mapa de los PG («Placement Groups«), el mapa CRUSH y el mapa MDS (MetaData Server).

El cliente elige en quÃ© «pool» (grupo) va a escribir. Cada pool define el nÃºmero de PGs y una regla CRUSH.

Empleando el algoritmo CRUSH («Controlled Replication Under Scalable Hashing»), el cliente sabe en que PG guardar los objetos (cada uno con su identificador) correspondientes a la informaciÃ³n que desea almacenar. A partir del PG, puede calcular (hash del identificador del objeto, mÃ³dulo el nÃºmero de PGs del pool) la ubicaciÃ³n del objeto, POOL_ID.PG_ID. Cada ubicaciÃ³n es servida por un conjunto de demonios OSDs (dispositivos de almacenamiento de objetos). Al conjunto se le denomina «Acting set». Dentro del «Acting set», el demonio «primario» es al que el cliente realmente envÃa los datos a escribir. El primario se encarga ademÃ¡s de coordinar el consenso («peering») con los demÃ¡s demonios respecto al estado de todos los objetos del PG (con sus metadatos). TambiÃ©n se encarga de gestionar la redundancia de los datos de los objetos (tanto rÃ©plicas como codificaciÃ³n con correcciÃ³n)

Dentro de cada OSD, los objetos se organizan en un espacio de nombres plano (sin jerarquÃa). Cada objeto, ademÃ¡s de los datos (binarios) en sÃ, tiene un identificador (Ãºnico en todo el cluster Ceph) y metadatos (conjunto de claves-valor)

Rebalanceo

Cuando se incorpora un OSD al cluster Ceph, la mayorÃa de los PGs permanecen en sus OSD originales, mientras otros cambian, a fin de equilibrar el reparto de los PG entre los OSD.

Repaso

Periodicamente (una vez al dÃa), los OSDs comparan los metadatos de sus objetos con los de otros OSDs. El repaso profundo compara el contenido de los objetos, byte a byte (tÃpicamente, una vez a la semana)

CodificaciÃ³n con correcciÃ³n (CC, «Erasure Coding (EC)»)

La redundancia dentro de un «pool» puede hacerse por rÃ©plica o por CC.

Con CC, cada objeto se divide en K bloques de datos («data chunks») y M bloques de codificaciÃ³n («coding chunks»). Los bloques de datos se reparten la informaciÃ³n original, mientras los bloques de codificaciÃ³n permiten reconstruir la informaciÃ³n original en caso de que se pierda el acceso a alguno de los bloques (como mÃ¡ximo, tantos bloques inaccesibles como M). El orden de los bloques se guarda en el atributo shard_t de los metadatos del objeto.

Las escrituras de cada bloque de datos son asÃncronas: a medida que cada OSD completa el almacenamiento del bloque de datos que le toca, actualiza su registro de cambios (log) local y avisa al OSD primario. Si todo ha ido bien, cada OSD dispone de la Ãºltima versiÃ³n de los bloques que conforman el objeto, con lo cual se pueden eliminar los bloques (ficheros) que guardaban la versiÃ³n anterior de cada bloque (si la habÃa).

Si el OSD primario se cae, uno de los OSD disponibles (que no sea parte ya del «acting set») le reemplaza en el PG y se revisan los logs locales de cada OSD, a fin de que el estado del objeto sea consistente.

Para cada «pool» se puede escoger quÃ© algoritmo utilizar para la codificaciÃ³n con correcciÃ³n: Reed-Solomon, jerasure…

El espacio neto disponible con EC se calcula mediante la siguiente fÃ³rmula:

c = nOSD * k / (k+m) * tamaÃ±o OSD

Por ejemplo, con 64 OSD de 4 TB cada uno, 4 bloques de datos y 2 de codificaciÃ³n, serÃa 170 TB. Con 10 bloques de datos y 1 de codificaciÃ³n, serÃa 232 TB. Lo ideal es buscar un equilibrio entre el mayor espacio neto posible y el menor riesgo. Cuanto mayor sea el factor datos:codificaciÃ³n, mayor el aprovechamiento, pero tambiÃ©n la probabilidad de que fallen mÃ¡s bloques de los que la codificaciÃ³n permite reconstruir.

DocumentaciÃ³n relacionada: Erasure coding notes, Erasure coding overhead.

Estados OSD

Up/Down/Failed (activo o en fallo)
In/Out (dentro o fuera del cluster)

Estados de los PG

Peering: «poniendo de acuerdo» a todos los OSD del PG sobre el estado de los objetos (datos y metadatos) / Active (los datos estÃ¡n disponibles en el PG primario y sus rÃ©plicas)
/ activating / not active
Clean: los PG estÃ¡n replicados el nÃºmero de veces esperado / Degraded: al menos 1 OSD del PG no estÃ¡ operativo / Down: el PG no estÃ¡ disponible / Recovering: uno de los OSD del PG se estÃ¡ sincronizando a partir de las rÃ©plicas
Undersized: el PG tiene menos copias de las requeridas
Backfilling: los OSD que se han aÃ±adido al PG estÃ¡n recibiendo datos del resto, para que la carga se reparta entre todos los OSD del PG
Remapped: se estÃ¡ cambiando de OSD primario
Stale: el OSD primario del PG no estÃ¡ operativo
Inconsistent: alguna de las rÃ©plicas tiene inconsistencias
Scrubbing / deep
Creating

Dejar un comentario Cancelar la respuesta