Skip to content

Commit

Permalink
doc: fix typo
Browse files Browse the repository at this point in the history
  • Loading branch information
p-bizouard committed Jul 18, 2024
1 parent 9357314 commit 4ef7d91
Showing 1 changed file with 16 additions and 18 deletions.
34 changes: 16 additions & 18 deletions docs/troubleshooting.md
Original file line number Diff line number Diff line change
Expand Up @@ -3,46 +3,44 @@ hide:
- toc
---

## Troubleshooting

Les capacités de Kubernetes et des modules déployés permettent de résoudre automatiquement des problèmes courants.

Monitorer Aristote Dispatcher permet toutefois de vérifier en permanence l'état du cluster, en particulier en cas de problème plus profond, non résolu automatiquement.

### Senders

- __Le nombre de senders fluctue__
- **Le nombre de senders fluctue**

Ceci signifie que la connexion à la base de données ou à RabbitMQ ne s'effectue pas correctement. Les logs permettent d'obtenir plus d'informations.

Ceci signifie que la connexion à la base de données ou à RabbitMQ ne s'effectue pas correctement. Les logs permettent d'obtenir plus d'informations.

Dans le premier cas, elle est soit injoignable soit corrompue. Dans le second, le cluster RabbitMQ est peut-être détérioré.
Dans le premier cas, elle est soit injoignable soit corrompue. Dans le second, le cluster RabbitMQ est peut-être détérioré.

### Consumers

- __Le nombre de consumers fluctue__
- **Le nombre de consumers fluctue**

Ceci signifie que la connexion à RabbitMQ ne s'effectue pas correctement. Les logs permettent d'obtenir plus d'informations.
Ceci signifie que la connexion à RabbitMQ ne s'effectue pas correctement. Les logs permettent d'obtenir plus d'informations.

Le cluster RabbitMQ est peut-être détérioré.
Le cluster RabbitMQ est peut-être détérioré.

- __Un consumer redémarre en boucle de manière périodique__
- **Un consumer redémarre en boucle de manière périodique**

Ceci signifique que la connexion à vLLM ne s'effectue pas correctement. Les logs permettent d'obtenir plus d'informations.
Ceci signifique que la connexion à vLLM ne s'effectue pas correctement. Les logs permettent d'obtenir plus d'informations.

vLLM a probablement des difficultés à démarrer : carte graphique indisponible, modèle indisponible, ...
vLLM a probablement des difficultés à démarrer : carte graphique indisponible, modèle indisponible, ...

### RabbitMQ

- __Le cluster semble détérioré__
- **Le cluster semble détérioré**

Il faut identifier le ou les noeuds problématiques, et les redémarrer. Si votre monitoring le permet, inspecter l'état des queues permet de déterminer quels noeuds sont en retard (les moins remplis).
Il faut identifier le ou les noeuds problématiques, et les redémarrer. Si votre monitoring le permet, inspecter l'état des queues permet de déterminer quels noeuds sont en retard (les moins remplis).

- __Le nombre de queues est trop petit__
- **Le nombre de queues est trop petit**

En fonctionnement normal, le nombre de queue doit être égal à la somme du nombre de senders et du nombre de modèles différents. S'il y a un problème, inspecter l'état des queues ou redémarrer les consumers (sans danger) permettra de résoudre le problème.
En fonctionnement normal, le nombre de queue doit être égal à la somme du nombre de senders et du nombre de modèles différents. S'il y a un problème, inspecter l'état des queues ou redémarrer les consumers (sans danger) permettra de résoudre le problème.

### vLLM

- __La latence est trop élevée__
- **La latence est trop élevée**

Cela signifie que les cartes graphiques reçoivent plus de demandes qu'elles ne peuvent traiter. Il faut alors augmenter le nombre de cartes graphiques sur votre cluster.
Cela signifie que les cartes graphiques reçoivent plus de demandes qu'elles ne peuvent traiter. Il faut alors augmenter le nombre de cartes graphiques sur votre cluster.

0 comments on commit 4ef7d91

Please sign in to comment.