Séance du 9 et 16 novembre 2022 (notes collectives)

# Séance du 9 et 16 novembre 2022 (notes collectives) ### À vous de remplir ce document ! Données partagées ici: https://cp.magistry.fr/drive/#/2/drive/view/23CYAMwj6mIptAjGtkNhZhXZ0pLqSWMqhhHO3FOwFS0/ ## Objectifs - Informations générales (cf. fichier de Felixa) - mode d'interaction: - commande simple - boucle d'interpréteur (cf. Shuaishuai) - normalisation (ex: pinyin en chinois) - recherche en deux temps (cf. doc de Guilhem) - Décomposition des sinogrammes - démo [silene](https://silene.magistry.fr) - des données ici [cjkvi-ids](https://raw.githubusercontent.com/cjkvi/cjkvi-ids/master/ids-analysis.txt) ## Commandes utiles ### filtrer l'information - `grep` pour cibler des lignes - `cut` pour cibler des colonnes ### Synthétiser l'information - `uniq` pour dédoublonner (en combinant avec `sort`) - `wc -l` pour compter des lignes ### Nettoyer - `tr` pour supprimer et remplacer des caractères - `sed` pour les cas difficiles ## Exemples de code ```bash= #!/bin/bash FICHIER_LEXIQUE=$1 NB_ENTREES=$(tail -n+3 $FICHIER_LEXIQUE | wc -l) #NB_ENTREES=$(tail -n+3 $FICHIER_LEXIQUE | cut 'KANJI') echo "Nombre d'entrées : $NB_ENTREES" NB_KANJI=$(tail -n+3 $FICHIER_LEXIQUE | cut -f 1 | sort | uniq | wc -l)