-
Notifications
You must be signed in to change notification settings - Fork 5
/
Copy pathIdees.txt
27 lines (21 loc) · 1.21 KB
/
Idees.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Concepts ?
- repérer les mots qui n'existent qu'à plusieurs ou les expressions courantes
et ne les compter que comme un "seul mot"
ex: point de vue => le bigramme point+vue deviendrait un partie d'un trigramme
-> colocation / mot figé
Pondération ?
- pondérer plus les concepts de la première phrase et de la dernière phrase de chaque paragraphe/texte
-> pas utile! bon dans ce corpus d'articles journalistiques, mais mauvais pour d'autres domaines.
- pondérer plus les concepts provenant de citation (donc entre guillemets) ?
- Les phrases prises sont quasiment toujours dans les textes les plus longs, très rarement dans les textes courts.
Importance de la longueur des textes à revoir ?
- Phrases avec beaucoup de noms propres (en tout cas beaucoup de majuscules) semblent privilégiées.
Réduire l'importance des noms propres ?
TODO
Oracle
regarder longueur de résumé (si toujours 100 mots)
Comment changer les bigrammes? nouvelle approche du découpage des phrases
skipbigramm, ?
pondération maligne = les bigrammes et les trigrammes n'ont pas le même poids avec le même nombre d'occurences.
chercher les unigrammes qui n'apparaissent pas dans un bigramme, Back-off(?)
Interpolation(?)