Le scarabée répétophobe
Détecteur de répétitions
Travaux en cours
Il n'y a pas longtemps, je suis tombé sur un répétoscope, dont le principe était tout simple : vous lui proposez un texte, et il vous affiche le "hit-parade" des mots que vous avez le plus utilisé dans ledit texte !
J'étais tout d'abord émerveillé, puis, plus je tâtais de la bête, plus j'étais déçu et trouvais que ce "répétoscope" ne faisait pas le vrai boulot qu'on lui demandait, c'est-à-dire : détecter les répétitions.
Par exemple, si vous utilisez trois fois le mot "plus" dans la même phrase, il ne détectera pas forcément cette odieuse répétition, car il s'est uniquement intéressé aux mots qui sont globalement le plus souvent répété.
Totalement indigné par cette escroquerie, j'ai décidé de créer mon propre répétoscope, que j'ai nommé : le Scarabée répétophobe !
(Pourquoi un scarabée ? me direz-vous. Tout simplement parce que ce noble animal, à l'instar de la mouche, a pour habitude de "fouiller dans la merde")
Non content de proposer la même "hit-parade" de vocabulaire, le scarabée répétophobe dispose en plus d'un vrai détecteur de répétitions, qui indique quand le même mot est utilisé plusieurs fois à de courtes reprises.
Bien que ça ne puisse totalement remplacer une méticuleuse relecture humaine, c'est un outil fort pratique pour corriger son texte avant de le publier, que ce soit un article de T&tra, un roman en cours d'écriture, ou une nouvelle trépidante.
Cependant, attention : comme tout outil, il faut savoir l'utiliser. Voici donc un petit guide d'utilisation du Scarabée répétophobe.
I - Sélectionner des mots ou des répétitions
Une fois que vous aurez analysé votre texte, vous disposerez de deux tables : la table des répétitions, et la table des mots. La première indique l'ensemble des répétitions proches qui ont été détectées, et est triée par ordre d'apparition. La deuxième indique l'ensemble des mots qui apparaissent plus de trois fois, et est triée par nombre d’occurrences.
Faire un clic gauche sélectionne la ligne visée.
Faire un clic gauche en maintenant alt permet de sélectionner plusieurs lignes.
Faire un clic gauche en maintenant shift permet de sélectionner une plage de lignes.
II - Accéder à une répétition
Cliquer sur un des mots de la table de répétition, amène directement à la première occurrence de cette répétition.
III - Valider une répétition
Beaucoup de répétitions détectées par le scarabée sont "normales" et n'ont pas lieu d'être remplacées. Afin d'aider à détecter les "mauvais répétitions", il est possible de double-cliquer sur une ligne afin de la faire changer de couleur. Cela permet, lors de l'analyse d'un texte, de séparer le bon grain de l'ivraie.
IV - Sauvegarder son travail
Séparer les bonnes répétitions des mauvaises peut s'avérer assez long. Fort heureusement, le Scarabée sauvegarde automatiquement le travail effectué. Vous pouvez fermer quand vous le désirer, lorsque vous rouvrirez la page, vous reviendrez là où vous en étiez.
V - Taille maximale d'un texte
Il n'y a pas de limites à la taille maximale d'un texte.
VI - Options
Il est possible de modifier la longueur minimale des mots qui seront traités, d'ajouter des exceptions au mot qui seront traité, et de modifier la finesse de l'analyse.
Plus la finesse de l'analyse est basse, plus l'algorithme sera laxiste quant à la distance maximale qui peut séparer deux répétitions. La proximité d'un groupe de répétitions est évaluée par la colonne "Poids" de la table de répétitions. Si la finesse de l'analyse est posée à 76, alors les répétitions dont le poids est inférieur à 76 ne seront pas prises en compte.
VII - Limites du scarabée
Le scarabée ne considérera pas : "Tu m'avais promis une promesse" comme une répétition. Il ne s'intéresse qu'aux mots strictement identiques, c'est pourquoi une relecture humaine reste indispensable.
Et voili voilou, je pense que j'ai tout dit.
Comme c'est une première version, il peut y avoir des bugs (il y en aura même sûrement). Si vous en trouvez, je serai ravi que vous me les reportiez :)
17:44 - 8 févr. 2016
Hey ! ça a l"air vraiment super ! :o J'ai pas encore trop testé, mais en tous cas l'idée et le design ont l'air très séduisants.
Pour ce qui est des textes plus longs, je pense qu'il suffit juste de faire par tranche. D'abord les 25 premiers K, ensuite de 15K à 40K, de 30 à 55K, etc Histoire de garder une cohérence entre les parties, sans surcharger de calculs le serveur (:
En tous cas, beau boulot :D J'utiliserai, à coup sûr !
20:04 - 8 févr. 2016
Hey !
J'en rêvais depuis si longtemps ^^
J'ai hâte de l'utiliser en conditions réelles.
Je te ferai des retours plus poussés lorsque je l'aurai testé sur un texte conséquent.
Merci :D
"J'ai une âme solitaire"
22:54 - 8 févr. 2016
Hey ! Beau boulot ! Je m'en vais moi aussi tester la bête dès que possible !
Merci de nous en faire profiter.
23:23 - 8 févr. 2016
Yep Chikoun, c'est ça l'idée. Dans la version actuelle, j'ai tenté de le faire travailler par morceaux de 9000 caractères, en lui octroyant une petite pause à chaque fois, mais ça n'arrange pas grand-chose car ce qui ralentit la bête c'est d'avoir un énorme aperçu plein de balises colorées.
La solution sera donc de séparer l'aperçu en plusieurs pages parmi lesquelles il sera possible de naviguer. À ce moment-là, l'analyse sera toujours très rapide et il n'y aura plus de limite de taille de texte.
J'attends vos retours quand vous aurez effectué quelques tests :)
08:54 - 9 févr. 2016
Super travail, merci de le partager.
Je l'utiliserais avec plaisir à la première occasion.
09:38 - 9 févr. 2016
16:17 - 10 févr. 2016
Inch'allah, une nouvelle version du scarabée répétophobe est prête à être utilisée et toutes les limitations de caractères ont disparues :) Je navigue à présent dans un texte de 70.000 caractères à la vitesse du clic.
17:21 - 10 févr. 2016
C'est vraiment super efficace ! Honnêtement, ça m'a permis de voir des répétitions que même des dizaines de relectures n'avaient pas révélées.
Par contre, j'ai une question. J'ai utilisé les Équilibristes pour tester. Le mot Équilibriste, je le dis 34 fois, sur l'ensemble des textes. Il le met à 500 points. Le mot "deux", je le dis 5 fois, dont une répétition proche (2 fois en 4 mots, c'est peut etre ca), et ca le met à 950 points.
En tous cas, c'est très instructif, et très rigolo. Je suis d'ailleurs content, car dans cette série de textes, qui sont pourtant hautement proches, j'utilise très peu les mêmes mots :D
Mais c'est très drôle de voir le champ lexical du texte par ce biais.
Par contre, j'avais vu avant qu'il y avait affiché les exceptions de déterminants etc. Ce serait bien de le laisser ainsi, au cas où on souhaite voir ca quand même. (Je laisse la remarque comme retour d'incompréhension première, mais avant même de poster j'ai vu le bouton "plus d'options" où ca y est, donc c'est cool)
A quoi sert "finesse de l'analyse" ?
17:28 - 10 févr. 2016
18:58 - 10 févr. 2016
Ah, en effet vos deux revendications se trouvent dans le bouton "Plus d'options" ;) Je me suis dit qu'il fallait séparer les exceptions de base, communes à tous les textes et que chacun fait évoluer au fil du temps et de son expérience, aux exceptions spécifiques à chaque texte, comme les noms propres notamment.
Ali si tu as du mal à lire les tables (et notamment le nombre de "points" de chaque répétition), je suppose que c'est parce que ton écran n'est pas très large ? Tu peux essayer de dézoomer un peu, ça pourrait aider à y voir plus clair.
Pour répondre à Chik, petit topo sur la façon dont les points sont calculés : chaque mot augmente les "points" de tous ses semblables dans le texte. Et plus il est proche d'un de ses semblables, plus il l'affecte avec force (et réciproquement). C'est pourquoi ton "deux" a vraiment un gros score et que ton "équilibriste" en a tout de même un très bon.
Une fois qu'on a trouvé tous les poids de tous les mots, alors il faut décider quand est-ce que ça forme un 'stack' de répétitions. Pour cela, j'utilise une valeur arbitraire qui est la finesse de l'analyse. Plus cette valeur est haute, plus l'analyse se concentrera sur les plus gros cas. Une finesse de 0 impliquera que deux mots, même s'ils sont chacun à un bout du texte, seront toujours considérés comme une répétition. J'ai trouvé qu'une finesse entre 20 et 30 procure les meilleurs résultats, ensuite c'est à chacun de décider.
23:38 - 12 févr. 2016
J'ai essayé et c'est v'la cool. Merci, Lepz' (:
10:32 - 13 févr. 2016
En fait, je n'avais pas vu les options, mais en dézoomant, j'y ai eu accès et tout fonctionne mieux. Merci !
00:45 - 15 févr. 2016
Ceci dit, le fait de ne pas avoir accès aux options avec un plus gros zoom est une grossière erreur de ma part !
Une grossière erreur que je vais tout de suite m'empresser de ne pas corriger, car j'ai vraiment la flemme !
(mais ce sera fait un jour, promis)
13:54 - 15 févr. 2016
:)
14:40 - 15 févr. 2016
Je suis content de te revoir passer, Choupinne, par contre le flood est particulièrement évitable.