-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Генерация датасета из регулярных выражений #111
base: dev
Are you sure you want to change the base?
Conversation
Build Documentation скорее всего упадет, но это не страшно. Сегодня гитхаб барахлит |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
все ок, только лучше добавлять все сгенерированные тексты в какой-то один сплит, название которого передается как аргумент
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
В такой постановке возможна следующая ситуация: пользователь отдельно генерирует данные для трейна и теста, но, есть вероятность, что в обе части могут попасть одинаковые высказывания, особенно для интентов с малым количеством регулярок.
Подойдет ли такой вариант: добавлю функцию, которая генерирует высказывания и все складывает в сплит заданный пользователем, а текущий вариант оставим как есть?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
проблему одинаковых семплов пользователь будет решать тем что можно сначала сгенерировать, а потом уже разделить на сплиты
а поддерживать добавление сразу во все сплиты сложно потому что у нас поддерживается много конфигураций датасетов:
- train
- train val
- train test
- train val test
- train_0 train_1 val_0 val_1 test
и наверное еще какие-то
поэтому чтобы внутри функции не разбираться какая конфигурация попала нам в руки, лучше отдать все это под ответственность пользователя, который укажет имя сплита
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Готово.
Только есть проблема, мы не можем создавать датасет если в нем нет train сплита, вылетает exception.
Грубо говоря, параметр с именем сплита бесполезен.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
мне видится что этот функционал должен не создавать новый датасет, а дополнять тот, который пришел на вход; например в текущей реализации в новом датасете не сохраняется информация об имеющихся сплитах
хотелось бы чтобы split_name
обозначал имя сплита который и надо дополнить
еще я предлагаю оформить этот функционал в виде класса, как это сделано тут и тут, т.е. должен быть метод augment
который принимает на вход датасет, имя сплита и любые доп аргументы какие понадобятся
пока что текущая часть нашей библиотеки (autointent.generation
) оформлена не совсем консистентно, а немного даже хаотично, поэтому я понимаю почему все это было не очевидно и прошу прощения что сразу не объяснил все в подробностях
Временно закомиттил часть либы exrex (согласовано с Ильей). Подождем пока автор примет мои исправления.
Если все затянется, сделаем релиз собственного форка.