-
Notifications
You must be signed in to change notification settings - Fork 1
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Refactor vector index caching logic #80
Conversation
if len(set(n_classes)) != 1: | ||
message = ( | ||
f"Mismatch in number of classes across splits. Found class counts: {n_classes}. " | ||
"Ensure all splits have the same number of classes." | ||
) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
здесь можно сделать более подробное сообщение в духе перечислить сплиты и сколько классов в каждом найдено
seed=random_seed, | ||
) | ||
.values() | ||
def _split_test(self, test_size: float, random_seed: int) -> None: |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
наверное надо один из OOS сплитов (я полагаю OOS_2
) сразу конкатенировать с тестовым сплитом
но я не уверен, плохо помню как это используется на этапе оптимизации предикшена и на этапе тестирования
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
эти изменения в принципе можно обратить, я сам продолжу внедрять кеширование
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
и эти
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
в целом тут очень ценные изменения по логике работы с данными, я предлагаю на этом пр и закончить
единственное очень не хватает тестов со всевозможными юзкейсами загрузки и отгрузки датасета (мультикласс / мультилейбл, из памяти / из хаба, со сплитами / без сплитов / с неправильными сплитами)
ну еще надо добавить функцию отключать такое дотошное разбиение которое мы придумали, это пригодится тем у кого мало данных (кажется дмитрий уже сделал это в #88 но только для трейна)
Кажется тут уже неактуально. Поправьте если не прав |
No description provided.