Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Refactor vector index caching logic #80

Closed
wants to merge 7 commits into from

Conversation

truff4ut
Copy link
Collaborator

No description provided.

Comment on lines +62 to +66
if len(set(n_classes)) != 1:
message = (
f"Mismatch in number of classes across splits. Found class counts: {n_classes}. "
"Ensure all splits have the same number of classes."
)
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

здесь можно сделать более подробное сообщение в духе перечислить сплиты и сколько классов в каждом найдено

seed=random_seed,
)
.values()
def _split_test(self, test_size: float, random_seed: int) -> None:
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

наверное надо один из OOS сплитов (я полагаю OOS_2) сразу конкатенировать с тестовым сплитом

но я не уверен, плохо помню как это используется на этапе оптимизации предикшена и на этапе тестирования

Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

эти изменения в принципе можно обратить, я сам продолжу внедрять кеширование

Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

и эти

Copy link
Collaborator

@voorhs voorhs left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

в целом тут очень ценные изменения по логике работы с данными, я предлагаю на этом пр и закончить

единственное очень не хватает тестов со всевозможными юзкейсами загрузки и отгрузки датасета (мультикласс / мультилейбл, из памяти / из хаба, со сплитами / без сплитов / с неправильными сплитами)

ну еще надо добавить функцию отключать такое дотошное разбиение которое мы придумали, это пригодится тем у кого мало данных (кажется дмитрий уже сделал это в #88 но только для трейна)

@voorhs
Copy link
Collaborator

voorhs commented Jan 20, 2025

Кажется тут уже неактуально. Поправьте если не прав

@voorhs voorhs closed this Jan 20, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

2 participants