Similarity analyzer

Примитивная аналитическая база данных с REST-API. Реализация запроса /pages основано на предварительном подсчёте всех уникальных значений pages в файле и сохранении списка страниц в отдельный файл unique_pages.csv

Реализация запроса /similarity?page1={page1}&page2={page2}&from={timestamp1}&to={timestamp2} Считает приблизительное значение Jaccard Similarity. Погрешность зависит от выбора параметра timeIntervalInSeconds при создании preprocessingService.

При выборе значения timeIntervalInSeconds = 1 решение будет выдавать точное значение индекса.

Решение основано на нескольких факторах.

Для поиска подходящего под запрос диапазона используется бинарный поиск по заранее сформированному файлу со всеми уникальными значениями timestamp
Далее, зная необходимый диапазон формируется два множества уникальных uid для страниц page1 и page2. Для этого используется заранее сформированный на предобработке файл с множествами для каждого отдельного page и полуинтервала времени
Создаётся пересечение этих двух множеств и подсчитывается длина всех множеств
Считается коэффициент Жакара

Запуск

Для запуска можно использовать IDE IntelliJ IDEA

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.mvn/wrapper		.mvn/wrapper
src		src
.gitignore		.gitignore
README.md		README.md
create_test_file.py		create_test_file.py
mvnw		mvnw
mvnw.cmd		mvnw.cmd
pom.xml		pom.xml
test1_unique_pages.csv		test1_unique_pages.csv
test1_unique_timestamps.csv		test1_unique_timestamps.csv
test_uid_page_timestamp.sorted.csv		test_uid_page_timestamp.sorted.csv
test_unique_pages.csv		test_unique_pages.csv
test_unique_timestamps.csv		test_unique_timestamps.csv
unique_pages.csv		unique_pages.csv
unique_timestamps.csv		unique_timestamps.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Similarity analyzer

Запуск

About

Releases

Packages

Languages

Poehavshi/SimilarityAnalyzer

Folders and files

Latest commit

History

Repository files navigation

Similarity analyzer

Запуск

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages