A
A
antojka912015-03-11 13:19:55
Parsing
antojka91, 2015-03-11 13:19:55

How to find the most frequently used word?

The database has a bunch of rows with text. You need to find the word that occurs most often in all these lines. How it is better to implement it?

Answer the question

In order to leave comments, you need to log in

1 answer(s)
I
Ivan Smirnov, 2015-03-11
@StopKran

Принципиально я вижу тут несколько вариантов.
Если слов умеренное количество можно использовать обычный hash map.
То есть ключём будет слово и значением будет количество. Сложили все слова в хешмап, потом выбрали максимальное значение. Это решение простое в написании, но при большом количестве слов может быть не эффективным, в первую очередь по памяти.
Если hash map не справляется то использовать структуру данных бор (префиксное дерево), с подсчётом количества слов:
informatics.mccme.ru/mod/book/view.php?id=435
habrahabr.ru/post/111874
Если бор тоже не влезает по памяти, то можно использовать сжатый бор:
habrahabr.ru/post/151421
Ну и если слов вдруг совсем много:
mapreduce
habrahabr.ru/post/103467

Didn't find what you were looking for?

Ask your question

Ask a Question

731 491 924 answers to any question