How to correctly calculate the final frequency component for text?

A

Alexey2016-10-18 18:54:50

Algorithms

Alexey, 2016-10-18 18:54:50

Есть CRM. Одной из ее функций является обработка текстовых сообщений.
Фильтрация сейчас происходит по среднему значению частотности стоп слов. Сейчас оно рассчитывается как сумма частот всех слов деленное на количество слов. Но результат не совсем верный. Особенно это видно на сообщениях до 7 слов, когда все слова кроме одного имеют 0 вес, а последнее слово столь часто встречается в СПАМ сообщениях, что в итоге сообщение не проходит.
Собирался отдать подготовленный результат нейросети, но пока не понял, что лучше подавать на вход.
Вопросы:
Какие есть алгоритмы, чтобы можно было правильно прогнозировать результат?
Может есть что почитать на эту темы?

Reply

Answer the question

In order to leave comments, you need to log in

1 answer(s)

X

xmoonlight, 2017-05-23
@xmoonlight

Пользуюсь готовым инструментом: stumper.ru/use/isText