A
A
ArtDraco2019-03-19 03:23:14
Text Processing Automation
ArtDraco, 2019-03-19 03:23:14

How to make a selection (analytics) of the text by frequently occurring phrases in it or cut off with a comma?

There is a text with the composition of goods (croissants, chips, cookies, cakes, pates, canned food, shampoos, soaps, etc.). The text is sometimes quite the same in terms of specifics. In most cases, whole phrases come across. The task is to analyze the document (currently Word) and display information on phrases of the same type or phrases with a slight difference.

Composition examples
Картофельные хлопья (содержат глютен), растительное масло, картофельный крахмал, ароматизатор (соль, натуральные вкусоароматические вещества (луковый порошок, чесночный порошок, петрушка, порошок сметаны), порошок молочной сыворотки, сахар, усилитель вкуса и аромата (глутамат натрия 1-замещенный), агент желирующий (хлорид калия), регуляторы кислотности (ацетат натрия, лимонная кислота), ароматические вещества, пшеничная мука), рисовая мука, эмульгаторы (моно- и диглицериды жирных кислот, соевый лецитин). Продукт может содержать незначительное количество ракообразных, порошка рыбы, горчицы.
Картофель, растительное масло, ароматизатор (сухая молочная сыворотка, соль, сахар, усилители вкуса и аромата (глутамат натрия 1-замещенный, 5'-гуанилат натрия 2-замещенный, 5'-инозинат натрия 2-замещенный), вкусоароматические вещества, порошок томата, сухое обезжиренное молоко, специи, термический технологический ароматизатор, красители (экстракт паприки, сахарный колер IІІ)). Продукт может содержать незначительное количество глютена, сои, порошков рыбы, морепродуктов, ракообразных, горчицы.
Обезвоженный картофель, растительные масла (подсолнечное, кукурузное), рисовая мука, пшеничный крахмал, мука кукурузная, приправа со вкусом паприки (сахар, порошок паприки, усилители вкуса и аромата (глутамат натрия 1-замещенный, 5'-инозинат натрия 2-замещенный, 5'-гуанилат натрия 2-замещенный), дрожжевой порошок, декстроза, луковый порошок, гранулированный растительный бульон, чесночный порошок, краситель (экстракт паприки), регулятор кислотности (лимонная кислота), экстракт паприки чили), эмульгатор (E471), мальтодекстрин, соль, краситель (аннато). Продукт содержит пшеницу.
Картофель, масло подсолнечное, соль поваренная пищевая, сухая молочная сыворотка, картофельный крахмал, лактоза, порошок сыра пармезан (молоко пастеризованное, соль поваренная пищевая, сычужно-говяжий молокосвертывающий ферментный препарат), натуральный ароматизатор, мальтодекстрин картофельный, мальтодекстрин кукурузный, дрожжевой экстракт. Продукт содержит молоко. Продукт может содержать следы сельдерея.
The result should be something like this:
whey powder - 10
whey - 15
2-substituted sodium 5'-guanylate - 10
flavor and aroma enhancer - 7
flavor and aroma enhancers - 10
How can it be realized?
If there is no such smart way for analytics, then at least with a cut-off after a coma and ignoring the closing brackets or other sign.
Example: lactose, Parmesan cheese powder (the list of what the powder consists of), natural flavor
is cut into the result: Parmesan cheese powder (the list of what the powder consists of).

Answer the question

In order to leave comments, you need to log in

1 answer(s)
D
Dimonchik, 2019-03-22
@dimonchik2013

there is a smart way - sphinxsearch, but you have to understand what you are doing
well, or into corpus linguistics

Didn't find what you were looking for?

Ask your question

Ask a Question

731 491 924 answers to any question