R
R
Ruslan Mustaev2016-05-19 14:32:13
linux
Ruslan Mustaev, 2016-05-19 14:32:13

How to solve a problem in Redis?

Good day to all,
There are 1,500,000 files (from 1kb to 12mb) uploaded from twitter, each file is 1 unique user, the file contains all posts and user responses, for example:
onStatus @,@ 691006201815957505 @,@ Sun Jan 24 10:14 :51 NZDT 2016 @,@ @TerryBrunk how did you like New Zealand when you came with WWA?
onStatus @,@ 693916127768895489 @,@ Mon Feb 01 10:57:51 NZDT 2016 @,@ Would be a damn tragedy if the 7s left Wellington. https://t.co/CLiEC0wd0b
onStatus @,@ 694245265356623872 @,@ Tue Feb 02 08:45:44 NZDT 2016 @,@ New Zealand plagued by 'vampire' attacks - Unexplained Mysteries https://t.co/2htQ3THvSG
onReply to ~|695570687893860352 from ~|SailishWilbur @,@ 695571616252633088 @,@ Sat Feb 06 00:36:11 NZDT 2016 @,@ @SailishWilbur Aus vs NZ one dayer at Westpac tomorrow
onStatus @,@ 697156769605410 09:35:01 NZDT 2016 @,@ I liked a @YouTube video https://t.co/4dCuEjVrFR NRL Auckland Nines 2016 Game 13: Warriors vs Sea Eagles Highlights
onStatus @,@ 705281163208867840 @,@ Thu Mar 03 19: 38:27 NZDT 2016 @,@ Brian Jonestown Massacre LIVE in Wellington NZ, 2015.: https://t.co/twT1cVoIOM via @YouTube
You need to enter data for each user in the Redis database and then solve 5 tasks
: most active users by number of posts
2. Определить самый популярный день (по самому большому количеству постов) в определенный промежуток времени, например с 11 февраля 2016 по 23 марта 2016
3. 5 самых популярных хэштэгов в постах среди 5 самых популярных пользователей которые имеют наибольшее количество комментариев.
4. Определить 5 самых быстрых пользователей и с самым большим количеством постов. Т.е. сначала нужно определить 5 пользователей с самым большим количеством постов и затем определить среднее время между каждым постом, дабы определить кто из них более шустрый по постингу нового твита.
5. Определить "срок жизни" 5 самых популярных хэштегов, т.е. до момента когда он был последний раз использован и в каком количестве.
Если кто-то может подсказать хотя бы как правильно организовать структуру БД для данных задач, буду очень благодарен, а если еще и псевдокод по каким-либо из изложенных выше задач будет предоставлен тогда буду вообще прыгать от счастья :)
Всем большое спасибо за внимание.

Answer the question

In order to leave comments, you need to log in

3 answer(s)
P
protven, 2016-05-19
@protven

А зачем тут вообще Редис ? Запихайте все это дело в HDFS и фигачьте по нему Spark'ом. Задача как раз под него.

Дмитрий, 2016-05-19
@dmtrrr

В процессе обработки файлов заводишь в редисе необходимые счетчики. Задача, как мне кажется, не в использовании редис, а в параллельной обработке большего кол-ва файлов.

Пума Тайланд, 2016-05-19
@opium

а нахрена в редис это все?
как то он не реляционная бд

Didn't find what you were looking for?

Ask your question

Ask a Question

731 491 924 answers to any question