Contact us in messengers or by phone.

whatsapp telegram viber phone email
+79214188555

Alcohol Detection Algorithm

Ivan Glinkin

Private access level
Joined
Sep 5, 2015
Messages
219
Reaction score
13
Points
18
Location
Nicaragua
alcash-tweet.png

Broadcasting publicly about your drunkenness is not the best way to establish yourself well on social networks, but, nevertheless, few can resist the temptation to brag about their alcoholic adventures. Now, researchers from the University of Rochester, New York, have decided to combine Twitter and machine learning to watch alcohol consumption in New York. Their algorithm can not only calculate alcohol-related tweets, but even determine if their author was drunk at the time of posting.

To do this, researcher Nabil Hossein and his team collected thousands of geotagged messages in New York from July 2013 to July 2014, and then filtered them to highlight all messages that contain specific keywords (from “beer keg” to “ in the insole ").

Then the selected posts were investigated by people. Each tweet went through three people who examined it according to three criteria:

Are there any references to drinking alcohol?
If so, are there any references to what the tweeter himself drank?
If so, what is the likelihood that the tweet was sent directly from the place of use and at the same time?

The answers were used to train three different algorithms - "linear support vectors" - to answer one question for each. The percentage of success - the number of answers that coincided with the opinions of living people - was about 80-90 percent for each of the questions.
Words affecting the results of the answer to the first question: "Are there any references to drinking alcohol?"

alcohol-data-set-tweeting.gif


After that, the team tried to guess where exactly the drunken authors of the tweets were - at home or somewhere else. To do this, a whole list of words was compiled that clearly indicates that the person is at home: “bath”, “sofa”, “TV”, “sleep”, “home” and others - by which all posts were filtered again . Again, at first, people took up this task, based on the answers of which the algorithm was trained. So another algorithm was created that determined with accuracy about 80% whether the author of the tweet is at home.

So it was possible to compile statistics on where New Yorkers most often drink alcohol. It turned out that most residents of the city drink at home or very close to it - this is probably due to the fact that there are bars in New York in almost every quarter. Suburban residents usually drink away from home.

Of course, we cannot say that Twitter is able to provide representative data - its main audience is usually young and often belongs to various kinds of minorities. However, according to the head of the study, “future work will focus on a comprehensive study of demographic data and other characteristics. We will be able to research the social network to check how social interaction and peer pressure in social media influence the tendency to refer to alcohol consumption. ”

Thank you for your attention, best wishes and see you soon.
Regards, Department

P.S. Well, there should be a sense of sound paranoism ...;)
 
Original message
alcash-tweet.png

Публично вещать о своем пьянстве — не лучший способ хорошо зарекомендовать себя в социальных сетях, но, тем не менее, немногие могут устоять перед соблазном похвастаться своими алкогольными авантюрами. А теперь исследователи из нью-йоркского университета Рочестера решили объединить Twitter и машинное обучение, чтобы понаблюдать за употреблением алкоголя в Нью-Йорке. Их алгоритм умеет не только вычислять связанные с алкоголем твиты, но и даже определять, был ли пьян их автор в момент набора поста.

Чтобы сделать это, исследователь Набиль Хоссейн и его команда собрали тысячи сообщений с геотегами в Нью-Йорке с июля 2013 года по июль 2014, а затем отфильтровали их, выделяя все сообщения, в которых содержатся определенные ключевые слова (от «пивного бочонка» до «в стельку»).

Затем отобранные посты были исследованы людьми. Каждый твит прошел через трех человек, которые исследовали его по трем критериям:

Есть ли какие-то отсылки к употреблению алкоголя?
Если да, то есть ли упоминания о том, что пил сам автор твита?
Если да, то какова вероятность, что твит отправлен прямо из места употребления и в то же время?

Ответы были использованы, чтобы обучить три разных алгоритма — «линейных опорных вектора» — отвечать на один вопрос на каждого. Процент успеха — количество ответов, которые совпали с мнением живых людей — составил около 80-90 процентов для каждого из вопросов.
Слова, влияющие на результаты ответа на первый вопрос: «Есть ли какие-то отсылки к употреблению алкоголя?»

alcohol-data-set-tweeting.gif


После этого команда попыталась отгадать, где именно находились пьянствующие авторы твитов — у себя дома или где-то еще. Для этого был составлен целый список слов, которые явно указывают на то, что человек находится у себя дома: «ванна», «диван», «TV», «сон», «домой» и другие — по которому снова были отфильтрованы все посты. Опять же, сначала этим занялись люди, на основе ответов которых и проводилось обучение алгоритма. Так был создан еще один алгоритм, который с точностью около 80% определял, дома ли находится автор твита.

Так удалось составить статистику того, где чаще всего употребляют алкоголь жители Нью-Йорка. Выяснилось, что большинство жителей города пьют дома или совсем недалеко от него — вероятно, это объясняется тем, что бары в Нью-Йорке есть почти в каждом квартале. Жители пригорода же пьют обычно вдалеке от дома.

Конечно, нельзя сказать, что Twitter способен предоставить репрезентативные данные — основная его аудитория обычно молода и зачастую принадлежит к разного рода меньшинствам. Тем не менее, по словам главы исследования, «будущая работа будет нацелена на комплексное исследование — демографических данных и других характеристик. Мы сможем исследовать социальную сеть, чтобы проверить, как социальное взаимодействие и давление со стороны сверстников в социальных медиа влияют на тенденцию ссылаться на употребление алкоголя».

Спасибо за внимание, с наилучшими пожеланиями и до новых встреч.
С уважением, Департамент

П.С. ну и должно быть чувство здравого параноизма...;)