- Inscrit
- 23 Oct. 2013
- messages
- 522
- Score de réaction
- 2
- Points
- 18
- Localisation
- Екатеринбург, тел. +7-950-641-06-09
- Site web
- ci-razvedka.ru
Opportunities and limitations of automatic detection of negative and positive
Source
Around the issues of automating the identification of negative and positive in texts, with the current level of development of monitoring systems, disputes often arise. Critics of such systems have two main arguments. The first is that the machine cannot distinguish between sarcasm and humor, and the second is that if there are two objects in the text (for example, when comparing the Mercedes type, it’s guano, and this is known to every normal person, but “Lada Kalina” is rulezizz ") - the machine will not understand to whom it belongs.
I will express my opinion on this issue.
Automata really are in many ways inferior to humans when it comes to understanding emotions. But they are significantly superior to humans in speed. Therefore, for practical purposes, it is much more important to make a million page coverage than to carefully analyze a dozen. And this, in practice, does not lead to problems, with the modern development of systems for determining positive and negative. I will explain why.
Firstly, far from always even one person can understand another. Yes, at least look at any Internet forum - from time to time you have to ask again what people had in mind. In this regard, the machine identification of negative and positive is neither better nor worse than human.
Secondly, Internet resources, which are evaluated in terms of negative and positive, are divided into two unequal size categories. The first are significant, widely visited, authoritative resources. There are not many of them.
The second - "extras". In the "crowd" the opinion of each individual does not matter, but the quantity is important. When it is small, it does not affect the situation; when it becomes large, it does.
Based on this, the conclusion is obvious: the machine can look at significant resources only for the fact of mentioning the object, but not for evaluating the negative and positive. Such an assessment is already made by man.
The car can look at the "mass" also with a view to assessing the negative and positive.
How to avoid the problem of sarcasm / humor and the problem that the negative word refers to another object, which is also mentioned in the text?
In fact, there is no problem from a practical point of view.
Refined sarcasm is so rare in comparison with more direct statements that in the case of the "extras" it can be safely ignored. Most likely, he will even be balanced by the reverse statements, also not caught by the machine, as a result, the specific gravity of the negative and the positive will not change significantly. But even this fluctuation is so insignificant that it does not matter.
Negative / positive related to the object of study is caught (for example, in IQBuzz) due to the parameter "distance from the object." That is, for example, we look at the negative only in five words from the object. Naturally, some of the objects will not fall into the selection. So what? When do you assess the extent of the flood in the Far East in order to understand whether water is arriving or retreating, trying to measure it with an accuracy of a glass? It is important?
So in the case of definition systems speakers negative and positive - exactly the same.
Source
Around the issues of automating the identification of negative and positive in texts, with the current level of development of monitoring systems, disputes often arise. Critics of such systems have two main arguments. The first is that the machine cannot distinguish between sarcasm and humor, and the second is that if there are two objects in the text (for example, when comparing the Mercedes type, it’s guano, and this is known to every normal person, but “Lada Kalina” is rulezizz ") - the machine will not understand to whom it belongs.
I will express my opinion on this issue.
Automata really are in many ways inferior to humans when it comes to understanding emotions. But they are significantly superior to humans in speed. Therefore, for practical purposes, it is much more important to make a million page coverage than to carefully analyze a dozen. And this, in practice, does not lead to problems, with the modern development of systems for determining positive and negative. I will explain why.
Firstly, far from always even one person can understand another. Yes, at least look at any Internet forum - from time to time you have to ask again what people had in mind. In this regard, the machine identification of negative and positive is neither better nor worse than human.
Secondly, Internet resources, which are evaluated in terms of negative and positive, are divided into two unequal size categories. The first are significant, widely visited, authoritative resources. There are not many of them.
The second - "extras". In the "crowd" the opinion of each individual does not matter, but the quantity is important. When it is small, it does not affect the situation; when it becomes large, it does.
Based on this, the conclusion is obvious: the machine can look at significant resources only for the fact of mentioning the object, but not for evaluating the negative and positive. Such an assessment is already made by man.
The car can look at the "mass" also with a view to assessing the negative and positive.
How to avoid the problem of sarcasm / humor and the problem that the negative word refers to another object, which is also mentioned in the text?
In fact, there is no problem from a practical point of view.
Refined sarcasm is so rare in comparison with more direct statements that in the case of the "extras" it can be safely ignored. Most likely, he will even be balanced by the reverse statements, also not caught by the machine, as a result, the specific gravity of the negative and the positive will not change significantly. But even this fluctuation is so insignificant that it does not matter.
Negative / positive related to the object of study is caught (for example, in IQBuzz) due to the parameter "distance from the object." That is, for example, we look at the negative only in five words from the object. Naturally, some of the objects will not fall into the selection. So what? When do you assess the extent of the flood in the Far East in order to understand whether water is arriving or retreating, trying to measure it with an accuracy of a glass? It is important?
So in the case of definition systems speakers negative and positive - exactly the same.
Original message
Возможности и ограничения автоматического выявления негатива и позитива
Источник
Вокруг вопросов автоматизации выявления негатива и позитива в текстах при современном уровне развития систем мониторинга споры возникают часто. У критиков таких систем есть два основных аргумента. Первый - что автомат не может различить сарказм и юмор, а второй - что если в тексте есть два объекта (например, при сравнении типа "Мерседес" - гуано, и это известно каждому нормальному человеку, а вот "Лада Калина" - рулёззз") - автомат не поймет, к кому что относится.
Выскажу свое мнение по этому вопросу.
Автоматы действительно во многом уступают человеку, когда речь идет о понимании эмоций. Но они значительно превосходят человека в скорости работы. Поэтому, для практических целей бывает значительно важнее сделать охват в миллион страниц, нежели тщательно проанализировать десяток. И это, на практике, не приводит к проблемам, при современном развитии систем определения позитива и негатива. Поясню, почему.
Во-первых, далеко не всегда даже один человек может понять другого. Да хоть на любой Интернет-форум посмотрите - время от времени приходится переспрашивать, что имел в виду человек. В этом плане, машинное выявление негатива и позитива не лучше и не хуже человеческого.
Во-вторых, интернет-ресурсы, которые оцениваются с точки зрения негатива и позитива, делятся на две неодинаковых по размеру категории. Первые - это значимые, широко посещаемые, авторитетные ресурсы. Их не много.
Вторые - "массовка". В "массовке" мнение каждого отдельного человека значения не имеет, но важно именно количество. Когда оно небольшое- это никак не влияет на ситуацию, когда оно становится большим - влияет.
Исходя из этого, очевиден и вывод: значимые ресурсы машина может отсматривать только на предмет факта упоминания объекта, но не оценки негатива и позитива. Такую оценку производит уже человек.
"Массовку" машина может отсматривать и на предмет оценки негатива и позитива.
Как при этом избегать проблемы сарказма/юмора и проблемы, что негативное слово относится к другому объекту, который также упомянут в тексте?
На самом деле, нет тут никакой проблемы, с практической точки зрения.
Сарказм встречается в рафинированном виде настолько редко, по сравнению с более прямыми высказываниями, что в случае "массовки" его можно спокойно проигнорировать. Он, скорее всего, даже уравновесится обратными высказываниями, также не отлавливаемыми машиной, в результате удельный вес негатива и позитива значимым образом не изменится. Но и эта флюктуация настолько незначительна, что значения не имеет.
Негатив/позитив, относящийся к объекту изучения, отлавливается (например, в IQBuzz) за счет параметра "расстояние от объекта". Т.е., например, смотрим негатив только в пяти словах от объекта. Естественно, часть объектов не попадет в выборку. Ну и что? Вы когда масштабы паводка на Дальнем Востоке оцениваете, чтобы понять, прибывает вода или отступает, пытаетесь с точностью до стакана его измерять? Это важно?
Вот и в случае с системами определения динамики негатива и позитива - точно так же.
Источник
Вокруг вопросов автоматизации выявления негатива и позитива в текстах при современном уровне развития систем мониторинга споры возникают часто. У критиков таких систем есть два основных аргумента. Первый - что автомат не может различить сарказм и юмор, а второй - что если в тексте есть два объекта (например, при сравнении типа "Мерседес" - гуано, и это известно каждому нормальному человеку, а вот "Лада Калина" - рулёззз") - автомат не поймет, к кому что относится.
Выскажу свое мнение по этому вопросу.
Автоматы действительно во многом уступают человеку, когда речь идет о понимании эмоций. Но они значительно превосходят человека в скорости работы. Поэтому, для практических целей бывает значительно важнее сделать охват в миллион страниц, нежели тщательно проанализировать десяток. И это, на практике, не приводит к проблемам, при современном развитии систем определения позитива и негатива. Поясню, почему.
Во-первых, далеко не всегда даже один человек может понять другого. Да хоть на любой Интернет-форум посмотрите - время от времени приходится переспрашивать, что имел в виду человек. В этом плане, машинное выявление негатива и позитива не лучше и не хуже человеческого.
Во-вторых, интернет-ресурсы, которые оцениваются с точки зрения негатива и позитива, делятся на две неодинаковых по размеру категории. Первые - это значимые, широко посещаемые, авторитетные ресурсы. Их не много.
Вторые - "массовка". В "массовке" мнение каждого отдельного человека значения не имеет, но важно именно количество. Когда оно небольшое- это никак не влияет на ситуацию, когда оно становится большим - влияет.
Исходя из этого, очевиден и вывод: значимые ресурсы машина может отсматривать только на предмет факта упоминания объекта, но не оценки негатива и позитива. Такую оценку производит уже человек.
"Массовку" машина может отсматривать и на предмет оценки негатива и позитива.
Как при этом избегать проблемы сарказма/юмора и проблемы, что негативное слово относится к другому объекту, который также упомянут в тексте?
На самом деле, нет тут никакой проблемы, с практической точки зрения.
Сарказм встречается в рафинированном виде настолько редко, по сравнению с более прямыми высказываниями, что в случае "массовки" его можно спокойно проигнорировать. Он, скорее всего, даже уравновесится обратными высказываниями, также не отлавливаемыми машиной, в результате удельный вес негатива и позитива значимым образом не изменится. Но и эта флюктуация настолько незначительна, что значения не имеет.
Негатив/позитив, относящийся к объекту изучения, отлавливается (например, в IQBuzz) за счет параметра "расстояние от объекта". Т.е., например, смотрим негатив только в пяти словах от объекта. Естественно, часть объектов не попадет в выборку. Ну и что? Вы когда масштабы паводка на Дальнем Востоке оцениваете, чтобы понять, прибывает вода или отступает, пытаетесь с точностью до стакана его измерять? Это важно?
Вот и в случае с системами определения динамики негатива и позитива - точно так же.