Но последнее время упор в продвижении таких систем делается на возможности выявлять негатив и позитив. И тем самым давая в руки пользователя новый совершенно уникальный инструмент. Вот на этом то инструменте нужно остановиться подробнее. Как он работает? А также – по набору ключевых слов. Т.е. решили мы, что слово «пид####» при упоминании вместе с названием нашей продукции «ВасКомПром» это негативное сообщение про продукцию, значит так и будет. Даже сообщение «…«МакВафен» всё таки «пид####» ведь «ВасКомПром» это очень приличный продукт, но почему они его не продают?» (пример реальный изменены только названия). А ведь упоминание скорее позитивное и это простой пример. А еще есть юмор, намеки, сарказм, которые машины просто не в состоянии понять. И здесь не поможет регулировка расстояния между словами и другие настройки. Как же верить такому делению на негатив и позитив? Это уже прямое дезинформирование пользователя. Так что особо не обольщайтесь на счет возможностей систем в области «позитив-негатив».
Нет тут никакого дезинформирования пользователя. Ни прямого, ни косвенного. Поясню.
Во-первых, далеко не всегда даже один человек может понять другого. Да хоть на этот форум посмотрите - время от времени приходится переспрашивать, что имел в виду человек. В этом плане, машинное выявление негатива и позитива не лучше и не хуже человеческого.
Во-вторых, интернет-ресурсы, которые оцениваются с точки зрения негатива и позитива, делятся на две неодинаковых по размеру категории. Первые - это значимые, широко посещаемые, авторитетные ресурсы. Их не много.
Вторые - "массовка". В "массовке" мнение каждого отдельного человека значения не имеет, но важно именно количество. Когда оно небольшое- это никак не влияет на ситуацию, когда оно становится большим - влияет.
Исходя из этого, очевиден и вывод: значимые ресурсы машина может отсматривать только на предмет факта упоминания объекта, но не оценки негатива и позитива. Такую оценку производит уже человек.
"Массовку" машина может отсматривать и на предмет оценки негатива и позитива.
Как при этом избегать проблемы сарказма/юмора и проблемы, что негативное слово относится к другому объекту, который также упомянут в тексте?
На самом деле, нет тут никакой проблемы, с практической точки зрения.
Сарказм встречается в рафинированном виде настолько редко, по сравнению с более прямыми высказываниями, что в случае "массовки" его можно спокойно проигнорировать. Он, скорее всего, даже уравновесится обратными высказываниями, также не отлавливаемыми машиной, в результате удельный вес негатива и позитива значимым образом не изменится. Но и эта флюктуация настолько незначительна, что значения не имеет.
Негатив/позитив, относящийся к объекту изучения, отлавливается (например, в IQBuzz) за счет параметра "расстояние от объекта". Т.е., например, смотрим негатив только в пяти словах от объекта. Естественно, часть объектов не попадет в выборку. Ну и что? Вы когда масштабы паводка на Дальнем Востоке оцениваете, чтобы понять, прибывает вода или отступает, пытаетесь с точностью до стакана его измерять? Это важно?
Вот и в случае с системами определения
динамики негатива и позитива - точно так же.