Возможности и ограничения автоматического выявления негатива и позитива
Источник
Вокруг вопросов автоматизации выявления негатива и позитива в текстах при современном уровне развития систем мониторинга споры возникают часто. У критиков таких систем есть два основных аргумента. Первый - что автомат не может различить сарказм и юмор, а второй - что если в тексте есть два объекта (например, при сравнении типа "Мерседес" - гуано, и это известно каждому нормальному человеку, а вот "Лада Калина" - рулёззз") - автомат не поймет, к кому что относится.
Выскажу свое мнение по этому вопросу.
Автоматы действительно во многом уступают человеку, когда речь идет о понимании эмоций. Но они значительно превосходят человека в скорости работы. Поэтому, для практических целей бывает значительно важнее сделать охват в миллион страниц, нежели тщательно проанализировать десяток. И это, на практике, не приводит к проблемам, при современном развитии систем определения позитива и негатива. Поясню, почему.
Во-первых, далеко не всегда даже один человек может понять другого. Да хоть на любой Интернет-форум посмотрите - время от времени приходится переспрашивать, что имел в виду человек. В этом плане, машинное выявление негатива и позитива не лучше и не хуже человеческого.
Во-вторых, интернет-ресурсы, которые оцениваются с точки зрения негатива и позитива, делятся на две неодинаковых по размеру категории. Первые - это значимые, широко посещаемые, авторитетные ресурсы. Их не много.
Вторые - "массовка". В "массовке" мнение каждого отдельного человека значения не имеет, но важно именно количество. Когда оно небольшое- это никак не влияет на ситуацию, когда оно становится большим - влияет.
Исходя из этого, очевиден и вывод: значимые ресурсы машина может отсматривать только на предмет факта упоминания объекта, но не оценки негатива и позитива. Такую оценку производит уже человек.
"Массовку" машина может отсматривать и на предмет оценки негатива и позитива.
Как при этом избегать проблемы сарказма/юмора и проблемы, что негативное слово относится к другому объекту, который также упомянут в тексте?
На самом деле, нет тут никакой проблемы, с практической точки зрения.
Сарказм встречается в рафинированном виде настолько редко, по сравнению с более прямыми высказываниями, что в случае "массовки" его можно спокойно проигнорировать. Он, скорее всего, даже уравновесится обратными высказываниями, также не отлавливаемыми машиной, в результате удельный вес негатива и позитива значимым образом не изменится. Но и эта флюктуация настолько незначительна, что значения не имеет.
Негатив/позитив, относящийся к объекту изучения, отлавливается (например, в IQBuzz) за счет параметра "расстояние от объекта". Т.е., например, смотрим негатив только в пяти словах от объекта. Естественно, часть объектов не попадет в выборку. Ну и что? Вы когда масштабы паводка на Дальнем Востоке оцениваете, чтобы понять, прибывает вода или отступает, пытаетесь с точностью до стакана его измерять? Это важно?
Вот и в случае с системами определения динамики негатива и позитива - точно так же.
Источник
Вокруг вопросов автоматизации выявления негатива и позитива в текстах при современном уровне развития систем мониторинга споры возникают часто. У критиков таких систем есть два основных аргумента. Первый - что автомат не может различить сарказм и юмор, а второй - что если в тексте есть два объекта (например, при сравнении типа "Мерседес" - гуано, и это известно каждому нормальному человеку, а вот "Лада Калина" - рулёззз") - автомат не поймет, к кому что относится.
Выскажу свое мнение по этому вопросу.
Автоматы действительно во многом уступают человеку, когда речь идет о понимании эмоций. Но они значительно превосходят человека в скорости работы. Поэтому, для практических целей бывает значительно важнее сделать охват в миллион страниц, нежели тщательно проанализировать десяток. И это, на практике, не приводит к проблемам, при современном развитии систем определения позитива и негатива. Поясню, почему.
Во-первых, далеко не всегда даже один человек может понять другого. Да хоть на любой Интернет-форум посмотрите - время от времени приходится переспрашивать, что имел в виду человек. В этом плане, машинное выявление негатива и позитива не лучше и не хуже человеческого.
Во-вторых, интернет-ресурсы, которые оцениваются с точки зрения негатива и позитива, делятся на две неодинаковых по размеру категории. Первые - это значимые, широко посещаемые, авторитетные ресурсы. Их не много.
Вторые - "массовка". В "массовке" мнение каждого отдельного человека значения не имеет, но важно именно количество. Когда оно небольшое- это никак не влияет на ситуацию, когда оно становится большим - влияет.
Исходя из этого, очевиден и вывод: значимые ресурсы машина может отсматривать только на предмет факта упоминания объекта, но не оценки негатива и позитива. Такую оценку производит уже человек.
"Массовку" машина может отсматривать и на предмет оценки негатива и позитива.
Как при этом избегать проблемы сарказма/юмора и проблемы, что негативное слово относится к другому объекту, который также упомянут в тексте?
На самом деле, нет тут никакой проблемы, с практической точки зрения.
Сарказм встречается в рафинированном виде настолько редко, по сравнению с более прямыми высказываниями, что в случае "массовки" его можно спокойно проигнорировать. Он, скорее всего, даже уравновесится обратными высказываниями, также не отлавливаемыми машиной, в результате удельный вес негатива и позитива значимым образом не изменится. Но и эта флюктуация настолько незначительна, что значения не имеет.
Негатив/позитив, относящийся к объекту изучения, отлавливается (например, в IQBuzz) за счет параметра "расстояние от объекта". Т.е., например, смотрим негатив только в пяти словах от объекта. Естественно, часть объектов не попадет в выборку. Ну и что? Вы когда масштабы паводка на Дальнем Востоке оцениваете, чтобы понять, прибывает вода или отступает, пытаетесь с точностью до стакана его измерять? Это важно?
Вот и в случае с системами определения динамики негатива и позитива - точно так же.