Учёные РЭУ разработали новое нейросетевое решение для анализа тональности текста
Плехановские учёные построили и обучили нейросетевую модель, которая способна распознавать сарказм в текстах на русском языке. Точность построенного решения — 69,18%.
Семантический анализ данных имеет огромный потенциал применения в различных областях науки и народного хозяйства. Сейчас он используется в мониторинговых, аналитических, сигнальных системах, в системах документооборота, рекламных платформах, и многом другом. Анализ тональности текста заключается в извлечении из текста мнений и эмоций, а также их последующей обработки, относится к методам контент-анализа и является одним из средств изучения субъективности в естественном языке. Большая часть информации в мире не структурирована, поэтому возникает проблема обработки и извлечении полезных данных. Обработка естественного языка — очень сложный процесс.
В настоящее время не существует единого алгоритма для обработки таких данных. Существует множество методов. Это может быть использование лексико-грамматических конструкций наряду с оценочным лексиконом. Эти конструкции, извлекаемые на уровне предложения, считаются факторами, влияющими на полярность как отдельного предложения, так и текста в целом. Также в подобных задачах могут быть использованы методы машинного обучения. В рамках этого подхода к решению проблемы сентимент-анализа, необходим набор текстов в качестве обучающей выборки. Машинное обучение с учителем нуждается в наборе заранее размеченных текстов рецензий. В некоторых задачах анализ тональности текстов проводят с помощью сверточных нейронных сетей.
Анализ позитивной и негативной тональности является одним из направлений в автоматизированном анализе естественно-языковых текстов. Под тональностью текста понимается позитивное или негативное отношение его автора к объекту (персоне, организации, товару), фигурирующему в тексте. Любой пользователь сети интернет может оставлять свои отзывы о товаре или услуге, высказывать мнение о людях и событиях. В связи с этим возникает необходимость оперативно и качественно отслеживать информационное поле и выявлять нужные данные (в зависимости от сферы применения). Многие компании заинтересованы в получении конкурентного преимущества на рынке. Им необходимо знать действительное мнение других участников рынка о своем продукте. В то же время, многие люди, которые совершают покупки, сначала изучают товар, читают описания, характеристики, смотрят обзоры экспертов и особое внимание уделяют отзывам и мнению других людей, которые уже приобрели данный товар и имеют опыт его использования.
Сложности при решении задачи анализа тональности текста связаны с использование метафор, устойчивых выражений. Зависимость тональности от контекста, например, комментарий «прочитай книгу» может быть расценен как позитивный на сайте отзывов о книгах и как негативный на сайте отзывов о фильмах. При анализе отзывов существует важная проблема отделения фактов от мнений, а также учет точки зрения. Также обработка тональности зависит от предметной области текста.
Одной из главных проблем анализа тональности текста, является распознавание сарказма. Сарказм является одним из видов сатирического изобличения, язвительной насмешкой, высшей степенью иронии, которая основана не только на усиленном контрасте подразумеваемого и выражаемого, но и на немедленном намеренном обнажении подразумеваемого. Высказывания и художественные произведения, написанные с сарказмом, утверждают одно, но дают ясно понять, что подразумевают противоположное.
Таким образом, для улучшения классификации тональности текста была создана модель, которая с точностью 69,18% способна распознавать сарказм в текстах на русском языке. ChatGPT справился с этой задачей только на 58,8%. Решение доступно по ссылке.
Научный работник учебно-научной лаборатории искусственного интеллекта, нейротехнологий и бизнес-аналитики Анатолий Гурин.
Семантический анализ данных имеет огромный потенциал применения в различных областях науки и народного хозяйства. Сейчас он используется в мониторинговых, аналитических, сигнальных системах, в системах документооборота, рекламных платформах, и многом другом. Анализ тональности текста заключается в извлечении из текста мнений и эмоций, а также их последующей обработки, относится к методам контент-анализа и является одним из средств изучения субъективности в естественном языке. Большая часть информации в мире не структурирована, поэтому возникает проблема обработки и извлечении полезных данных. Обработка естественного языка — очень сложный процесс.
В настоящее время не существует единого алгоритма для обработки таких данных. Существует множество методов. Это может быть использование лексико-грамматических конструкций наряду с оценочным лексиконом. Эти конструкции, извлекаемые на уровне предложения, считаются факторами, влияющими на полярность как отдельного предложения, так и текста в целом. Также в подобных задачах могут быть использованы методы машинного обучения. В рамках этого подхода к решению проблемы сентимент-анализа, необходим набор текстов в качестве обучающей выборки. Машинное обучение с учителем нуждается в наборе заранее размеченных текстов рецензий. В некоторых задачах анализ тональности текстов проводят с помощью сверточных нейронных сетей.
Анализ позитивной и негативной тональности является одним из направлений в автоматизированном анализе естественно-языковых текстов. Под тональностью текста понимается позитивное или негативное отношение его автора к объекту (персоне, организации, товару), фигурирующему в тексте. Любой пользователь сети интернет может оставлять свои отзывы о товаре или услуге, высказывать мнение о людях и событиях. В связи с этим возникает необходимость оперативно и качественно отслеживать информационное поле и выявлять нужные данные (в зависимости от сферы применения). Многие компании заинтересованы в получении конкурентного преимущества на рынке. Им необходимо знать действительное мнение других участников рынка о своем продукте. В то же время, многие люди, которые совершают покупки, сначала изучают товар, читают описания, характеристики, смотрят обзоры экспертов и особое внимание уделяют отзывам и мнению других людей, которые уже приобрели данный товар и имеют опыт его использования.
Сложности при решении задачи анализа тональности текста связаны с использование метафор, устойчивых выражений. Зависимость тональности от контекста, например, комментарий «прочитай книгу» может быть расценен как позитивный на сайте отзывов о книгах и как негативный на сайте отзывов о фильмах. При анализе отзывов существует важная проблема отделения фактов от мнений, а также учет точки зрения. Также обработка тональности зависит от предметной области текста.
Одной из главных проблем анализа тональности текста, является распознавание сарказма. Сарказм является одним из видов сатирического изобличения, язвительной насмешкой, высшей степенью иронии, которая основана не только на усиленном контрасте подразумеваемого и выражаемого, но и на немедленном намеренном обнажении подразумеваемого. Высказывания и художественные произведения, написанные с сарказмом, утверждают одно, но дают ясно понять, что подразумевают противоположное.
Таким образом, для улучшения классификации тональности текста была создана модель, которая с точностью 69,18% способна распознавать сарказм в текстах на русском языке. ChatGPT справился с этой задачей только на 58,8%. Решение доступно по ссылке.
Научный работник учебно-научной лаборатории искусственного интеллекта, нейротехнологий и бизнес-аналитики Анатолий Гурин.
Учёные РЭУ разработали новое нейросетевое решение для анализа тональности текста