Автоматизированное формирование базы знаний для задачи анализа мнений
Диссертация
В данной главе предложена адаптация модели Изинга для задачи классификации оценочных слов по тональности. При построении данной модели используется только коллекция отзывов о фильмах с оценками пользователей без каких-либо дополнительных семантических ресурсов. Из данной коллекции извлекается набор оценочных слов, на основе которого строится марковская сеть для заданной предметной области. Часть… Читать ещё >
Содержание
- 1. Анализ предметной области
- 1. 1. Задача анализа мнений
- 1. 1. 1. Обнаружение субъективности в текстах и идентификация мнений
- 1. 1. 2. Задача определения тональности фрагмента текста
- 1. 1. 3. Автоматическое аннотирование субъективных текстов
- 1. 2. Подходы к классификации текстов по тональности
- 1. 2. 1. Критерии оценки качества алгоритмов классификации текстов по тональности
- 1. 2. 2. Классификация на основе методов машинного обучения
- 1. 2. 2. 1. Алгоритмы классификации
- 1. 2. 2. 2. Признаковое описание объектов и веса признаков
- 1. 2. 2. 3. Подходы с использованием алгоритмов машинного обучения
- 1. 2. 3. Классификация по тональности на основе словарей и правил
- 1. 2. 3. 1. Методы построения словарей оценочной лексики
- 1. 2. 3. 2. Подходы с использованием словарей оценочных слов
- 1. 2. 4. Классификация текстов по тональности на русском языке
- 1. 2. 5. Адаптация алгоритмов к различным предметным областям
- 1. 3. Выводы к первой главе
- 1. 1. Задача анализа мнений
- 2. Модель оценочных слов для построения словаря в заданной предметной области
- 2. 1. Модель мнения пользователя
- 2. 2. Модель извлечения оценочных слов для заданной предметной области
- 2. 2. 1. Описание текстовых коллекций
- 2. 2. 2. Признаки оценочных слов
- 2. 2. 2. 1. Частотные признаки
- 2. 2. 2. 2. Признаки на основе оценок пользователей
- 2. 2. 2. 3. Лингвистические признаки
- 2. 2. 3. Алгоритмы и оценки качества
- 2. 2. 4. Исследование качества признаковых наборов
- 2. 2. 5. Теоретическое исследование признака «Странность»
- 2. 2. 5. 1. Распределения слов в коллекциях текстов
- 2. 2. 5. 2. Распределение случайной величины признака и его некоторые особенности
- 2. 2. 5. 3. Взаимная информация между признаком и — классом слова
- 2. 2. 6. Использование извлеченных оценочных слов в задаче классификации
- 2. 2. 6. 1. Коллекции для тестирования качества классификации отзывов
- 2. 2. 6. 2. Пространство признаков для классификации отзывов
- 2. 2. 6. 3. Эксперименты по классификации отзывов с учётом тональности
- 2. 2. 6. 4. Оценка отзывов экспертами
- 2. 3. Перенос модели оценочных слов на различные предметные области
- 2. 3. 1. Описание результатов переноса модели
- 2. 3. 2. Использование извлеченных словарей в задачах классификации на РОМИП
- 2. 3. 2. 1. Коллекции и предобработка данных
- 2. 3. 2. 2. Наборы признаков на основе оценочных слов
- 2. 3. 2. 3. Результаты экспериментов по классификации отзывов в различных областях
- 2. 3. 3. Применение модели к другим языкам .8Г
- 2. 3. 4. Система извлечения оценочных слов БотЕх
- 2. 4. Выводы ко второй главе
- 3. 1. Методика формирования обобщенного списка
- 3. 2. Перенос классификатора тональности на различные области
- 3. 2. 1. Меры качества в задаче переноса классификатора
- 3. 2. 2. Основные результаты переноса классификатора
- 3. 3. Поиск и извлечение отзывов из коллекции блогов
- 3. 4. Выводы к третьей главе
- 4. 1. Задача классификации слов по тональности
- 4. 2. Марковские сети и модель Изинга
- 4. 3. Алгоритм распространения доверия
- 4. 4. Построение и инициализация модели
- 4. 5. Эксперименты и оценка качества
- 4. 6. Выводы к четвертой главе
Список литературы
- Manning C., Raghavan P., Schutze H. 1.troduction to information retrieval. Cambridge University Press Cambridge, 2008.
- Handbook of natural language processing / Ed. by N. Indurkhya, F. Damerau. Chapman & Hall, 2010. P. 627−666.
- Ponomareva N., Thelwall M. Biographies or blenders: which resource is best for cross-domain sentiment analysis? // Computational Linguistics and Intelligent Text Processing. 2012. P. 48899.
- Blitzer J., Dredze M., Pereira F. Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification // Association For Computational Linguistics. Vol. 45. 2007. P. 440−447.
- Jijkoun V., de Rijke M., Weerkamp W. Generating focused topic-specific sentiment lexicons // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics / Association for Computational Linguistics. 2010. P. 585−594.
- Choi Y., Cardie C. Adapting a polarity lexicon using integer linear programming for domain-specific sentiment classification // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. 2009. P. 590−598.
- Lexicon-based methods for sentiment analysis / M. Taboada, J. Brooke, M. Tofiloski et al. // Computational Linguistics. 2011. Vol. 37, no. 2. P. 267 307.
- Лукашевич H.B., Четверкин И. И. Извлечение и использование оценочных слов в задаче классификации отзывов на три класса // Вычислительные методы и программирование. 2011. Т. 12. С. 73−81.
- Лукашевич Н.В., Четверкин И. И. Построение модели для извлечения оценочной лексики в различных предметных областях // Моделирование и анализ информационных систем. 2013. Т. 20, № 2. С. 70−79.
- Chetviorkin I., Loukachevitch N. Extraction of Russian Sentiment Lexicon for Product Meta-Domain // COLING 2012: Technical Papers. 2012. P. 593−610.
- Четверкин И.И., Лукашевич Н. В. Автоматическое извлечение оценочных слов для конкретной предметной области // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». 2010. С. 565−571.
- Четверкин И.И., Лукашевич Н. В. Автоматическая классификация отзывов на основе оценочных слов // 12-ая Национальная конференция по искусственному интеллекту международным участием (КИИ-2010). 2010. Т. 1. С. 299−307.
- Chetviorkin I., Loukachevitch N. Three-way movie review classification // International Conference on Computational Linguistics Dialog. 2011. P. 168— 177.
- Chetviorkin I., Loukachevitch N. Extraction and Use of Opinion Words for Three-Way Review Classification Task // CDUD'11-Concept Discovery in Unstructured Data. 2011. P. 31−42.
- Chetviorkin I., Loukachevitch N. Extraction of Domain-specific Opinion Words for Similar Domains // Information Extraction and Knowledge Acquisition. 2011. P. 7−12.
- Chetviorkin I. Testing the sentiment classification approach in various domains — ROMIP 2011 // International Conference on Computational Linguistics Dialog. 2012. Vol. 2. P. 15−26.
- Chetviorkin I., Braslavskiy P., Loukachevich N. Sentiment Analysis Track at ROMIP 2011 // International Conference on Computational Linguistics Dialog. 2012. Vol. 2. P. 1−14.
- Chetviorkin I., Loukachevitch N. Cross-domain opinion word extraction model // VI Russian Summer School in Information Retrieval. 2012. P. 5−15.
- Chetviorkin I., Loukachevitch N. DomEx: Extraction of Sentiment Lexicons for Domains and Meta-Domains // COLING 2012: Demo Papers. 2012. P. 7785.
- Четвёркин И. И. Кластеризация оценочных слов по тональности на основе марковских случайных полей // Новые информационные технологии в автоматизированных системах. 2013. С. 245−252.
- Kuznetsova E., Loukachevitch N., Chetviorkin I. Testing rules for sentiment analysis system // International Conference on Computational Linguistics Dialog. Vol. 2. 2013. P. 71−80.
- Chetviorkin I., Loukachevitch N. Sentiment analysis track at ROMIP 2012 // International Conference on Computational Linguistics Dialog. Vol. 2. 2013. P. 40−50.
- Четвёркин И. И. Анализ и применение признаков оценочных слов для формирования словаря оценочной лексики // Сборник статей молодых ученых факультета ВМК МГУ. 2013. Т. 10. С. 279−295.
- Pang В., Lee L. Opinion mining and sentiment analysis. Now Pub, 2008.
- Hatzivassiloglou V., McKeown K. Predicting the semantic orientation of adjectives // Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics. 1997. P. 174−181.
- Turney P. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002. P. 41724.
- Pang В., Lee L., Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL-02 conference on Empirical methods in natural language processing — Volume 10. 2002. P. 7986.
- Проект BAAJI. URL: http://www.vaal.ru/.
- Mihalcea R., Banea C., Wiebe J. Learning multilingual subjective language via cross-lingual projections // Association for Computation Linguistics. Vol. 45. 2007. P. 976−983.
- Learning subjective language / J. Wiebe, T. Wilson, R. Bruce et al. // Computational linguistics. 2004. Vol. 30, no. 3. P. 277−308.
- Wiebe J., Mihalcea R. Word sense and subjectivity // Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. 2006. P. 1065— 1072.
- Joachims T. Text categorization with support vector machines: Learning with many relevant features. Springer, 1998.
- Popescu A., Etzioni O. Extracting product features and opinions from reviews // Natural language processing and text mining. Springer, 2007. P. 928.
- Hu M., Liu B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. C. 168−177.
- Snyder B., Barzilay R. Multiple aspect ranking using the good grief algorithm // Proceedings of the Joint Human Language Technology/North American Chapter of the ACL Conference (HLT-NAACL). 2007. P. 300−307.
- Titov I., McDonald R. Modeling online reviews with multi-grain topic models // Proceedings of the 17th international conference on World Wide Web. 2008. P. 111−120.
- Вапник В.Н., Червоненкис, А .Я. Теория распознавания образов: статистические проблемы обучения. Наука, 1974.
- Воронцов К.В. Математические методы обучения по прецедентам (теория обучения машин) // Курс лекций ВМК МГУ и МФТИ. 2011.
- Kuncheva L. I. Combining Pattern Classifiers: Methods and Algorithms. Wi-ley.com, 2004.
- Dave K., Lawrence S., Pennock D. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews // Proceedings of the 12th international conference on World Wide Web. 2003. P. 519−528.
- Airoldi E., Bai X., Padman R. Markov blankets and meta-heuristics search: Sentiment extraction from unstructured texts // Advances in Web Mining and Web Usage Analysis. 2006. P. 167−187.
- Riloff E., Patwardhan S., Wiebe J. Feature subsumption for opinion analysis // Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. 2006. P. 440−448.
- Paltoglou G., Thelwall M. A study of information retrieval weighting schemes for sentiment analysis // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. 2010. P. 1386−1395.
- Gamon M. Sentiment classification on customer feedback data: noisy data, large feature vectors, and the role of linguistic analysis // Proceedings of the 20th international conference on Computational Linguistics. 2004. P. 841 847.
- Ng V., Dasgupta S., Arifin S. Examining the role of linguistic knowledge sources in the automatic identification and classification of reviews // Proceedings of the COLING. 2006. P. 611−618.
- Das S., Chen M. Yahoo! for Amazon: Sentiment extraction from small talk on the web // Management Science. 2007. Vol. 53, no. 9. P. 1375−1388.
- Whitelaw C., Garg N., Argamon S. Using appraisal groups for sentiment analysis // Proceedings of the 14th ACM international conference on Information and knowledge management. 2005. P. 625−631.
- Learning word vectors for sentiment analysis / A. Maas, R. Daly, P. Pham et al. // Proceedings of the 49th annual meeting of the association for computational Linguistics. 2011. P. 142−150.
- Pang B., Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales // Association for Computational Linguistics. Vol. 43. 2005. P. 115−124.
- Goldberg A., Zhu X. Seeing stars when there aren’t many stars: graph-based semi-supervised learning for sentiment categorization // Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing. 2006. P. 45−52.
- Wiebe J., Riloff E. Creating subjective and objective sentence classifiers from unannotated texts // Computational Linguistics and Intelligent Text Processing. Springer, 2005. P. 48697.
- Riloff E., Wiebe J. Learning extraction patterns for subjective expressions // Conference on Empirical Methods on Natural Language Processing. 2003. P. 105−112.
- Baccianella S., Esuli A., Sebastiani F. Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining // Proceedings of the 7th conference on International Language Resources and Evaluation (LREC'10). 2010. P. 2200−2204.
- Stone P., Dunphy D., Smith M. The General Inquirer: A Computer Approach to Content Analysis. 1966.
- Automatic construction of a context-aware sentiment lexicon: an optimization approach / Y. Lu, M. Castellanos, U. Dayal et al. // Proceedings of the 20th international conference on World wide web / ACM. 2011. P. 347−356.
- Perez-Rosas V., Banea C., Mihalcea R. Learning Sentiment Lexicons in Spanish // Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12). 2012. P. 3077−3081.
- Clematide S., Klenner M. Evaluation and extension of a polarity lexicon for German // Proceedings of the First Workshop on Computational Approaches to Subjectivity and Sentiment Analysis. 2010. P. 7−13.
- Neviarouskaya A., Prendinger H., Ishizuka M. Sentiful: Generating a reliable lexicon for sentiment analysis // Affective Computing and Intelligent Interaction and Workshops. 2009. P. 1−6.
- Esuli A., Sebastiani F. Determining the semantic orientation of terms through gloss classification // Proceedings of the 14th ACM international conference on Information and knowledge management. 2005. P. 617−624.
- Kanayama H., Nasukawa T. Fully automatic lexicon expansion for domain-oriented sentiment analysis // Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing / Association for Computational Linguistics. 2006. P. 355−363.
- Opinion word expansion and target extraction through double propagation / G. Qiu, B. Liu, J. Bu et al. // Computational linguistics. 2011. Vol. 37, no. 1. P. 9−27.
- An effective statistical approach to blog post opinion retrieval / B. He, C. Macdonald, J. He и др. // Proceedings of the 17th ACM conference on Information and knowledge management. 2008. C. 1063−1072.
- Ding X., Liu В., Yu P. A holistic lexicon-based approach to opinion mining // Proceedings of the international conference on Web search and web data mining. 2008. P. 231−240.
- Пазельская А.Г., Соловьев A.H. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». 2011. С. 574−586.
- Ермаков А.Е., Киселев C.JI. Лингвистическая модель для компьютерного анализа тональности публикаций СМИ // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог». 2005. С. 282−285.
- Wilson Т., Wiebe J., Hoffmann P. Recognizing contextual polarity: An exploration of features for phrase-level sentiment analysis // Computational linguistics. 2009. Vol. 35, no. 3. P. 399−433.
- Ермаков A.E. Извлечение знаний из текста и их обработка: состояние и перспективы // Информационные технологии. 2009. № 7. С. 50−55.
- Zagibalov T., Belyatskaya К., Carroll J. Comparable English-Russian book review corpora for sentiment analysis // Computational Approaches to Subjectivity and Sentiment Analysis. 2010. P. 63−68.
- Creating Sentiment Dictionaries via Triangulation / J. Steinberger, P. Lenko-va, M. Ebrahim et al. // The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. P. 28−36.
- Рак A., Paroubek P. Language independent approach to sentiment anaLysis (Limsi participation inromip’ll). 2012. no. 11. P. 37−50.
- Aue A., Gamon M. Customizing sentiment classifiers to new domains: A case study // Proceedings of recent advances in natural language processing. 2005.
- Wu Q., Tan S., Cheng X. Graph ranking for sentiment transfer // Proceedings of the ACL-IJCNLP 2009 Conference / Association for Computational Linguistics. 2009. P. 317−320.
- Cross-domain sentiment classification via spectral feature alignment / S. Pan, X. Ni, J. Sun et al. // Proceedings of the 19th international conference on World Wide Web / ACM. 2010. P. 751−760.
- Glorot X., Bordes A., Bengio Y. Domain Adaptation for Large-Scale Sentiment Classification: A Deep Learning Approach // Proceedings of the 28th International Conference on Machine learning. 2011. P. 513−520.
- Ahmad K., Gillam L., Tostevin L. University of surrey participation in trec8: Weirdness indexing for logical document extrapolation and retrieval (wilder) // The Eighth Text REtrieval Conference (TREC-8). 1999. P. 717 724.
- Callan J., Croft W., Harding S. The INQUERY retrieval system // Database and Expert Systems Applications. 1992. P. 78−83.
- Peng H., Long F., Ding C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy // Pattern Analysis and Machine Intelligence, IEEE Transactions on. 2005. Vol. 27, no. 8. P. 1226−1238.
- Hall M. A. Correlation-based feature selection for machine learning. Ph.D.' thesis: The University of Waikato. 1999.
- Прикладная статистика: Классификация и снижение размерности / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков и др. Финансы и статистика, 1989.
- Evert S. A simple LNRE model for random character sequences // JADT. 2004. P. 411−422.
- Baayen R. H. Word frequency distributions. MIT Press, 2001. Vol. 18.
- Holgate P. Species frequency distributions // Biometrika. 1969. Vol. 56, no. 3. P. 651−660.
- Li W. Random texts exhibit Zipf’s-law-like word frequency distribution // Information Theory, IEEE Transactions on. 1992. Vol. 38, no. 6. P. 1842— 1845.
- Rouault A. Lois de Zipf et sources markoviennes // Annales de l’institut Henri Poincare (В) Probabilites et Statistiques. Vol. 14. 1978. P. 169−188.
- Izsak J. Some practical aspects of fitting and testing the zipf-mandelbrot model // Scientometrics. 2006. Vol. 67, no. 1. P. 107−120.
- LIBLINEAR: A library for large linear classification / R.-E. Fan, K.W. Chang, C.-J. Hsieh et al. // The Journal of Machine Learning Research. 2008. Vol. 9. P. 1871−1874.
- Растригин JI.А. Эренштейн P.X. Метод коллективного распознавания. Библиотека по автоматике 0615. Энергия, 1981.
- Экспериментальные алгоритмы поиска/классификации и сравнение с «basic line» / М. С. Агеев, Б. В. Добров, Н. В. Лукашевич и др. // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004). 2004. С. 62−89.
- Мерков А.Б. Распознавание образов. Введение в методы статистического обучения. М.: Едиториал УРСС, 2011.
- Takamura H., Inui Т., Okumura M. Extracting semantic orientations of words using spin model // Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. 2005. P. 133−140.
- Добрушин P. JI. Описание случайного поля при помощи условных вероятностей и условия его регулярности // Теория вероятностей и ее применения. 1968. Т. 13, № 2. С. 201−229.
- Аверинцев М Б. Об одном способе описания случайных полей с дискретным аргументом // Проблемы передачи информации. 1970. Т. 6, № 2. С. 100−108.
- Koller D., Friedman N. Probabilistic graphical models: principles and techniques. The MIT Press, 2009.
- Advanced Mean Field Methods / Ed. by M. Opper, D. Saad. The MIT Press, 2001. P. 229−241.
- Mooij J. M. libDAI: A free and open source С++ library for discrete approximate inference in graphical models // The Journal of Machine Learning Research. 2010. Vol. 99. P. 2169−2173.