Методика и программный комплекс для идентификации автора неизвестного текста
Диссертация
Существующие в настоящее время программные комплексы для идентификации автора, в числе которых «Штампомер» (JI.JI. Делицын), «Лингвоана-лизатор» (Москва, Д.В. Хмелев), «Атрибутор» (Москва, МГУ, Поликарпов А. А. и др.), «Лингвистический анализатор» (Самара, А. Львов), «СМАЛТ» (Петрозаводск, ПетрГУ, А. А. Рогов и др.), «Стилеанализатор» (Томск, ТГУ, О.Г. Шевелев), «JGAAP» (США, P. Juola), «Автор… Читать ещё >
Содержание
- 1. Обзор подходов к идентификации автора неизвестного текста
- 1. 1. Первые количественные методы
- 1. 2. Методы статистического анализа
- 1. 2. 1. Статистические критерии
- 1. 2. 2. Методы теории информации
- 1. 2. 3. Метод накопительных сумм
- 1. 2. 4. Метод главных компонент и линейный дискриминантный анализ
- 1. 3. Методы машинного обучения
- 1. 3. 1. Генетические алгоритмы
- 1. 3. 2. Метод к ближайших соседей
- 1. 3. 3. Деревья решений
- 1. 3. 4. Наивный байесовский классификатор
- 1. 3. 5. Искусственные нейронные сети
- 1. 3. 6. Машина опорных векторов
- 1. 4. Сравнительный анализ методов идентификации автора
- 1. 5. Выводы по главе 1
- 1. 6. Постановка задач исследований и разработок
- 2. Методика идентификации автора неизвестного текста
- 2. 1. Обобщенная методика идентификации автора текста и формирования модели авторского стиля
- 2. 2. Модели представления текста в виде наборов признаков
- 2. 2. 1. Модель «Мешок слов»
- 2. 2. 2. yV-граммные модели
- 2. 2. 3. Сглаживающие модели
- 2. 3. Анализ структуры и характеристик текста
- 2. 3. 1. Характеристики текста, использующиеся для идентификации автора
- 2. 3. 2. Модель иерархической структуры текста
- 2. 4. Параметры классификаторов
- 2. 5. Выводы по главе 2
- 3. Моделирование параметров авторского стиля.'
- 3. 1. Общее описание экспериментов. Алгоритм проведения экспериментов
- 3. 2. Влияние количества и частотности признаков на точность идентификации автора
- 3. 3. Выбор типа ядрового преобразования машины опорных векторов
- 3. 4. Исследование характеристик текста в случае двух альтернатив
- 3. 5. Исследование характеристик текста в многоклассовых задачах
- 3. 6. Сравнение времени обучения классификаторов
- 3. 7. Исследование точности идентификации на основе сочетаний характеристик текста
- 3. 8. Исследование техник сглаживания
- 3. 9. Объединение полученных результатов. Использование ансамблей классификаторов
- 3. 10. Решение практических задач на основе разработанной методики (результаты внедрения). Идентификация автора короткого электронного сообщения
- 3. 10. 1. Идентификация автора короткого электронного сообщения
- 3. 10. 2. Пример решения частной задачи идентификации автора
- 3. 11. Рекомендации по практическому применению методики
- 3.
- Выводы по главе 3
- 4. Программный комплекс для идентификации автора письменной речи «Авторовед»
- 4. 1. Структура программного комплекса
- 4. 1. 1. Подсистема сбора статистической информации
- 4. 1. 2. База данных для хранения текстов и их характеристик
- 4. 1. 3. Подсистема формирования файлов для исследований
- 4. 1. 4. Аналитическая подсистема
- 4. 1. 5. Подсистема представления результатов
- 4. 2. Алгоритмическое обеспечение
- 4. 2. 1. Общий алгоритм работы подсистемы сбора статистической информации
- 4. 2. 2. Алгоритм автоматического определения кодировки текста
- 4. 2. 3. Алгоритм корректировки текста
- 4. 2. 4. Алгоритмы разбора текста
- 4. 2. 4. 1. Алгоритмы определения границ предложения
- 4. 2. 4. 2. Алгоритм разбора предложения
- 4. 2. 5. Алгоритм морфологического анализа
- 4. 2. 6. Алгоритмическое обеспечение Подсистемы формирования файлов
- 4. 2. 6. 1. Алгоритм выполнения подготовленных запросов для извлечения характеристик текста из БД
- 4. 2. 6. 2. Алгоритм формирования подготовленных для исследований файлов
- 4. 1. Структура программного комплекса
- 4. 3. Сравнение программного комплекса «Авторовед» с аналогами
- 4. 3. 1. Анализ программного обеспечения в области определения авторства текстов
- 4. 3. 2. Сравнение программного комплекса «Авторовед» с аналогами
- 4. 4. Выводы по главе 4
Список литературы
- Атрибутор Электронный ресурс. 1999−2007. — Режим доступа: http://www.textology.ru/web.htm.
- О системе «АУРа-Текст» Электронный ресурс. Режим доступа: http://aura.econ.pu.ru/antiplagiat/about.php.
- Библиотека Максима Мошкова Электронный ресурс. Режим доступа: http://www.lib.ru.
- Бородкин Л. Программное обеспечение FUZZYCLASS в историко-типологическом исследовании / Л. Бородкин, И. Гарскова // История и компьютер: Новые информационные технологии в исторических исследованиях и образовании. St. Katharinen, 1993. — С.89−104.
- Бузикашвили Н.Е. N-граммы в лингвистике / Н. Е. Бузикашвили, Г. А. Крылова, Д. В. Самойлов // Методы и средства работы с документами. М.: Диториал УРРС, 2000. — С. 91−130.
- Васюков Н.С. Модели определения авторства текста / Н. С. Васюков, Р. В. Мещеряков // Измерения, автоматизация и моделирование в промышленности и научных исследованиях: Межвузовский сборник. — Барнаул: Изд-во АлтГУ, 2005. С. 25−29.
- Головань О.В. Частотный анализ как первый шаг в построении интеллектуальной системы исследования текста / О. В. Головань // Ползуновский альманах. 2008. — № 2. — С. 153−155.
- Ефимова О.С. Применение собственных чисел при гаммировании текстов и идентификации языков / О. С. Ефимова, Р. Т. Файзуллин // Омскийнаучный вестник. Информационные технологии. 2006. — № 9 (46). — С. 146−152.
- Зализняк А.А. Грамматический словарь русского языка: словоизменение / А. А. Зализняк. — 3-е изд. — Москва: Рус.яз., 1987. — 880 с.
- Интернет-сервис AntiPlagiat.ru Электронный ресурс. 2005−2010. -Режим доступа: http://www.antiplagiat.ru.
- Колмогоров А.П. Три подхода к определению понятия количества информации / А. П. Колмогоров // Проблемы передачи информации. 1965. -Т. 1. — № 1, — С. 3−11.
- Комиссаров А.Ю. Криминалистическое исследование письменной речи с использованием ЭВМ : дис.. канд. юрид. наук: 12.00.09. -М., 2001. -225 с.
- Кукушкина О.В. Определение авторства текста с использованием буквенной и грамматической информации / О. В. Кукушкина, А. А. Поликарпов, Д. В. Хмелев // Проблемы передачи информации. 2001. — Т.37. — Вып.2. -С. 96−109.
- Львов А. Лингвистический анализ текста и распознавание автора Электронный ресурс. / А. Львов. 2008. — Режим доступа: http://fantlab.ru/article374.
- Марков А.А. Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь / А. А. Марков // Известия Имп.Акад.наук. 1913. — Серия VI, Т.Х. — № 3. — С. 153.
- Марков А.А. Об одном применении статистического метода / А. А. Марков // Известия Имп.Акад.наук. 1916. — Серия VI, Т.Х. — № 4. -С. 239.
- О проекте «Детектор плагиата» Электронный ресурс. 2007. -Режим доступа: http://www.detector-plagiata.ru.
- Плагиат-Информ система для определения плагиата в документах Электронный ресурс. — 2010. — Режим доступа: http://www.searchinform.ru/main/full-text-search-plagiarism-search-plagiatinform.html.
- Поддубный В.В. Сравнение стилей текстовых произведений по частному признаку на основе гипергеометрического критерия /
- B.В. Поддубный, О. Г. Шевелев // Теоретическая и прикладная информатика / Под ред. проф. А. Ф. Терпугова. — Томск: Изд-во Том. ун-та, 2004. — Вып. 1.1. C. 101−109.
- Поддубный В.В. Сравнение качества подходов к кластеризации текстов на основе гипергеометрического критерия / В. В. Поддубный, О. Г. Шевелев, Д. А. Бормашов // Вестник Том. гос. ун-та. 2006. — № 293. -С. 120−125.
- Поддубный В.В. Классификация текстов по авторству с помощью метода Хмелева и его модификаций /В.В. Поддубный, О. Г. Шевелев // Научное творчество молодежи. Материалы X Всероссийской научно-практической конференции. -Ч. 1.-2006.-С. 175−177.
- Психолингвистическая экспертная система «ВААЛ». Руководство пользователя Электронный ресурс. Москва, 2002. — Режим доступа: http://www.vaal.ru/prog/rukov.php.
- Романов А.С. Модель базы данных для хранения текстов и их характеристик / А. С. Романов // Доклады Томского государственного университета систем управления и радиоэлектроники. 2008. — № 1(17). — С. 70−73.
- A.А. Леонтьев, А. А. Рогов, В. Н. Захаров // IY-ая Санкт-Петербургская Ассамблея молодых ученых и специалистов. Тезисы докладов. СПб, 1999. -С. 66.
- Сысуев В. Проект «Пси Офис» Электронный ресурс. / В. Сысуев. -2002. Режим доступа: http://psy-two.narod.ru/embedded.html.
- B.П. Фоменко, Т. Г. Фоменко // Фоменко А. Т. Новая хронология Греции: Античность в средневековье. — М.: Изд-во МГУб 1996. — Т. 2. — С. 768−820.
- Хайкен С. Нейронные сети: полный курс / С. Хайкен. 2-е изд. — М.: Вильяме, 2006.-1104 с.
- ХетсоГ. Принадлежность Достоевскому: к вопросу об атрибуции Ф. М. Достоевскому анонимных статей в журналах «Время» и «Эпоха» / Г. Хетсо. Oslo: Solum Forlag A. S, 1986. — 86 с.
- Хмелев Д.В. Классификация и разметка текстов с использованием методов сжатия данных. Краткое введение Электронный ресурс. / Д. В. Хмелев. -Дата обновления: 11.03.2003. Режим доступа: http://compression.graphicon.ru/download/ articles/classif/intro.html.
- Хмелев Д.В. Распознавание автора текста с использованием цепей А. А. Маркова / Д. В. Хмелев // Вестник МГУ, Сер. 9. Филология. 2000. — № 2. -С. 115−126.
- Хрулев О. Определение автора по тексту на естественном языке Электронный ресурс. / О. Хрулев. Режим доступа: www.geshtalt.ru/psycholingvistauthor.php.
- Черепанова И.Ю. «Диатон» программа экспертизы текстов внушения Электронный ресурс. / И. Ю. Черепанова. — 1999. — Режим доступа: http://www.vedium.ru.
- Шаров С.А. Частотный словарь Электронный ресурс. / С. А. Шаров. 2001. — Режим доступа: http://www.artint.ru/projects/frqlist.asp.
- Шевелев О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие / О. Г. Шевелев. — Томск: TMJI-Пресс, 2007.- 144 с.
- Шевелев О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений : дис.. канд. техн. наук: 05.13.18. Томск, 2006.- 176 с.
- Шевелев О.Г. Классификация текстов с помощью деревьев решений и сетей прямого распространения / О. Г. Шевелев, А. В. Петраков // Вестник Том. гос. ун-та. 2006. — № 290. — С. 300−307.
- Штампомер описание работы программы Электронный ресурс. -2001. — Режим доступа: http://www.shtampomer.narod.ru/manual.html.
- Abbasi A. Identification and comparison of extremist-group Web forum messages using authorship analysis / A. Abbasi, H. Chen // IEEE Intelligent Systems. 2005. — Vol. 20. — № 5. — P. 67−75.
- Abbasi A. Visualizing Authorship for Identification / A. Abbasi, H. Chen // Proceedings of the 4th IEEE Symposium on Intelligence and Security Informatics. -2006.-P. 60−71.
- Abbasi A. Writeprints: A stylometric approach to identity-level identification and similarity detection in cyberspace / A. Abbasi, H. Chen // ACM Transactions on Information Systems. NY: ACM, 2008. — Vol. 26. — № 2, Article 7. — 29 p.
- Abbasi A. Applying authorship analysis to extremist-group web forum messages / A. Abbasi, H. Chen // IEEE Intelligent Systems. 2005. — Vol. 20. — № 6. -P. 67−75.
- ACNP Software. Plagiarism search tools Electronic resource., 20 032 010. — URL: http://www.anticutandpaste.com/antiplagiarist.
- AmasyahM.F. Automatic Turkish Text Categorization in Terms of Author, Genre and Gender / M.F. Amasyah, B. Diri // NLDB 2006. Berlin: Springer-Verlag, 2006. — Vol. LNCS 3999. — P. 221−226.
- Apte C. Automated Learning of Decision Rules for Text Categorization / C. Apte, F. Damerau, S. Weiss // ACM Transactions on Information Systems. NY: ACM, 1994. — Vol. 12. — Issue 3. — P. 233−240.
- Argamon-Engleson A. Style-based text categorization: What newspaper am I reading / A. Argamon-Engleson, M. Koppel, G. Avneri // Proceedings of the AAAI Workshop of Learning for Text Categorization. 1998. — P. 1−4.
- Argamon S. Measuring the usefulness of function words for authorship attribution Electronic resource. / S. Argamon, S. Levitan // Proceedings of ACH/ALLC Conference. 2005. — URL: http://mustard.tapor.uvic.ca/cocoon/achabstracts/xq/ xhtml. xq?id=l 62.
- Argamon S. Stylistic text classification using functional lexical features / S. Argamon, C. Whitelaw, P. Chase et al. // Journal of the American Society of Information Science and Technology. 2007. — Vol. 58. — № 6. — P. 802−822.
- Baayen R.H. Outside the cave of shadows: Using syntactic annotation to enhance authorship attribution / R.H. Baayen, H.V. Halteren, F.J. Tweedie // Literary and Linguistic Computing. 1996.-Vol. 11.-P. 121−131.
- Baayen R.H. An experiment in authorship attribution / R.H. Baayen, H.V. Halteren, A. Neijt et al.// Proceedings of JADT 2002. Universit’e de Rennes, St. Malo, 2002.-P. 29−37.
- Benedetto D. Language Trees and Zipping / D. Benedetto, E. Caglioti, V. Loreto // Phys. Rev. Lett. 2002. — Vol. 88, № 4. — P. 487−490.
- Bloomfield L. WCopyfind 2.1 Electronic resource. / L. Bloomfield -2006. URL: http://www.plagiarism.phys.virginia.edU/WCopyfmd%202.l .html.
- Brennan M. Practical Attacks Against Authorship Recognition Techniques Electronic resource. / M. Brennan, R. Greenstadt // Proceedings of HAR-2009. 2009. — URL: https://har2009.org/program/attachments/43brennangreenstadtstylo-metry.pdf.
- Burges C.J.C. A tutorial on support vector machines for pattern recognition / C.J.C. Burges // Data Mining and Knowledge Discovery. 1998. -Vol. 2. — № 2. — P. 955−974.
- Burrows J. «An ocean where each kind.»: Statistical analysis and some major determinants of literary style / J.F. Burrows // Computers and the Humanities. 1989.-Vol. 23.- № 4. -P. 309−321.
- Burrows J. All the way through: Testing for authorship in different frequency data / J.F. Burrows // Literary and Linguistic Computing. — 2007. -Vol. 22. — № 1. — P.27−47.
- Calix K. Stylometry for E-mail Author Identification and Authentication Electronic resource. / K. Calix, M. Connors, D. Levy // Proceedings of CSIS Research Day, Pace University, May 2008. 2008. — URL: http://csis.pace.edu/~ctappert/srd2008/c2.pdf.
- Cavnar W. N-gram-based text categorization Electronic resource. / W. Cavnar, J. Trenkle // Proceedings SDAIR-94. 1994. — URL: http://citeseerx.ist.psu.edu/iewdoc/download?doi=TO. 1.1.21.3248&rep=repl&type=p df.
- CFL Software Limited for advanced document search and analisys Electronic resource. 2009. — URL: http://www.cflsoftware.com.
- Chaski C.E. Empirical evaluations of language-based author identification /С.Е. Chaski//Forensic Linguistics.-2001.-Vol. 8.-№ l.-P. 1−65.
- Chaski C.E. Who’s at the keyboard: Authorship attribution in digital evidence investigations Electronic resource. / C.E. Chaski // International Journal of Digital Evidence. 2005. — Vol. 4. — № 1. — URL: http://www.ijde.org.
- Chen S.F.J. An empirical study of smoothing techniques for language modeling / S.F.J. Chen, J. Goodman // Computer Speech & Language. 1999. -Vol. 13.-№ 4.-P. 359−393.
- Cilibrasi R. Clustering by compression Electronic resource. / R. Cilibrasi, P. Vitanyi // CWI manuscript. 2003. — URL: http://homepages.cwi.nl/cilibrar.
- Corney M. Identifying the Authors of Suspect E-mail Electronic resource. / M. Corney, A. Anderson, G. Mohay et al. // Computers and Security. -2001. URL: http://eprints.qut.edu.aU/8021/l/CompSecurityPaper.pdf.
- Corney M. Gender-Preferential Text Mining of E-mail Discourse / M. Corney, O. de Vel, A. Anderson // Proceedings of 18th Annual Computer Security Applications Conference (ACSAC *02). 2002. — P. 282.
- De Vel O. Mining e-mail content for author identification forensics / O. De Vel, A. Anderson, M. Corney et al. // ACM SIGMOD. NY: ACM, 2001. -Rec. 30. -№ 4. -P. 55−64.
- Diederich J. Authorship attribution with support vector machines / J. Diederich, J. Kindermann, E. Leopold // Applied Intelligence. Springer Netherlands, 2003.-Vol. 19.-№ 1−2.-P. 109−123.
- Dumais S.T. Inductive learning algorithms and representations for texts categorization / S.T. Dumais, J. Piatt, D. Heckerman et al. // Proceedings of ACM-CIKM98m. NY: ACM, 1998. — P. 148−155.
- Efimovich S.G. Automatic search of indicators of text authorship / S.G. Efimovich, S.O. Gennadyevich // Proceedings of The 7th Korea-Russia International Symposium on Science and Technology (KORUS 2003). 2003. -Vol. 2.-P. 185−188.
- Efron B. Estimating the number of unseen species: How many words did Shakespeare know? / B. Efron, R. Thisted // Biometrika. 1976. — Vol. 63. — № 3. -P. 435—447.
- Efron В. Did Shakespeare write newly-discovered poem? / B. Efron, R. Thisted // Biometrika. 1987. — Vol. 74. — № 3. — P. 445−455.
- Elliot W. Was the Earl of Oxford the true Shakespeare? / W. Elliot, R. Valenza//Notes and Queries. 1991.-Vol. 38.-P. 501−506.
- EVE Plagiarism Detection System Electronic resource. URL: http://www.canexus.com.
- Fahlman S.E. The cascade-correlation learning architecture / S.E. Fahlman, C. Lebiere // Advances in Neural Information Processing Systems. -San Fransisco: Morgan Kaufmann, 1990. № 2. — 524−532.
- Fahlman S.E. Faster-Learning Variations on Back-Propagation: An Empirical Study / S.E. Fahlman // Proceedings of Connectionist Models Summer School. Los Altos: Morgan Kaufmann, 1998. — 19 p.
- Farringdon J.M. Analyzing for Authorship / J.M. Farringdon with contributions by Morton A.Q., Farringdon M.G., Baker M.D. Cardiff: University of Wales Press, 1996.-324 p.
- Fast Artificial Neural Network Library (FANN) Electronic resource. -2005. URL: http://leenissen.dk/fann.
- Fisher R.A. Combining independent tests of significance / R.A. Fisher // American Statistician. 1948. — Vol. 2. — № 5. — P. 30.
- Foster D. Author Unknown: Adventures of a Literary Detective / D. Foster. London: Owl Books, 2000. — 320 p.
- Frank E. Text categorization using compression models / E. Frank, C. Chui, I.H. Witten edited by J.A. Storer et al. // Proceedings IEEE Data Compression Conference, Snowbird, US. Los Alamitos: IEEE Press, 2000. — P. 200−209.
- Grant T. Identifying reliable, valid markers of authorship: A reponse to Chaski / T. Grant, K. Baker // Forensic Linguistics. 2001. — Vol. 8. — № 1. -P. 66−79.
- Green T.R.G. The necessity of syntax markers: Two experiments with artificial languages / T.R.G. Green // Journal of Verbal Learning and Verbal Behavior. 1979. — Vol. 18. — P. 481−96.
- Grieve J. Quantitative Authorship Attribution: An Evaluation of Techniques / J. Grieve // Literary and Linguistic Computing. 2007. — Vol. 22. -№ 3. — P. 251−270.
- Hadi W.M. A Comprehensive Comparative Study Using Vector Space Model with K-Nearest Neighbour on Text Categorization Data / W.M. Hadi, F. Thabtah, S. Mousa // Asian Journal of Information Management. 2008. — Vol. 2.- № 1. P. 14−22.
- Halteren H. New machine learning methods demonstrate the existence of a human stylome / H. Halteren, R.H. Baayen, F. Tweedie et al. // Journal of Quantitative Linguistics. 2005. — Vol. 12. — № 1. — P. 65−77.
- Hoehfeld M. Learning with limited numerical precision using the cascade-correlation algorithm / M. Hoefeld, S.E. Fahlman // IEEE Transactions on Neural Networks. 1992. — Vol. 3. — № 4. — P. 602−611.
- Holmes D., Forsyth R. The Federalist revisited: New directions in authorship attribution / D. Holmes, R. Forsyth // Literary and Linguistic Computing.- 1995.-Vol. 10. -№ 2. P. 111−127.
- HoornJ. Neural network identification of poets using letter sequences / J. Hoorn, S. Frank, W. Kowalczyk et al. // Literary and Linguistic Computing. -1999.-Vol. 14. -№ 3. -P. 311−338.л
- Hoover D.L. Delta prime? / D.L. Hoover // Literary and Linguistic Computing. 2004. — Vol. 19. — № 4. — P. 477−495.
- Hsu C.-W. A practical guide to support vector classification Electronic resource. / C.-W. Hsu, C.-C. Chang, C.-J. Lin. 2003. — URL: http://www.csie.ntu.edu.tw/~cjlin/ papers/guide/guide.pdf.
- Hsu C.-W. A comparison of methods for multi-class support vector machines / C.-W. Hsu, C.-J. Lin // IEEE Transactions on Neural Networks. 2003. -Vol. 13.-№ 2.-P. 415−425.
- IBM DB2 Intelligent Miner Electronic resource. 2005. — URL: http://www-01. ibm.com/software/ru/data/db2bi/minerintelligent.html.
- Jelinek F. Up from trigrams! The struggle for improved language models / F. Jelinek // Proceedings of Eurospeech 91. — Genova, 1991. — Vol. 3. -P. 1037−1040.
- JGAAP Documentation Electronic resource. 2007. — URL: http://www.mathcs.duq.edu/~fa05ryan/wiki/index.php/Documentation.
- Joachims T. Text Categorization With Support Vector Machines: Learning With Many Relevant Features / T. Joachims // Proceedings of ECML-98, 10th European Conference on Machine Learning. 1998. -№ 1398. — P. 137−142.
- Juola P. Cross-Entropy and Linguistic Typology / P. Juola // Proceedings of New Methods in Language Processing 3. ACL, 1998. — P. 141−149.
- Juola P. Measuring linguistic complexity: The morphological tier / P. Juola // Journal of Quantitative Linguistics. 1998. — Vol. 5. — № 3. — P. 206−213.
- Juola P. A Controlled-Corpus Experiment in Authorship Identification by Cross-Entropy / P. Juola, H. Baayen // Literary and Linguistic Computing. Oxford: Oxford University Press, 2005. — Vol. 20. — P. 59−67.
- Juola P. A Prototype for Authorship Attribution Studies / P. Juola, J. Sofko, P. Brennan // Literary and Linguistic Computing. 2006. — Vol. 21. — № 2. -P. 169−178.
- KarrJ.R. Scientific Authorship, Collaboration, Interdisciplinarity, and Productivity Electronic resource. / J.R. Karr, J.J. Hughey, Т.К. Lee. 2008. — URL: http://covertlab.stanford.edu/projects/ScienceGenealogy.
- KatzS.M. Estimation of probabilities from sparse data for the language model component of a speech recognizer / S.M. Katz // IEEE Transactions on Acoustics, Speech and Signal Processing. 1987. — Vol. 35. — № 3. — P. 400−401.
- Khosmood F. Automatic Source Attribution of Text: A Neural Networks Approach / F. Khosmood, F. Kurfess // Proceedings of IEEE International Joint Conference on Neural Networks (IJCNN). 2005. — Vol. 5. — P. 2718−2723.
- Kjell B. Authorship attribution of text samples using neural networks and Bayesian classifiers / B. Kjell // IEEE International Conference on Systems, Man and Cybernetics, San Antonio, TX. 1994.
- Kjell B. Authorship determination using letter pair frequencies with neural network classifiers / B. Kjell // Literary and Linguistic Computing. 1994. — Vol. 9. — № 2. — P. 119−124.
- Kjell B. Discrimination of authorship using visualization / B. Kjell, W.A. Woods, O. Frieder // Information Processing and Management. 1994. -Vol. 30.-№ 1.- P. 141−150.
- Koppel M. Automatically categorizing written texts by author gender / M. Koppel, S. Argamon, A.R. Shimoni // Literary and Linguistic Computing. 2002. -Vol. 17. — № 4. — P. 401412.
- Koppel M. Authorship verifcation as a one-class classification problem / M. Koppel, J. Schler // Proceedings of the 21st International Conference on Machine Learning. Banff, Canada. NY: ACM Press, 2004. — P. 489−495.
- Koppel M. Exploiting stylistic idiosyncrasies for authorship attribution / M. Koppel, J. Schler // Proceedings of IJCAI'03 Workshop on Computational
- Approaches to Style Analysis and Synthesis, Acapulco, Mexico, 2003. 2003. -P. 69−72.
- Kruh L. A basic probe of the Beale cipher as a bamboozlement: Part I / L. Kruh // Cryptologia. 1982. — Vol. 6. -№ 4. — P. 378−382.
- Kukushkina O.V. DicTUM-1, a system for dictionary-text universal manipulations and analysis Electronic resource. / O.V. Kukushkina, A.A. Polikarpov. Last updated: 10/31/2003. — URL: http://www.philol.msu.ru/~lex/articles/dictum.htm.
- Lowe D. Shakespeare vs. Fletcher: A stylometric analysis by Radial Basis Functions / D. Lowe, R. Matthews // Computers and the Humanities. Springer Netherlands, 1995.-Vol. 29. — P. 449−461.
- Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information / H.P. Luhn // IBM Journal of Research and Development. -1957.-Vol. l.-№ 4.-P. 309−317.
- Luyckx K. Authorship Attribution and Verification with Many Authors and Limited Data / K. Luyckx, W. Daelemans // Proceedings of the 22nd International Conference on Computational Linguistics (COLING '08). 2008. -P. 513−520.
- Malyutov M.B. Authorship attribution of texts: a review / M.B. Malyutov // Lecture Notes in Computer Science. 2006. — Vol. 4123. — General Theory of Information Transfer and Combinatorics. — P. 362−380.
- Malyutov M.B. Conditional Complexity of Compression for Authorship Attribution / M.B. Malyutov, C.I. Wickramasinghe, S. Li // SFB 649 Discussion Paper. 2007. — № 57. — 38 p.
- Martindale C. On the utility of content analysis in author attribution: The federalist / C. Martindale, D. McKenzie // Computers and the Humanities. 1995. -Vol. 29.-P. 259−270.
- Matthews R.A.J. Neural computation in stylometry I: An application to the works of Shakespeare and Fletcher / R.A.J. Matthews, T.V.N. Merriam // Literary and Linguistic Computing. 1993. — Vol. 8. — № 4. — P. 203−209.
- Matthews R.A.J. Neural computation in stylometry II: An application to the works of Shakespeare and Marlowe / R.A.J. Matthews, T.V.N. Merriam // Literary and Linguistic Computing. 1994. — Vol. 9. — № 1. — P. 1−6.
- Mendenhall T.A. The characteristic curves of composition / T.A. Mendenhall // Science. 1887. — № 11. — P. 237−249.
- Mendenhall T.A. A mechanical solution to a literary problem / T.A. Mendenhall //Popular Science Monthly. 1901. -№ 60. — P. 97−105.
- Migletz J. Automated metadata extraction Electronic resource. / J. Migletz. 2008. — URL: http://simson.net/clips/students/ 08JunMigletz.pdf.
- Morton A.Q. Literary Detection: How to Prove Authorship and Fraud In Literature and Documents / A.Q. Morton. New York: Scribner’s, 1978. — 221 p.
- Morton A.Q. The Authorship of Greek Prose / A.Q. Morton // Journal of the Royal Statistical Society (A). 1965. — Series A. — № 128. — pp. 169−233.
- Mosteller F. Inference and Disputed Authorship: The Federalist / F. Mosteller, D.L. Wallace. Reading, MA: Addison-Wesley, 1964 — 287 p.
- Mozgovoy M. Desktop Tools for Offline Plagiarism Detection in Computer Programs / M. Mozgovoy // Informatics in Education. 2006. — Vol. 5. -№ l.-P. 97−112.
- Nigam K. Using Maximum Entropy for Text Classification / K. Nigam, J. Lafferty, A. McCallum // IJCAI-99 Workshop on Machine Learning for Information Filtering. 1999. — P. 61−67.
- Nowson S. Identifying more bloggers: Towards large scale personality classifiation of personal weblogs Electronic resource. / S. Nowson, J. Oberlander. -2007. URL: http://nowson.com/papers/NowOberICWSM07.pdf
- Oakes M. Text categorization: Automatic discrimination between US and UK English using the chi-square text and high ratio pairs / M. Oakes // Research in Language.-2003.-Vol. l.-P. 143−156.
- Oman W.P. Programming style authorship analysis / W.P. Oman, R.C. Cook // Proceedings of the 17th Annual ACM Computer Science Conference. -NY: ACM Press, 1989. P. 320−326.
- Pasqualoni A. Author attribution using neural networks Electronic resource. 2006. — URL: http://home.southernct.edu/~pasqualonial/sonnet/report.html.
- Patton J.M. A Stylometric Analysis of Yasar Kemal’s 'Ince Memed' Tetralogy / J.M. Patton, F. Can // Computers and the Humanities. Spinger, 2004. -Vol. 38.-№ 4.-P. 457−467.
- Pearson K. On lines and planes of closest fit to systems of points in space // Philosophical Magazine / K. Pearson -1901.- № 2. P. 559−572.
- Peng F. Combining Naive Bayes and n-Gram Language Models for Text Classification / F. Peng, D. Schuurmans // Lecture Notes in Computer Science.2003. Vol. 2633. — P. 335−350.
- Peng F. Augumenting Naive Bayes Text Classifier with Statistical Language Models / F. Peng, D. Schuurmans, S. Wang // Information Retrieval.2004.-Vol. 7.-№ 3−4.- P. 317−345.
- Peng F. Language independent authorship attribution using character level language models / F. Peng, D. Schuurmans, S. Wang et al. // Proceedings of the 10th conference on European chapter of the ACL. 2003. — Vol. 1. — P. 267−274.
- Peng R.D. Quantitative analysis of literary styles / R.D.Peng, N.W. Hengartner // The American Statistician. 2002. — Vol. 56. — № 3. -P. 175−185.
- Piatt J.C. Fast training support vector machines using sequential minimal optimization / J.C. Piatt, ed. by B. Scholkopf et al. // Advances in Kernel Methods. -MIT Press, 1999.-P. 185−208.
- Porter M.F. Russian stemming algorithm Electronic resource. / M.F. Porter. URL: http://snowball.tartarus.org/algorithms/ russian/stemmer.html.
- Quinlan J.R. Induction of decision trees / J.R. Quinlan // Machine Learning. 1986. — Vol. 1. — № 1. — P. 81 -106.
- Rudman J. The state of authorship attribution studies: Some problems and solutions // Computers and the Humanities. 1998. — Vol. 31. — P. 351−365.
- Scholkopf В. Estimating the support of a high-dimensional distribution Electronic resource. / B. Scholkopf, J.C. Piatt, J. Shawe-Taylor et al. // Tech. report, MSR-TR-99−87. 1999. — URL: http://axiom.anu.edu.au/~williams/papers/P132.pdf.
- Shannon C.E. A mathematical theory of communication / C.E. Shannon // Bell System Technical Journal. 1948. — Vol. 27. — № 4. — P. 379123.
- Simpson E.H. Measurement of Diversity / E.H. Simpson // Nature. -Macmillan Publishers Ltd, 1949. -№ 163. P. 688.
- Stamatatos E. Author identification using imbalanced and limited training texts / E. Stamatatos // Porceedings of the 18th International Conference on Database and Expert Systems Applications. 2007. — P. 237−241.
- Stamatatos E. Computer-based authorship attribution without lexical measures / E. Stamatatos, N. Fakotakis, G. Kokkinakis // Computers and the Humanities.-2001.-Vol. 35.-№ 2.-P. 193−214.
- Stanczyk U. Machine learning approach to authorship attribution of literary texts / U. Stanczyk, K.A. Cyran // International journal of applied mathematics and informatics. -2007. -Issue 4. Vol. 1. — P. 151−158.
- Stastny J. Genetic algorithm and neural network / J. Stastny, V. Skorpil // Proceedings of the 7th WSEAS International Conference on Applied Informatics and Communications. 2007. — P. 345−350.
- Stein B. Intrinsic Plagiarism Analysis with Meta Learning / B. Stein, S.M. Eissen // SIGIR Workshop on Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection (PAN 07). 2007. — P. 45−50.
- Teahan W.J. Using compression-based language models for text categorization / W.J. Teahan, D.J. Harper, ed. J. Callan et al. // Workshop on Language Modeling and Information Retrieval, ARDA. 2001. — P. 83−88.
- Teahan W.J. A Compression-based Algorithm for Chinese Word Segmentation / W.J. Teahan, Y.Y. Wen, R. McNab et al. // Computational Linguistics. 2000. — Vol. 26.-№ 3.-P. 375−393.
- Text mining with SAS Text Miner Electronic resource. 2009. — URL: http://www.sas.com/technologies/analytics/datamining.
- TextAnalyst Electronic resource. 2007. — URL: http://www.megaputer.ru.
- The risks of metadata and hidden information. Electronic resource. -2007. URL: http://www.stg.srs.com/eds/docdet/archive/bitfoimFortune 100Study.pdf.
- Turnitin Electronic resource. 2010. — URL: http://www.turnitin.com.
- Tweedie F.J. How Variable may a Constant be? Measures of Lexical Richness in Perspective / F.J. Tweedie, H. Baayen // Computers and the Humanities. Springer, 1998. — Vol. 32. — № 5. — P. 323−352.
- Tweedie FJ. Neural network applications in stylometry: The Federalist Papers / F.J. Tweedie, S. Singh, D.I. Holmes // Computers and the Humanities. -1996.-Vol. 30.-№ l.-P. 1−10.
- Vapnilc V. Statistical Learning Theory / V. Vapnik. New York: Wiley, 1998.-732 p.
- Warren R. Vocabulary size and email authentication / R. Warren // Technical Report CS-2005−17, University of Waterloo, 2005. 9 p.
- Waugh S. Computational stylistics using Artificial Neural Networks / S. Waugh, A. Adams, F.J. Tweedie // Literary and Linguistic Computing. 2000. -Vol. 15.-№ 2.-P. 187−198.
- What is Plagiarism Detector? Electronic resource. 2005−2009. — URL: http://www.plagiarism-detector.com/what-is-plagiarism-detector.php.
- Yule G.U. The Statistical Study of Literary Vocabulary / G.U. Yule. -Cambridge University Press, 1944. 306 p.
- Zhao Y. Entropy-based authorship search in large document collections / Y. Zhao, J. Zobel // Proceedings of the ECIR European Conference on Information Retrieval. Springer, 2007. — P. 381−392.
- Zheng R. A framework for authorship analysis of online messages: Writing-style features and techniques / R. Zheng, J. Li, Z. Huang et al. // Journal of the American Society for Information Science and Technology. 2006. — Vol. 57. -№ 3.-P. 378−393.
- Министерство образования и науки Российской Федерации Федеральное агентство по образованию Томский государственный университет систем управления и радиоэлектроники1. ТУСУР)1. На правах рукописи
- Романов Александр Сергеевич
- МЕТОДИКА И ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ИДЕНТИФИКАЦИИ АВТОРА НЕИЗВЕСТНОГО ТЕКСТА1. Том 2
- Специальность 05.13.18 Математическое моделирование, численныеметоды и комплексы программю Диссертация на соискание ученой степени кандидата технических наукю1. CD 1. О Я
- Научный руководитель доктор технических наук,
- СО профессор Шелупанов А.А.1. Томск-20 101. ОГЛАВЛЕНИЕ