Синтаксические методы контекстной обработки в задачах распознавания текста
Диссертация
За счет использования универсальных синтаксических методов Система работает с большим количеством типов полей, структура которых имеет различную степень жесткости. Наличие единых средств синтаксического описания при помощи PDS-грамматики и синтаксических диаграмм позволило разработать специальные алгоритмы обработки конкретных типов полей в сжатые сроки. При этом процедуры обработки различных… Читать ещё >
Содержание
- Актуальность темы исследования
- Предмет работы
- Цель работы
- Методы исследования
- Практическая ценность и апробация работы
- Публикации
- Структура и объем работы
- 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ КОНТЕКСТНОЙ ОБРАБОТКИ
- 1. 1. N-граммы
- 1. 2. Динамическое программирование
- 1. 2. 1. Дискретный процесс управления
- 1. 2. 2. Метод динамического программирования
- 1. 2. 3. Алгоритм Левенштейна
- 1. 2. 4. Обзор работ
- 1. 3. Скрытые марковские модели
- 1. 3. 1. Определение СММ
- 1. 3. 2. Обзор работ
- 1. 4. Нейронные сети
- 1. 5. Методы коррекции и валидации текстов
- 1. 5. 1. Словарные методы
- 1. 5. 2. Вероятностные методы
- 1. 5. 3. Техника похожих ключей
- 1. 5. 4. Сравнение методов
- 1. 6. Классификационные методы
- 1. 7. Методы синтаксического анализа
- 1. 7. 1. Формальные языки. Компилирование
- 1. 7. 2. Естественные языки. Компьютерная лингвистика
- 1. 8. Выводы
- 2. СИНТАКСИЧЕСКИЕ МЕТОДЫ КОНТЕКСТНОЙ ОБРАБОТКИ
- 2. 1. Представление результатов распознавания. AP-сеть, АР-цепь, АР-матрица
- 2. 2. Формальные языки и грамматики, синтаксические диаграммы
- 2. 2. 1. Язык
- 2. 2. 2. Понятие грамматики. ГрамматикаХомского
- 2. 2. 3. Нотация Бэкуса-Наура
- 2. 2. 4. Синтаксические диаграммы
- 2. 2. 5. PDS грамматика
- 2. 3. Классификация типов полей на формах
- 2. 3. 1. Словарное поле
- 2. 3. 2. Текст на естественном языке
- 2. 3. 3. Поле с заданным синтаксисом
- 2. 3. 4. Поле, описываемое синтаксисом частично
- 2. 3. 5. Поле с нефиксированным текстовым представлением
- 2. 3. 6. Поля со специальными ограничениями
- 2. 4. Постановка задачи контекстной обработки
- 2. 4. 1. Восстановление текстового значения
- 2. 4. 2. Классификация т екстового значения
- 2. 4. 3. Приведение распознанного значения к нормальной форме
- 2. 4. 4. Оценка степени надежности распознанного значения
- 2. 4. 5. Локализация ненадежных фрагментов
- 2. 4. 6. Нахождение опорных фрагментов
- 2. 5. Поиск заданного текстового фрагмента в АР-цепи. Алгоритм MCHSR
- 2. 5. 1. Структура результатов распознавания
- 2. 5. 2. Описание алгоритма MCHSR
- 2. 6. Синтаксический подход
- 2. 6. 1. О подходе
- 2. 6. 2. Основная алгоритмическая схема
- 2. 6. 3. ОП-процедура
- 2. 6. 4. Эксперименты и результаты
- 2. 7. Подход с использованием частично-определенного синтаксиса
- 2. 7. 1. Предпосылки создания
- 2. 7. 2. Схема алгоритма
- 2. 7. 3. Эксперименты и результаты
- 2. 7. 4. Выводы
- 2. 8. Классификация полей с нефиксированным текстовым представлением
- 2. 8. 1. Признаки и функции выделения признаков
- 2. 8. 2. Построение первичного классификатора
- 2. 8. 3. Сравнение функций выделения признаков
- 2. 8. 4. Задача с неизвестными классами
- 2. 8. 5. Сглаживание
- 2. 8. 6. Проблема зависимости признаков
- 2. 8. 7. Реализация и
- 2. 9. Выводы
- 3. 1. Система массового ввода структурированных документов
- 3. 1. 1. Обзор системы
- 3. 1. 2. Стадии технологической цепочки ввода документов
- 3. 1. 3. Основные компоненты системы
- 3. 2. Подсистема контекстной обработки
- 3. 2. 1. Назначение подсистемы
- 3. 2. 2. Структура подсистемы
- 3. 2. 3. Процесс создания функций контекстной обработки
- 3. 3. Внедренные проекты и особенности технической реализации
- 3. 3. 1. Ввод документов пенсионного страхования
- 3. 3. 2. Ввод анкет школьников и студентов
- 3. 3. 3. Ввод банковских документов
- 3. 3. 4. Ввод отгрузочныхразнадядок в ОАО «Сибнефть «
- 3. 3. 5. Ввод счетов-фактур в Магнитогорском Металлургическом Комбинате
Список литературы
- АВ95. J.C. Anigbogu and A. Belaid, Hidden Markov Models in Text Recognition, HIJPRAI, Vol.9, No.6, pp. 925−958,1995
- Arn94. D.J. Arnold, Lorna Balkan, Siety Meijer, R. Lee Humphreys and Louisa Sadler Machine Translation: an Introductory Guide. HBlackwells-NCC, London
- ASU86. Aho A., Sethi R., Ullman J. Compilers: principles, techniques and tools, //N.Y., Addison-Wesley, 1986.
- BDS92. Peter F. Brown and Vincent J. Delia Pietra and Peter V. deSouza and Jennifer C. Lai and Robert L. Mercer. Class-Based n-gram Models of Natural Language. I I Computational Linguistics, vol. 18, no. 4, pp. 467−479,1992.
- BGS97. Djamel Bouchaffra and Venu Govindaraju and Sargur N. Srihari. Postprocessing of Recognized Strings Using Nonstationary Markovian Models. I/IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 21 no. 10, pp. 990−999,1997.
- BGS98. D. Bouchaffra and V. Govindaraju and S. Srihari A Methodology for Determining Probability of Correctness of Recognizer Scores UProc. IEEE Conf. Computer Vision and Pattern Recognition, Santa Barbara, Calif., June 1998
- Bis95. Christopher M. Bishop Neural Networks for Pattern Recognition // Oxford University Press (1995).
- BJG03. Steven Beitzel, Eric Jensen and David Grossman. A Survey of Retrieval Strategies for OCR Text Collections. UProc. of2003 Symposium on Document Image Understanding Technology, April 2003
- Blul. Michael Blumenstein and Brijesh Verma. A Neural Network for Real-World Postal Address Recognition.
- BRR02. Anja Brakensiek, Jorg Rottland and Gerhald Rigoll. Handwritten Address Recognition with Open Vocabulary Using Character N-grams. UProc. of 8th International Workshop on Frontiers in Handwriting Recognition (IWFHR), 2002.
- CC95. C.L.A. Clarke and G.V. Cormack. On the use of regular expressions for searching text. //Technical Report CS-95−07, Department of Computer Science, University of Waterloo, February 1995
- CDD97. C. Cracknell, A. C. Downton, L. Du. An Object-Oriented form Description Language and Approach to Handwritten Form Processing. H4th International Conference Document Analysis and Recognition (ICDAR '97) Volume I and Volume II. 1997. pp. 180.
- CFM92. Casey, D. Ferguson, K. Mohiuddin, and E. Walach, «Intelligent forms processing system,» Machine Vision and Applications, vol. 5, no. 3 pp. 1443−1455,1992
- CG98. Stanley F. Chen, Joshua Goodman. An empirical study of smoothing techniques for language modeling //Technical Report TR-10−98, Computer Science Group, Harvard University, 1998
- CGM+98. F. Cesarini, M. Gori, S. Marinai, and G. Soda, «INFORMys: A Flexible InvoiceLike Form-Reader System» //IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 7, pp. 730−745, July 1998
- СКР92. Doug Cutting, Julian Kupiec, Jan Pedersen, Penelope Sibun, A practical part-of-speech tagger, HProc. of the third conference on Applied natural language processing, March 31-April 03,1992, Trento, Italy
- CMM99. David Y. Chen, Jianchang Mao, K. Mohiuddin. An Efficient Algorithm for Matching a Lexicon with a Segmentation Graph. //Fifth International Conference on Document Analysis and Recognition, India, September 1999.
- CV89. Cherkassky, V., and Vassilas, N. Back propagation networks for spelling correction. //Neural Networks 1, 3 (July), 166−173,1989
- Dam90. Damerau. F. J. Evaluating computer-generated domain-oriented vocabularies. //Inf. Process. Manage. 26, 6, pp 791−801.1990
- Dav62. Davidson, L. Retrieval of misspelled names in an airline passenger record system. //Community A CM 5,169−171,1962
- DEG90. Deffiier, R, Eder, K, and Geiger, H. Word recognition as a first step towards natural language processing with artificial neural nets. //In Proceedings of KONNAI-90. 1990
- DHS01. R. 0. Duda, P. E. Hart and D. G. Stork, Pattern Classification (2nd ed.), //John Wiley and Sons, 2001
- Doul. Shona Douglas. Customising Grammar and Style Checker Rules //Centre for Cognitive Science University of Edinburgh
- Elt88. Elliot, R. J. 1988. Annotating spelling list words with affixation classes. //AT&T Bell Labs Int. Mem. Dec. 14.
- ESS96. Emelyanov N.E., Solovyev A.V., Schelkacheva I.V. Classification of Structured Data Representations ПProceedings of the Third International Worbhop on Advances in Databases and Information Systems./ MEPhI Publishing, Vol. 2,1996
- For73. G. D. Forney. The Viterbi algorithm. //Proceedings of the IEEE 61(3):268−278, March 1973
- FYBOO. C.O. de Almendra Freitas, A. El Yacoubi, F. Bortolozzi, R. Sabourin. Brazilian
- Bank Check Handwritten Legal Amount Recognition. HProc. of the XIII Brazilian Symposium on Computer Graphics and Image Processing.
- GI01. Luis Gravano, Panagiotis G. Ipeirotis and oth. Using q-grams in a {DBMS} for Approximate String Processing //IEEE Data Engineering Bulletin, Vol.24 No.3 pp. 2834, 2001
- GMW97. Dafydd Gibbon, Roger Moore, Richard Winski. Spoken Language System Assessment (Handbook of Stnadards and Resources for Spoken Language Systems) HMouton de Gruyter, 1997.
- Har72. Harmon L.D. Automatic recognition of print and script. HProc. IEEE 60, (Oct.), p.p.l165−1176,1972.
- HHS91. Т. К. Ho and J. J. Hull and S. N. Srihari. Word Recognition with Multi-Level Contextual Knowledge. HProc. of the lstlnt’l Conference on Document Analysis and Recognition, October 1991, pp. 905−915.
- HPR1. Young-Sook Hwang, Bong-Rae Park, Hae-Chang Rim. A Contextual Postprocessing Model for Korean OCR using Synthesized Statistical Information
- HS82. Hull J. J., Srihari S. N. Experiments in text recognition with binary n-gram and Viterbi algorithms. //IEEE Trans. Patt. Anal. Machzne Intell. PAMI-4, 5 (Sept.), pp.520−530,1982
- Hul92. J. Hull, «A Hidden Markov Model for Language Syntax in Text Recognition,»
- HI 1th IAPR Int 7 Conf. Pattern Recognition, The Hague, The Netherlands, 1992, pp. 124−127.
- Hul96. Incorporating Language Syntax in Visual Text Recognition with a Statistical Model //IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, No. 12, 1996
- JDM02. Anil K. Jain and Robert P. W. Duin and Jianchang Mao. Statistical Pattern Recognition: A Review. //IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no. 1, pp. 4−37, 2002.
- Kem93. Kempe, A. (1993). A stochastic Tagger and an Analysis of Tagging Errors.
- HInternal paper. Institute for Computational Linguistics, University of Stuttgart.
- Kim99. Dong Kyue Kim. Efficient Algorithms for Approximate String Matching with Swaps HJ. Complexity Vol.15 pp. 128−147,1999
- KMC95. Andras Kornai, K.M. Mohiuddin, Scott D. Connell. An HMM-Based Legal Amount Field OCR System for Checks HIEEE International Conference on Systems, Man and Cybernetics, Vancouver ВС, October 1995, 2800−2805,1995
- KPB87. Kahan, S, Pavlidis, T, Baird. H. S. On the recognition of characters of any font size. //IEEE Trans Patt. Anal. Machine Intell. PAMI-93 9, 274−287,1987
- Kuk88. Kukich, K. Variations on a back-propagation name recognition net. //In Proceedings of the Advanced Technology Conference, vol 2
- Kuk92. Kukich K. Techniques for automatically Correcting Words in Text. IIACM computing survey Computational Linguistics, vol. 24, no. 4, pp. 377−439,1992
- S95. V.V. Lam, L. Javanbakht, and S. X. Srihari, «Anatomy of a form reader,» Proc. 2nd Int’l Conf. on Document Analysis and Recognition, pp. 287−292,1995
- G95. E. Lethelier, M. Leroux, and M. Gilloux, «An Automatic Reading System for
- Handwritten Numeral Amounts on French Checks,» UProc. Third Int 7 Conf. Document Analysis and Recognition, pp. 92−97,1995.
- Lowrance, R., Wagner, R. 1975. An extension of the strmg-to-strmg correction problem. HJ. ACM22, 2 (Apr.), 177−183.
- Mai97. Michael H. Mailburg. Comparative Evaluation of Techniques for Word Recognition Improvement by Incorporation of Syntactic Information. H4th International Conference Document Analysis and Recognition (ICDAR '97) August 1997, pp784.
- Mis99. Misyurev A.V., Hand-Printed Character Recognition by Neural Networks. UProc. of the 5th German-Russian Workshop on Pattern Recognition and Image Understanding (GRWS98), 1999.
- MM89. E. W. Myers and W. Miller. Approximate matching of regular expressions. HBulletin of Mathematical Biology, pages 7−37,1989.
- MNROO. Andrew K. McCallum and Kamal Nigam and Jason Rennie and Kristie Seymore Automating the Construction of Internet Portals with Machine Learning HJ. Information Retrieval vol.3 no.2pp. 127−163, 2000
- МР43. McCulloch, W. S. and Pitts, W. H. A logical calculus of the ideas immanent in nervous activity. //Bulletin of Mathematical Biophysics, 5:115−133,1943.
- MS99. C. D. Manning, H. Schutze. Foundations of Statistical Natural Language //Processing. MIT Press, 1999
- Mye95. E. W. Myers. Approximately Matching Context-Free Languages //Proceedings of the 2nd South American Workshop on String Processing pp. 38−52,1995
- NavOl. Gonzalo Navarro. A Guided Tour to Approximate String Matching. ПАСМ Computing Surveys, Volume 33, Issue 1, Pages: 31−88, 2001
- Neu75. D. Neuhoff. The viterbi algorithm as an aid in text recognition. I/IEEE Trans. Information Theory, 21:222−226,1975.
- Nik03. Nikolaev D.P. Segmentation-based binarization method for color document images. //Proceedings of 6th Open Russian-German Workshop on Pattern Recognition and Image Understanding, Novosibirsk 2003, pp. 190−193.
- NSG96. D. Niyogi, S.N. Srihari, and V. Govindaraju. Analysis of printed forms. HH. Bunke and P. S.P. Wang, editors, Handbook on Optical Character Recognition and Document Image Analysis. World Scientific Publishing Co., Singapore, 1996.
- Oku76. Okuda, Т., Tanaka, E., Kasai, T. A method of correction of garbled words based on the Levenshtein metric. I/IEEE Trans. Comput., 1976.
- Pos99. Postnikov V.V., Flexible forms identification. HProc. of the 5th German-Russian Workshop on Pattern Recognition and Image Understanding (GRWS98), 1999.
- PSM03. Postnikov V.V., Sholomov D.L., Marchenko A.E. FlexiDocs: The Template Driven Document Recognition Technology. //Proceedings of the 6th German-Russian Workshop on Pattern Recognition and Image Understanding (OGRW-6), 2003.
- PZ83. Pollock J. J., Zamora A. Collection and characterization of spelling errors in scientific and scholarly text. HJ. Amer. Sot. Inf. Sci. 34,1, 51−58,1983
- Rab89. L. R. Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. //Proceedings of the IEEE 77(2):257−286, February 1989.
- RenOl. J. Rennie Improving multi-class text classification with naive bayes. //Master's thesis, Massachusetts Institute of Technology, 2001
- RH74. E. Riseman and A. Hanson. A contextual postprocessing system for error correction using binary n-grams. I/IEEE Trans. Computer, 23:480−493,1974.
- RHW86. Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by back-propagating errors //Nature (London). N323. p. 533−536., 1986
- RJ86. L. Rabiner and B. Juang. An Introduction to Hidden Markov Models. IIIEEE ASSP Magazine, pages 4−16,1986.
- Ros58. Rosenblatt, F. The perceptron: A propabilistic model for information storage and organization in the brain. I I Psychological Review 65,1958
- SA93. Gerard Salton and James Allan. Selective Text Utilization and Text Traversal. //Hypertext'93 Proceedings, November 14−18,1993, Seattle, Washington, USA
- Sch78. J. Schuermann. A Multifont Word Recognition System for Postal Address Reading. UIEEE Transactions on Computers, C-27, 8, August 1978, 721−732. 9.
- Sch94. Helmut Schmid. Part-of-speech tagging with neural networks //Proceedings of the 15th conference on Computational linguistics Vol. 1 pp. 172−176,1994
- Seb99. Fabrizio Sebastiani Machine learning in automated text categorisation: a survey. //Pisa, IT, 1999
- Seg03. Ilya Segalovich. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. HMLMTA- 2003. Las Vegas, 2003
- Sho03a. Sholomov D.L. Syntactical Approach to Post-Processing of Fuzzy recognized Text. UProc. of The International Conference on Machine Learning, Technologies and Applications, CSREA Press, pp. 115−121. June 2003, USA
- Sho03b. Sholomov D.L., Interpreting the Indistinctly Recognized Textual Constructions. 11 Pattern Recognition and Image Analysis, 2003, vol. 13, no. 2, pp. 353−355.
- Sit61. Sitar E.J. Machine recognition of cursive script: The use of context for error detection and correction. I'/Bell Labs Tech. Mem, 1961.
- SK83. Sankoff, D., Kruskal, J. B. Time Warps, String Edits, and Macromolecules: The Theory and Practice of Sequence Comparison. HAddison-Wesley, Reading, Mass. 1983.
- SN98. M. SchuJ31er and H. Niemann. A HMM-based System for Recognition of Handwritten Adress Words. Uln 6th Int. Workshop on Frontiers in Handwriting Recognition (IWFHR), pages 505−514, Taejon, Korea, 1998.
- SRG04. Speech Recognition Grammar Specification Version 1.0 W3C Recommendation 16 March 2004 http://www.w3.org/rR/2004/REC-speech-grammar-20 040 316/
- Sri97. Sargur N. Srihari. Document image understanding. UProc. of1986fall joint computer conference on Fall joint computer conference, November 1997. pp. 87−96
- SS02. Sari, Т.- Sellami, M. MOrpho-LEXical analysis for correcting OCR-generated Arabic words (MOLEX) //Frontiers in Handwriting Recognition, 2002. Proceedings. Pp. 461−466
- SSR1. Sargur Srihari and Yong-Chul Shin and Vemulapati Ramanaprasad and Dar-Shyang Lee. A System to Read Names and Addresses on Tax Forms.
- St90. L. Stringa. «A New Set of Constraint-Free Character Recognition Grammars»
- EE Transactions on Pattern Analysis and Machine Intelligence. December 1990 (Vol. 12, No. 12) pp.: 1210−1217.
- TC96. Teahan. W. J. & Cleary, J.G. The entropy of English using PPM based models. UProc. Data Compression Conference. IEEE Society Press, 53- 62,1996.
- TIC98. Teahan, W.J., Inglis, S., Cleary, J.G. & Holmes, G. Correcting English text using PPM models //In Proceedings DCC'98, edited by Storer, J.A. & Cohn, M., IEEE Computer Society Press, 1998.
- TJ05. Huihsin Tseng, Daniel Jurafsky, Christopher Manning. Morphological features help POS tagging of unknown words across language varieties. //Fourth SIGHAN Workshop on Chinese Language Processing, 2005.
- Tou78. Toussaint, G. T. The use of context in pattern recognition I I Pattern Recognition 10, pp. 189−204,1978
- Tru99. A. Trujillo, Engines: Translation Engines: Techniques for Machine Translation l/Springer-Verlag, London, 1999.
- Ueb93. Joerg P. Ueberla. The Generalized NPOS Language Model for Speech Recognition, IICMPTTR 93−09,1993.
- Vit67. Andrew J. Viterbi. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. HIEEE Transactions on Information Theory 13(2):260~ 269, April 1967.
- Vou03. Atro Voutilainen (2003): «Part-of-speech tagging». Hln: Ruslan Mitkov, editor: «The Oxford Handbook of Computational Linguistics», pp. 219- 232. Oxford University Press.
- Wag74. Wagner, R. A. Order-n correction for regular languages. I I Community ACM 17, 5 (May), 265−268,1974.
- WCh76. Wong, С. K. Cnandra, A. K. Bounds for the string editing problem. HJ. ACM23,1 (Nov.), 13−16,1976.
- Web99. A. Webb, Statistical pattern recognition, HOxford University Press Inc., New York, 1999
- WF74. Wagner, R. A., Fisher, M.J. The string-to-string correction problem. HJ. ACM21, l (Jan.), 168−178,1974.
- WHD95. Lars WiedenhGfer Hans-Giinther Hein Andreas Dengel. Post-Processing of OCR Results for Automatic Indexing I/ICDAR Proceedings of the Third International Conference on Document Analysis and Recognition Vol. 2 p. 592,1995
- WHS92. P. K. Wong and Т. К. Ho and S. N. Srihari. Firm Name Recognition for Automatic Address Interpretation. UProc. of the 5th {USPS} Advanced Technology Conference, November 1992pp. pp. 757−770.
- XF03. XForms 1.0, W3C Recommendation 14 October 2003. http://www.w3.org/TR/2003/REC-xforms-20 031 014/
- АБМ05. Андреев A.M., Березкин Д. В., Морозов B.B., Симаков K.B. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа. НИнтелтек изд-во, 2005.
- АЕ02. Арлазаров В. Л., Емельянов Н. Е. Системы обработки документов. Основные компоненты. Направление информационными потоками" Сборник трудов Института системного анализа РАН/ М., УРСС. 2002 г.
- AKC00. Арлазаров В. JL, Куратов П. А., Славин О. А. Распознавание строк печатных текстов. «Методы и средства работы с документами». //Сборник трудов Института системного анализа РАН/М., УРСС. 2000 г.
- АПШ02. Арлазаров В. В, Постников В. В., Шоломов Д. Л. Cognitive Forms система массового ввода структурированных документов. ИВ сб. «Управление информационными потоками», Москва, Едиториал УРСС, 2002. стр. 35−46
- Арл02. Арлазаров В. В. Управление информационными потоками в системе автоматического ввода документов. I/"Управление информационными потоками", Сборник трудов Института системного анализа РАН./М., УРСС, 2002 г.
- АС96. Арлазаров B. JL, Славин О. А. Алгоритмы распознавания и технологии ввода текстов в ЭВМ. IIИнформационные технологии и вычислительные системы 1996, No 1., стр. 48−54.
- АУ78. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. ИМ.: Мир, 1978
- БЕОЗ. Богачева А. Е., Емельянов Н. Е. Семантическая Модель документа.
- ПСистемные исследования. Ежегодник/ М&bdquo- УРСС. 2003 г. с.:360−375.
- ГМ06. М. В. Губин А.Б. Морозов. Влияние морфологического анализа на качество информационного поиска IIТруды RCDL'2006, Суздаль 2006
- Еме88. Емельянов Н. Е. Виды представления структурированных данных.
- Теоретические основы информационной технологии. Сб. тр. Вып. 22. -М.-.ВНИИСИ, 1988
- Зал80. Зализняк А. А. Грамматический словарь русского языка. ИМосква, Русский язык, 1980
- Кар02. Ю. Г. Карпов. Методы построения трансляторов. 2002 г
- ККС02. Кляцкин В. М., Котович Н. В., Славин О. А. Многопроходная схема распознавания документов с обучением. //"Управление информационными потоками" Сборник трудов Института системного анализа РАН М., УРСС. 2002 г.
- Кну78. Д.Кнут. Искусство программирования для ЭВМ. Том 3. Сортировка и поиск. Перевод с англ. ИМ: Изд. «Мир», 1978.
- Кул87. Кулагина О. С. Об автоматическом синтаксическом анализе русских текстов. //Препринт ИПМ им. М. В. Келдыша, АН СССР, № 205,1987 г.
- Лев65а. Левенштейн В. И., Двоичные коды с исправлением выпадений, вставок и замещений символов, //Докл. АН СССР, 163, 4,1965, 845−848.
- Лев65Ь. В. И. Левенштейн, Двоичные коды с исправлением выпадений и вставок символа ,//Пробл. перед, информ., 1,1,1965,12−25.
- Мер05. Мерков А. Б. Основные методы, применяемые для распознавания рукописного текста. http://fornit2005 .narod.ru/papers/methods.ps
- МерОб. Мерков А.Б.О статистическом обучении. http://www.recognition.mccme.ru/pub/RecognitionLab.html/slt.pdf
- Пен04. Пентус А. Е., Пентус М. Р. Теория формальных языков: Учебное пособие. ИМ.: Изд-во ЦП И при механико-математическом ф-те МГУ, 2004
- ПМШ04. Постников В. В. Марченко А.Е. Шоломов Д. Л. Разбор структурированного документа в модели с нечеткой логикой ИСб. тр. ИСА РАН «Документооборот. Концепции и инструментарий.», Москва, Едиториал УРСС, 2004, стр. 71−82.
- Пос01. Постников В. В., Автоматическая идентификация и распознавание структурированных документов ПДисс. На соискание уч. степ. Канд. Технич. наук, Москва, 2001.
- Пос98. Постников В. В., Разработка методов наложения формы на графическое изображение документа. ИВ сб. «Интеллектуальные технологии ввода и обработки информации», Москва, 1998
- Пос99а. Постников В. В., Формальный подход к задаче идентификации графическихобразов структурированных документов, ИВ сб. «Развитие безбумажных технологий в организационных системах», Москва, 1999
- СКБ99. Славин О. А., Корольков Г. В., Болотин П. В. Методы распознавания грубых объектов. И В сб. «Развитие безбумажных технологий в организациях», 1999, с. 290−311
- Уос92. Ф. Уоссермен, «Нейрокомпьютерная техника.», ИМ.: Мир, 1992
- ФрОЗ. Дж. Фридл. Регулярные выражения. IIИздательство Питер, 2003 г., 464 стр.
- Хай05. Хайкин С. Нейронные сети, полный курс, //Изд. «Вильяме, 2005
- Хол1. А. Б. Холоденко. О построении статистических языковых моделей для систем распознавания русской речи //Журнал Интеллектуальные системы
- Чер98. Черноусько Ф. Л. Динамическое программирование ИСОЖ, 1998, No 2, с. 139 144.
- Шол02. Шоломов Д. Л. Интерпретация нечетко распознанных текстовых конструкций. И Сборник трудов 6-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии». Великий Новгород, 2002.
- Шол07а. Шоломов Д. Л. Коррекция распознанного текста с использованием методов классификации. И Сб. трудов ИСА РАН, 2007, Том 17, стр. 352−366
- Шол07Ь. Шоломов Д. Л. Постников В.В. Никольский Н. Н. Рынок систем обработки деловых документов. Перспективы и направления развития. И Сб. трудов ИСА РАН, 2007, Том 17, стр. 181−191.
- Шол04. Шоломов Д. Л. Синтаксический подход к пост-обработке нечетко распознанного текста. НСб. трудов ИСА РАН «Документооборот. Концепции и инструментарий. «, Москва, Едиториал УРСС, 2004, стр. 193−207