Обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей
Диссертация
Проведен ряд поисковых экспериментов с использованием сети Интернет с целью выявления степени доступности персонифицированной информации. На основе статистических характеристик атрибутов баз персональных данных, полученных в ходе поискового эксперимента (объем данных — более 16 млн. записей), выявлены закономерности, которым подчинены персональные данные. Полученные закономерности позволяют… Читать ещё >
Содержание
- ГЛАВА 1. АНАЛИЗ ПРОБЛЕМЫ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ПЕРСОНАЛЬНЫМ ДАННЫМ
- 1. 1. Влияние свойств данных на методы их обработки
- 1. 2. Описание категории «персональные данные». И
- 1. 3. Проблема идентификации по персональным данным
- 1. 3. 1. Анализ проблемы идентификации личности по персональным данным
- 1. 3. 2. Идентификация личности по персональным данным
- 1. 3. 3. Фактор связности данных
- 1. 4. Построение модели оценки характеристики доступности персональных данных
- 1. 4. 1. Реальное положение дел с доступностью персональных данных на рынке информационных услуг
- 1. 4. 2. Влияние природы данных на их доступность
- 1. 4. 3. Желание субъекта добровольно раскрывать информацию о себе
- 1. 4. 4. Результаты оценки доступности данных
- 1. 4. 5. Проведение поискового эксперимента по оценке доступности персональных данных
- 1. 5. Формирование общей схемы идентификации данных
- 1. 5. 1. Результаты оценки доступности данных
- 1. 5. 2. Анализ факторов, влияющих на информативность атрибутов
- 1. 5. 3. Влияние числа и распределение значений в атрибуте на его информативность
- 1. 5. 4. Влияние числа атрибутов и зависимости между ними на информативность
- 1. 6. Обобщение проблемы идентификации личности по персональным данным
- 1. 7. Выводы по первой главе
- ГЛАВА 2. ПОИСК ЗАКОНОМЕРНОСТЕЙ В БАЗАХ С ПЕРСОНИФИЦИРОВАННОЙ ИНФОРМАЦИЕЙ
- 2. 1. Поиск знаний в больших базах данных
- 2. 2. Предлагаемые усовершенствования метода SSA-Гусеница
- 2. 2. 1. Этап разложение данных в методе SSA
- 2. 2. 2. Этап восстановления ряда в модели SSA
- 2. 2. 3. Диагональное усреднение
- 2. 2. 4. Параметры и предлагаемые методы
- 2. 3. Возможная реализация метода SSA-Гусеница
- 2. 4. Нахождение скрытых закономерностей в базах с персональными данными
- 2. 5. Использования персонифицированной информации в качестве объекта поиска знаний методами Data Mining
- 2. 6. Выводы по второй главе
- ГЛАВА 3. ОБЕЗЛИЧИВАНИЕ ПЕРСОНАЛЬНЫХ ДАННЫХ
- 3. 1. Актуальность и классификация подходов обезличивания
- 3. 2. Атака на основе связей («join attack»)
- 3. Обезличивание методом сокращения идентифицирующей способности базы данных
- 3. 3. 1. Модель «А>анонимности»
- 3. 3. 2. ^-минимальное обезличивание
- 3. 3. 3. Оценка сложности модели-минимального обезличивания
- 3. Обезличивание методом сокращения идентифицирующей способности базы данных
- 3. 3. 4. Выводы по методу обезличивания путем сокращения идентифицирующей способности информации
- 3. 4. Обезличивание путем использования недоступных идентификаторов
- 3. 4. 1. Описание метода обезличивания
- 3. 4. 2. Варианты обеспечения безопасности «базы-справочника»
- 3. 5. Достоинства и недостатки существующих методов обезличивания
- 3. 6. Обезличивания с использованием неполных идентификаторов с возможностью восстановления
- 3. 6. 1. Формализация предлагаемого метода обезличивания
- 3. 6. 2. Алгоритм «обезличивания с восстановлением»
- 3. 6. 3. Тестирование предложенного метода обезличивания на базе реальной базе данных. Обсуждение результатов
- 3. 7. Обезличивания путем привязки к графу операционной системы
- 3. 8. Выводы по третьей главе
Список литературы
- A Globally Optimal k-Anonymity Method for the De-Identification of Health Data. / К. E. Emam et al. // Journal of the American Medical Informatics Association. -September/Octember 2009. Vol. 16, № 5. — P. 670−682.
- An Ad Omnia Approach to Defining and Achieving Private Data Analysis / C. Dwork // Microsoft Research: Springer-Verlag Berlin Heidelberg. 2008. — P. 1−13.
- An efficient hash-based algorithm for minimal k-anonymity / X. Sun, M. Li, H. Wang, A. Plank // CRPIT, Australia, 2008. Vol. 74. — P. 101−107.
- An Empirical Study of Operating System Errors. / A. Chou, J. Yang, B. Chelf, S. Hallem, D. Engler. Электронный ресурс. — URL: http://pdos.csail.mit.edU/6.097/readings/osbugs.pdf (дата обращения: 23.09.2011 г.).
- Anonymization-Based Attacks in Privacy-Preserving Data Publishing / R. C.-W. Wong, A. W.-C. Fu, K. Wang, J. Pei // ACM Transactions on Database Systems. June 2009. — Vol. 34, No. 2, Article 8. — P. 8:1 — 8:46, App-1 — App-12.
- Broomhead D., King G. Extracting qualitative dynamics from experimental data. // Physica D. 1986. — Vol. 20. — P. 217−236.
- Cadzow J. A. Signal Enhancement A Composite Property Mapping Algorithm // IEEE Transactions on Acoustics, Speech and Signal Processing. — 1988. — Vol. 36. — P. 49−62.
- Can We Make Operating Systems Reliable and Secure? / Andrew S. Tanenbaum, Jorrit N. Herder, Herbert Bos. Электронный ресурс. — URL: http://www.cs.vu.nl/~ast/reliable-os/ (дата обращения: 17.08.2011 г.).
- Ciriani V. k-Anonymity / V. Ciriani, S. De Capitani di Vimercati, S. Foresti, P. Samarati // Springer US, Advances in Information Security. 2007. — 36 p.
- Data Privacy Through Optimal k-Anonymization / R. J. Bayardo, R. Agrawal // ICDE 2005. 2005. — P. 217−228.
- Eisner J. В., Tsonis A. A. Singular Spectrum Analysis: A New Tool in Time Series Analysis. New York, London: Plenum Press, 1996. 164 p.
- Enhanced P-Sensitive K-Anonymity Models for Privacy Preserving Data Publishing / X. Sun, H. Wang, J. Li, T. M. Truta // Transactions on Data Privacy. 2008. № 1. — P. 53−66.
- Golyandina N. E., Nekrutkin Y. V., Zhigljavsky A. A. Analysis of Time Series Structure: SSA and Related Techniques. Boca Raton: Chapmap & Hall/CRC, 2001. 305 p.
- Incognito: Efficient Full-Domain K-Anonymity / К. LeFevre, D. J. DeWitt, R. Ramakrishnan // SIGMOD Conference, 2005. P. 49−60.
- Introduction to data mining and knowledge discovery. / Herbert A. Edelstein // Two Crows Corporation. 1999. — 40 p.
- Managing and mining graph data. / Charu C. Aggarwal, Haixun Wang. Boston/Dordrecht/London: Kluwer Academic Publishers. 2010 — 608 p.
- POkA: Identifying Pareto-Optimal k-Anonymous Nodes in a Domain Heirarchy Lattice / Rinku Dewri, Indrajit Ray, Indrakshi Ray, Darrell Whitley // CIKM, 2009. P. 1037−1046.
- Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression / P. Samarati, L. Sweeney // Tech Report, Computer Science Laboratory, SRI International, 1998. 19 p.
- Providing k-Anonimity in Data Mining / A. Friedman, R. Wolff, A. Schuster // The VLDB Journal, 2008. Vol. 17, № 4. — P. 789−804.
- Samarati P. Protecting Respondents' Identities in Microdata Release / IEEE transactions on knowledge and data engineering. November/December 2001. — Vol. 13, № 6.-P. 1010−1027.
- Simple software flow analusis using GNU cflow. / Chaos Golubitsky. -Электронный ресурс. URL: http://www.glassonion.org/ (дата обращения: 13.08.2011 г.).
- Sweeney L. k-anonymity: a model for protecting privacy. // International Journal on Uncertainty, Fuzziness and Knowledge-based Systems. 2002. — № 10(5). — P. 557−570.
- Vautard R., Yiou P., Chil M" Singular-spectrum analysis: A toolkit for short, noisy chaotic signals // Physica D. 1992. — Vol. 58. — P. 95−126.
- Александров Ф. И., Голяндина H. Э. Автоматизация выделения трендовых и периодических составляющих временного ряда в рамках метода «Гусеница"-88А. // Методы. Алгоритмы. Программы. 2004. — № 3−4 (7−8). — С. 54−61.
- Александров Ф. И. Разработка программного комплекса автоматического выделения и прогноза аддитивных компонент временных рядов в рамках метода «Гусеница»-SSА.: дис.. канд. физ.-мат. наук: 05.13.18. Санкт-Петербург, 2006. 152 с.
- Большаков, А.А. Методы обработки многомерных данных и временных рядов / Учебное пособие для вузов: А. А. Большаков, P.M. Каримов. М.: Горячая линия-Телеком, 2007. — 522с.
- Бонгард М. М. О понятии «полезная информация». // Проблемы кибернетики. / М., 1963. 187 с.
- Бонгард M. M. Проблема узнавания. Москва: Издательство «Наука», 1967. -320 с.
- Брейман А. Д. Математическое и программное обеспечение адаптивных систем персональных баз данных: автореф. дис.. док. тех. наук: 05.13.11. Москва, 2007. 34 с.
- Буй Д., Глушко И. Обобщенное исчисление на домене. / Markov К., Velychko V., Voloshin О. // Information Models of Knowledge. / Kiev Sofia: Ithea, 2010. — C. 392−397. — ISBN 978−954−16−0048−1.
- Бухштабер В. M. Многомерные развертки временных рядов. Теоретические основы и алгоритмы // Обозрение прикл. промышл. матем. Сер. Вероятн. и статист. -1997. Т. 4, вып. 4. — С. 629−645.
- Вельдер И. А. Система правовой защиты персональных данных в Европейском Союзе: дис.. канд. юр. наук: 12.00.10. Казань, 2006. 164 с.
- Гарфинкель С. Все под контролем: Кто и как следит за тобой. Екатеринбург: У-Фактория, 2004. 228 с.
- Главные компоненты временных рядов: метод «Гусеница» / Под ред. Д. JI. Данилова, А. А. Жиглявского. СПб.: Пресском, 1997. 308 с.
- Гмурман В. Е. Теория вероятностей и математическая статистика: учеб. пособие для вузов. 9-е изд., стер. М.: Высш. шк., 2003. 479 с.
- Голяндина Н. Э. Метод «Гусеница"-S SA: анализ временных рядов: учеб. пособие. СПб., 2004. 76 с.
- Голяндина Н. Э. Метод «Гусеница"-88А: прогноз временных рядов: учеб. пособие. СПб., 2004. 52 с.
- Груман Г. Информационный потенциал больших данных. // Технологический прогноз. Большие данные: как извлечь из них информацию: ежеквартальный журнал. Российское издание. 2010. — Вып. 3. — С. 15−24.
- Дементеева А. А. Защита персональных данных: метод, рек. для руководителей служб здравоохранения Краснодарского края Текст. / А. А.
- Дементеева, Е. В. Дерябин- под ред. JI. Н. Шмыгленко, В, Н. Зиманина. Краснодар: ГУЗ МИАЦ, 2010. — 88 с.
- Добыча данных в сверхбольших базах данных / В. Ганти, Й. Герке, Р. Рамакришнан // Открытые системы. 1999. — № 09−10. — С. 38−45.
- Дюк В. А. Поиск сложных непериодических шаблонов в последовательности чисел и символов методами локальной геометрии // Труды СПИИРАН. / СПб: СПИИРАН, 2002. Т.2, вып. 1. — С. 263−268.
- Заявление Пенсионного Фонда России, 11 мая 2011 года. Электронный ресурс.: Пенсионный Фонд Российской Федерации. — URL: http://www.pfrf.ru/presscenter/31 902.html (дата обращения: 13.08.2011 г.).
- Интернет-архив Waybackmachine. Электронный ресурс. — URL: http://www.archive.org/ (дата обращения: 13.09.2011 г.).
- ИСС «LARIX 2011 Версия Professional Лето 2011 года». — Электронный ресурс.: Сайт Московского центра экономической безопасности. — URL: http://www.businessinfo.ru/product2527.html (дата обращения: 20.09.2011 г.).
- Корогодин В. И., Корогодина В. Л. Информация как основа жизни. Дубна: Издательский центр «Феникс», 2000. 208 с.
- Криминалистика: издание второе, переработанное и дополненное. / Под ред. проф. И. Ф. Герасимова и проф. Я. Я. Драпкина. Москва: «Высшая школа», 2000. -672 е.- УДК 343.98 ББК 67.52 К 82.
- Кристофидес Н. Теория графов. Алгоритмический подход. / Перевод на русский // Москва: изд. «Мир», 1978. 432 с.
- Курош А. Г. Курс высшей алгебры. М.: Наука, 1968. 432с.
- Кучин И.Ю. Анализ и классификация проблем обработки персонифицированной информации в медицинских учреждениях // Астраханский медицинский журнал. 2011. — Т.6, № 4. — С. 119−123.
- Кучин И.Ю. Защита конфиденциальности персональных данных с помощью обезличивания // Вестник АГТУ. Серия «Управление, вычислительная техника и информатика». 2010. — № 2. — С. 158−162.
- Кучин И. Ю. Некоторые вопросы по защите персональных данных // Сб. статей международной научно-технической конференции «CIT conference». Пенза: Пензенская гос. тех. академия, 2010. -Вып.12. С. 126−130.
- Кучин И.Ю. Новации в проблематике обезличения персональных данных // Информационная безопасность регионов. 2011. — № 2(9). — С. 13−17.
- Кучин И.Ю. Обзор существующих методов анализа программного кода // Актуальные проблемы гуманитарных и естественных наук. Москва. 2012. -№ 02(37). — С. 94−98.
- Лав Р. Разработка ядра Linux: 2 издание. СПб.: Издательство «Вильяме», 2006. 448 с.
- Левкович-Маслюк Л. Великие раскопки и великие вызовы. // Компьютера.2007. -№ 11(679). С. 48−51.
- Матвеев Ю.Н., Гаганов П. Г., Азарова Л. В. Детектирование аномальных информативных признаков в стационарных технологических процессах // Программные продукты и системы. 2004. — № 1. — С. 38−41.
- Медико-криминалистическая идентификация. Настольная книга судебно-медицинского эксперта. / Под общ. ред. д.м.н., проф. В. В. Томилина. // М.: Издательская группа НОРМА-ИНФРА-М, 2000. 472 с.
- Модели оценки ценности информации. Электронный ресурс.: Википедия. Свободная энциклопедия. — URL: http://ru.wikipedia.org/wiki/ (дата обращения: 25.11.2011 г.).
- О чем врут пользователи социальных сетей. Пресс-выпуск № 1691. -Электронный ресурс.: ВЦИОМ: Всероссийский центр изучения общественного мнения. URL: http://wciom.ra/index.php?id=459&uid=l 11 364 (дата обращения: 25.08.2011 г.).
- Обезличивание персональных данных. Электронный ресурс. — URL: http://sbchel.ru/news/obezlichivanie-personalnykh-dannykh.html (дата обращения: 20.07.2011 г.).
- Обобщенные предложения органов государственной власти и заинтересованных организаций по гармонизации законодательства в сфере персональных данных. Электронный ресурс.: Портал персональных данных. -URL: http://pd.rsoc.ru/ (дата обращения: 10.12.2011 г.).
- Омаров В. О подходах по минимизации выполнения требований закона «О персональных данных». Электронный ресурс.: ИСПДн.ру. — URL: http://www.ispdn.ru/publications/omarov.pdf (дата обращения: 27.08.2011 г.).
- Островский А. М. О компьютерных технологиях поиска эмпирических закономерностей в базах данных. // Социология: 4M. 2008. — № 27. — С. 140−157.
- Официальный сайт разработчиков метода анализа и прогноза временных рядов «Гусеница». Электронный ресурс. — URL: http://www.gistatgroup.com/ (дата обращения: 1.12.2011г.).
- Официальный сайт пакета анализа данных и построения графиков Origin Lab. Электронный ресурс. — URL: http://www.originlab.ru/ (дата обращения: 17.07.2011 г.).
- Официальный сайт Российского хемометрического общества. Электронный ресурс. URL: http://rcs.chph.ras.ru/ (дата обращения: 27.12.2011 г.).
- Паспортом по лицу. Электронный ресурс.: Газета «Ведомости». Архив. -Доступ к статье имеют только подписчики электронной версии. URL: http://www.vedomosti.ru/newspaper/article/103 246/ (дата обращения: 28.06.2011 г.).
- Петрыкина Н.И. Правовое регулирование оборота персональных данных в России и странах ЕС (сравнительно-правовое исследование): дис.. канд. юр. наук: 12.00.14. Москва, 2007. 173 с.
- Подсчитано число пользователей Интернета в России в 2011 году. -Электронный ресурс.: Взгляд. Деловая газета. URL: http://vz.ru/news/201 l/12/27/550 090.html (дата обращения: 12.01.2012 г.).
- Портал статистики сайтов и ведения онлайн-дневников. Электронный ресурс. — URL: http://www.Hveinternet.ru/rating/ru/ (дата обращения 30.08.2011 г.).
- Постановление Правительства РФ от 15.09.08 г. № 687. Электронный ресурс. — URL: http://ispdn.ru/law/532/ (дата обращения: 4.06.2011г.).
- Приказ ФСТЭК России № 58 «Об утверждении положения о методах и способах защиты информации в информационных системах персональных данных». -Электронный ресурс. URL: http://www.fstec.ru/docs/doc781.htm (дата обращения: 4.06.2011г.).
- Приказ ФСТЭК, ФСБ, Мининформсвязи 13.02.08 г. № 55/86/20 «Порядок проведения классификации информационных систем персональных данных». -Электронный ресурс. URL: http://ispdn.ru/law/530/ (дата обращения: 4.06.2011г.).
- Просветова О.Б. Защита персональных данных: дис.. канд. юр. наук: 05.13.19. Воронеж, 2005. 193 с.
- Прохоров А. Ю. Политико-правовые технологии ограничения свободы слова в современных средствах массовой информации: на примере сети Интернет: дис. канд. юр. наук: 23.00.02. Ростов-на-Дону, 2007. 169 с.
- Рябко С.Д. Об обезличивании персональных данных. Электронный ресурс.: Журнал «Information Security / Информационная безопасность». 2009, № 5. -URL: http://www.itsec.ru/articles2/focus/ob-obezlichivanii-personaljnyh-dannyh (дата обращения: 13.11.2011 г.).
- Сайт Московского центра экономической безопасности. Электронный ресурс. — URL: http://www.mceb.ru (дата обращения: 14.10.2011 г.), http://www.businessinfo.ru (дата обращения: 14.10.2011 г.).
- Сайт статистики посещаемости Интернет-ресурсов компании Alexa Internet. Электронный ресурс. — URL: http://www.alexa.com/topsites/countries/RU (дата обращения 28.09.2011 г.).
- Самые популярные сайты у офисных сотрудников. Электронный ресурс.: РБК.Рейтинг. — URL: http://rating.rbc.ru/article.shtml72011/08/08/33 379 224 (дата обращения: 7.09.2011г.).
- Сеть профессиональных контактов «Яндекс. Мой круг». Электронный ресурс. — URL: http://moikrug.ru/ (дата обращения: 2.09.2011г.).
- Современные биометрические методы идентификации. Электронный ресурс. — URL: http://habrahabr.ru/blogs/infosecurity/126 144/ (дата обращения: 14.10.2011 г.).
- Социальная сеть «ВКонтакте». Электронный ресурс. — URL: http://vkontakte.ru/ (дата обращения: 5.09.2011г.).
- Спинеллис Д. Анализ программного кода на примере проектов Open Source. СПб.: Издательство «Вильяме», 2004. 528 с.
- Стратонович P.JI. Теория информации. М.: «Сов. радио», 1975 г. 424 с.
- Судебно-медицинская идентификация личности. Электронный ресурс.: Образовательный портал «N A-Crime». — URL: http://www.na-crime.narod.ru/medpersonality.html#q01 (дата обращения: 30.10.2011 г.).
- Таненбаум Э., Вудхалл А. Операционные системы. Разработка и реализация (+CD). Классика CS: 3 издание. СПб.: Издательство «Питер», 2007. 704 с.
- Федеральный закон РФ от 15.11.1997 г. № 143-Ф3 «Об актах гражданского состояния». Электронный ресурс.: Гарант. Информационно правовой портал. -URL: http://base.garant.ru/173 972/ (дата обращения: 10.06.2011 г.).
- Федеральный закон РФ от 27.07.2006 г. № 152-ФЗ «О персональных данных». Электронный ресурс.: Гарант. Информационно правовой портал. — URL: http://base.garant.ru/12 148 567/ (дата обращения: 14.08.2011 г.).
- Харкевич А. А. О ценности информации. // Проблемы кибернетики: сб. / М.: Физматгиз, 1960. С. 53−57.
- Чирков А. Г. Исследование причин долговременной нестабильности современных квантовых стандартов частоты с помощью программы «Гусеница"-88А. Санкт-Петербург: Издательство Политехнического университета, 2007. 40 с.
- Чубукова И. А. Курс «Data Mining». Электронный ресурс.: Электронная библиотека Кодгес. — URL: http://www.kodges.ru/10 257-kurs-lekcijj-intuit-po-data-mining.html (дата обращения: 28.08.2011).
- Эсбенсен К. Анализ многомерных данных: избранные главы. / Перевод с англ. С. В. Кучерявского, под ред. О. Е. Родионовой. Черноголовка: Издательство ИПХФ РАН, 2005. 160 с.
- Описание баз данных, характеристики которых исследуются в настоящей работе