ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² ΡƒΡ‡Ρ‘Π±Π΅, ΠΎΡ‡Π΅Π½ΡŒ быстро...
Π Π°Π±ΠΎΡ‚Π°Π΅ΠΌ вмСстС Π΄ΠΎ ΠΏΠΎΠ±Π΅Π΄Ρ‹

АвтоматичСская катСгоризация тСкстов

Π Π΅Ρ„Π΅Ρ€Π°Ρ‚ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² Π½Π°ΠΏΠΈΡΠ°Π½ΠΈΠΈΠ£Π·Π½Π°Ρ‚ΡŒ ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒΠΌΠΎΠ΅ΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹

Π¨Π°Π³ 5. ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° классификатора. Π’ Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ провСряСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ d5: «Π˜ΠΎΠΊΠΎΠ³Π°ΠΌΠ° — ΠΊΡ€Π°ΡΠΈΠ²Π΅ΠΉΡˆΠΈΠΉ ΠΏΠΎΡ€Ρ‚ Π―ΠΏΠΎΠ½ΠΈΠΈ Π½Π΅Π΄Π°Π»Π΅ΠΊΠΎ ΠΎΡ‚ Π’ΠΎΠΊΠΈΠΎ…» РасстояниС ΠΎΡ‚ Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Π΄ΠΎ ΠΊΠ»Π°ΡΡΠ° «ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ» (2,98) большС, Ρ‡Π΅ΠΌ расстояниС ΠΎΡ‚ Π½Π΅Π³ΠΎ ΠΆΠ΅ Π΄ΠΎ ΠΊΠ»Π°ΡΡΠ° «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ» (2,45). ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ классификатор ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ», Ρ‡Ρ‚ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ относится ΠΊ ΠΊΠ»Π°ΡΡΡƒ «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ». ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρ€Π΅Ρ‡ΡŒ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΈΠ΄Π΅Ρ‚… Π§ΠΈΡ‚Π°Ρ‚ΡŒ Π΅Ρ‰Ρ‘ >

АвтоматичСская катСгоризация тСкстов (Ρ€Π΅Ρ„Π΅Ρ€Π°Ρ‚, курсовая, Π΄ΠΈΠΏΠ»ΠΎΠΌ, ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ)

Π—Π°Π΄Π°Ρ‡Π° ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ (классификации) тСкстов Π½Π° Π΅ΡΡ‚СствСнном языкС Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠΈ исходного мноТСства тСкстов ΠΏΠΎ Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΠΌ Π·Π°Π΄Π°Π½Π½Ρ‹ΠΌ классам (катСгориям) Π½Π° ΠΎΡΠ½ΠΎΠ²Π°Π½ΠΈΠΈ ΠΈΡ… ΡΠΎΠ΄Π΅Ρ€ΠΆΠ°Π½ΠΈΡ (сСмантики). ЕстСствСнно-языковыС тСксты ΡΠ²Π»ΡΡŽΡ‚ΡΡ слоТными ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π°ΠΌΠΈ для классификации, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой нСструктурированныС массивы Π΄Π°Π½Π½Ρ‹Ρ…, Π½Π΅ΠΏΡ€ΠΈΠ³ΠΎΠ΄Π½Ρ‹Π΅ для прямого использования ΠΌΠ°ΡˆΠΈΠ½Π½Ρ‹ΠΌΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°ΠΌΠΈ. Как ΠΎΡ‚ΠΌΠ΅Ρ‡Π°Π»ΠΎΡΡŒ Π²Ρ‹ΡˆΠ΅, ΠΌΠ°ΡˆΠΈΠ½Π½Ρ‹Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ классификации Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ Π² ΠΏΡ€ΠΎΡΡ‚ранствС Ρ„ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½Ρ‹Ρ… ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², Ρ‚. Π΅. Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡŽΡ‚ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡŽ, ΠΎΡΠ½ΠΎΠ²Ρ‹Π²Π°ΡΡΡŒ Π½Π° ΡΡ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ….

Π­Ρ‚ΠΎ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠΈΠ°Π»ΡŒΠ½ΠΎ услоТняСт Π·Π°Π΄Π°Ρ‡Ρƒ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΏΠΎΡ€ΠΎΠΆΠ΄Π°Π΅Ρ‚ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ СстСствСнно-языковых тСкстов с Ρ†Π΅Π»ΡŒΡŽ получСния ΠΈΡ… ΡΡ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… прСдставлСний, опрСдСляСмых Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°ΠΌΠΈ классификации. Π—Π°Π΄Π°Ρ‡Π° классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π²Ρ‹Ρ…ΠΎΠ΄ΠΈΡ‚ Π΄Π°Π»Π΅ΠΊΠΎ Π·Π° Ρ€Π°ΠΌΠΊΠΈ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Ρ… классификационных Π·Π°Π΄Π°Ρ‡ ΠΈ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ Π·Π°Ρ‚Ρ€Π°Π³ΠΈΠ²Π°Π΅Ρ‚ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ СстСствСнного языка.

Π’ Π΄Π°Π½Π½ΠΎΠΌ ΠΏΠ°Ρ€Π°Π³Ρ€Π°Ρ„Π΅ ΠΌΡ‹ Π±ΡƒΠ΄Π΅ΠΌ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ Π·Π°Π΄Π°Ρ‡Ρƒ Π±ΠΈΠ½Π°Ρ€Π½ΠΎΠΉ классификации тСкстовых Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ слСдуСт Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΏΠΎ Π΄Π²ΡƒΠΌ классам. Π§Ρ‚ΠΎΠ±Ρ‹ Π½Π΅ ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡ΠΈΠ²Π°Ρ‚ΡŒ ΠΎΠ±Ρ‰Π½ΠΎΡΡ‚ΡŒ Π·Π°Π΄Π°Ρ‡ΠΈ, цСлСсообразно Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ распрСдСлСниС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΏΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ классам: класс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², относящихся ΠΊ Π·Π°Π΄Π°Π½Π½ΠΎΠΉ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области, ΠΈ ΠΊΠ»Π°ΡΡ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², Π½Π΅ ΠΎΡ‚носящихся ΠΊ ΡΡ‚ΠΎΠΉ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области.

Π’ Ρ‚Π°ΠΊΠΎΠΉ постановкС Π·Π°Π΄Π°Ρ‡Π° классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² относится Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΊ Π΄ΠΈΡΡ†ΠΈΠΏΠ»ΠΈΠ½Π΅ машинного обучСния (Machine Learning), Π½ΠΎ ΠΈ ΠΏΠ΅Ρ€Π΅ΡΠ΅ΠΊΠ°Π΅Ρ‚ся с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ Π½Π°ΡƒΡ‡Π½Ρ‹ΠΌΠΈ дисциплинами:

  • β€’ с ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΌ поиском (Information Retrieval) — Π² Ρ‡Π°ΡΡ‚ΠΈ опрСдСлСния соотвСтствия (рСлСвантности) тСкстов Π·Π°Π΄Π°Π½Π½ΠΎΠΉ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области (Ρ‚Π΅ΠΌΠ΅);
  • β€’ автоматичСской ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΎΠΉ тСкстов СстСствСнного языка (.Natural Language Processing) — Π² Ρ‡Π°ΡΡ‚ΠΈ прСобразования тСкстов Π² ΡΡ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ Π²ΠΈΠ΄ ΠΈ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ нСоднозначности СстСствСнного языка;
  • β€’ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΌ Π°Π½Π°Π»ΠΈΠ·ΠΎΠΌ Π΄Π°Π½Π½Ρ‹Ρ… (Data Mining and Text Mining) — Π² Ρ‡Π°ΡΡ‚ΠΈ извлСчСния Π·Π½Π°Π½ΠΈΠΉ ΠΎ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области ΠΈΠ· Ρ‚Скстов СстСствСнного языка.

ΠŸΡ€ΠΈΠ²Π΅Π΄Π΅ΠΌ Ρ„ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΡƒΡŽ постановку Π·Π°Π΄Π°Ρ‡ΠΈ.

Π”Π°Π½ΠΎ:

  • β€’ Π·Π°Π΄Π°Π½ΠΎ исходноС мноТСство Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² D, прСдставлСнных Π² Π²ΠΈΠ΄Π΅ тСкстов Π½Π° Π΅ΡΡ‚СствСнном языкС;
  • β€’ Π·Π°Π΄Π°Π½Ρ‹ прСдмСтная ΠΎΠ±Π»Π°ΡΡ‚ΡŒ ΠΈ Π΄Π²Π° класса Π‘ = {-1,1}, ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹. ΠœΠ΅Ρ‚ΠΊΠΎΠΉ 1 ΠΎΠ±ΠΎΠ·Π½Π°Ρ‡Π΅Π½ класс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², относящихся ΠΊ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области, ΠΌΠ΅Ρ‚ΠΊΠΎΠΉ -1 — класс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², Π½Π΅ ΠΎΡ‚носящихся ΠΊ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области;
  • β€’ Π·Π°Π΄Π°Π½Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° D* с Π” Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° d* Π΅ D* ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ извСстСн Π΅Π³ΠΎ класс с* с Π‘.

ВрСбуСтся:

  • β€’ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±ΡƒΠ΄Π΅Ρ‚ ΠΎΡΡƒΡ‰Π΅ΡΡ‚Π²Π»ΡΡ‚ΡŒΡΡ классификация Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², Ρ‚. Π΅. ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ пространство Rn> Π³Π΄Π΅ ΠΏ — это количСство ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ (классификационных ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²);
  • β€’ ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² исходного мноТСства D Π² ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ пространство Rn Ρ‚Π°ΠΊΠΎΠ΅, Ρ‡Ρ‚ΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρƒ d Π΅ D ставится Π² ΡΠΎΠΎΡ‚вСтствиС Π΅Π³ΠΎ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ описаниС Π² Π²ΠΈΠ΄Π΅ ΠΈ-ΠΌΠ΅Ρ€Π½ΠΎΠ³ΠΎ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° x = (/1,…,//?)gXсД Ρ‚. Π΅. ΠΏΠΎΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒ мноТСство ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹Ρ… описаний Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² X с R
  • β€’ Π½Π°ΠΉΡ‚ΠΈ нСизвСстноС ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Ρ„:Π₯—>Π‘ мноТСства ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹Ρ… описаний Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² X Π²ΠΎ ΠΌΠ½ΠΎΠΆΠ΅ΡΡ‚Π²ΠΎ классов Π‘, Ссли значСния отобраТСния извСстны Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ. ΠŸΡ€ΠΎΠΈΠ»Π»ΡŽΡΡ‚Ρ€ΠΈΡ€ΡƒΠ΅ΠΌ Π·Π°Π΄Π°Ρ‡Ρƒ (рис. 9.15).
Π—Π°Π΄Π°Ρ‡Π° классификации тСкстовых Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Рис. 9.15. Π—Π°Π΄Π°Ρ‡Π° классификации тСкстовых Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²

Как слСдуСт ΠΈΠ· ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ΠΈ, процСсс классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² содСрТит большС этапов, Ρ‡Π΅ΠΌ ΠΎΠ±Ρ‰ΠΈΠΉ процСсс классификации. Π­Ρ‚ΠΎ связано с Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹, ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π½Ρ‹Π΅ для классификации, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ ΠΈ ΠΎΡ‚ΠΎΠ±Ρ€Π°Π·ΠΈΡ‚ΡŒ Π² ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ пространство. БоотвСтствСнно, всСго Π² ΠΏΡ€ΠΎΡ†Π΅ΡΡΠ΅ классификации ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ ΠΏΡΡ‚ΡŒ этапов (рис. 9.16):

  • 1) этап ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;
  • 2) этап построСния ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ³ΠΎ пространства;
  • 3) этап построСния ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹Ρ… описаний Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²;
  • 4) этап построСния, ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ классификатора;
  • 5) этан классификации основных Π΄Π°Π½Π½Ρ‹Ρ….

Рассмотрим пошагово процСсс классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ состоит ΠΈΠ· ΠΏΡΡ‚ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (Ρ‚Π°Π±Π». 9.9), Ρ‚Ρ€ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ относятся ΠΊ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области «ΠšΠΈΡ‚Π°ΠΉ» ΠΈ ΠΎΠ΄ΠΈΠ½ — Π½Π΅ ΠΎΡ‚носится ΠΊ ΡΡ‚ΠΎΠΉ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области. ВрСбуСтся ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ пятый Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚, Ρ‚. Π΅. ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ, относится Π»ΠΈ ΠΎΠ½ ΠΊ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области «ΠšΠΈΡ‚Π°ΠΉ».

ΠŸΡ€ΠΎΡ†Π΅ΡΡ классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Рис. 9.16. ΠŸΡ€ΠΎΡ†Π΅ΡΡ классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Π˜ΡΡ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ классификации Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Π’Π°Π±Π»ΠΈΡ†Π° 9.9

Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚.

ВСкст (содСрТаниС) Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°.

Класс.

(1Π›

ПСкин являСтся ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅Ρ… Π΄Ρ€Π΅Π²Π½ΠΈΡ… китайских столиц. Π‘ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΌΡƒ китайскому ΠΏΡ€ΠΎΠΈΠ·Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ соотвСтствуСт Π½Π°Π·Π²Π°Π½ΠΈΠ΅ Π‘Π΅ΠΉΡ†Π·ΠΈΠ½.

«ΠŸΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

(1).

d2

Π¨Π°Π½Ρ…Π°ΠΉ считаСтся Π³Π»Π°Π²Π½Ρ‹ΠΌ экономичСским Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΌ ΠšΠΈΡ‚Π°ΠΉΡΠΊΠΎΠΉ Народной РСспублики. ИмСнно Π¨Π°Π½Ρ…Π°ΠΉ, Π° Π½Π΅ ΠŸΠ΅ΠΊΠΈΠ½ являСтся ΠΊΡ€ΡƒΠΏΠ½Π΅ΠΉΡˆΠΈΠΌ китайским Π³ΠΎΡ€ΠΎΠ΄ΠΎΠΌ ΠΈ ΠΏΠΎΡ€Ρ‚ΠΎΠΌ.

«ΠŸΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

ΠΎ).

dΠ·.

ΠΠ°Ρ…ΠΎΠ΄ΡΡΡŒ ΠΏΠΎΠ΄ китайской ΡŽΡ€ΠΈΡΠ΄ΠΈΠΊΡ†ΠΈΠ΅ΠΉ, Макао являСтся Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠΈΠ΅ΠΉ ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ ΡΠΎΠ±ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ ΠΏΡ€Π°Π²ΠΎΠ²ΡƒΡŽ, Π΄Π΅Π½Π΅ΠΆΠ½ΡƒΡŽ, Ρ‚Π°ΠΌΠΎΠΆΠ΅Π½Π½ΡƒΡŽ ΠΈ ΡΠΌΠΈΠ³Ρ€Π°Ρ†ΠΈΠΎΠ½Π½ΡƒΡŽ систСмы.

«ΠŸΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

(1).

dA

ΠŸΡ€Π°Π²ΠΈΡ‚Π΅Π»ΡŒΡΡ‚Π²ΠΎ Π―ΠΏΠΎΠ½ΠΈΠΈ осудило заявлСния китайских Π΄ΠΈΠΏΠ»ΠΎΠΌΠ°Ρ‚ΠΎΠ², ΠΎΠ±Π²ΠΈΠ½ΠΈΠ²ΡˆΠΈΡ… Π’ΠΎΠΊΠΈΠΎ Π² ΠΊΡ€Π°ΠΆΠ΅ китайских Ρ‚Π΅Ρ€Ρ€ΠΈΡ‚ΠΎΡ€ΠΈΠΉ. ΠšΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚, Ρ‚Π»Π΅ΡŽΡ‰ΠΈΠΉ ΠΌΠ½ΠΎΠ³ΠΎ Π»Π΅Ρ‚, разгорСлся, ΠΊΠΎΠ³Π΄Π° власти Π―ΠΏΠΎΠ½ΠΈΠΈ ΠΊΡƒΠΏΠΈΠ»ΠΈ Ρ‚Ρ€ΠΈ острова Ρƒ Ρ‡Π°ΡΡ‚Π½Ρ‹Ρ… Π²Π»Π°Π΄Π΅Π»ΡŒΡ†Π΅Π².

«ΠΠ΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

(-D.

d5

Π™ΠΎΠΊΠΎΠ³Π°ΠΌΠ° — ΠΊΡ€Π°ΡΠΈΠ²Π΅ΠΉΡˆΠΈΠΉ ΠΏΠΎΡ€Ρ‚ Π―ΠΏΠΎΠ½ΠΈΠΈ Π½Π΅Π΄Π°Π»Π΅ΠΊΠΎ ΠΎΡ‚ Π’ΠΎΠΊΠΈΠΎ. Π’ Π™ΠΎΠΊΠΎΠ³Π°ΠΌΠ΅ находится самый большой Π² ΠΌΠΈΡ€Π΅ китайский ΠΊΠ²Π°Ρ€Ρ‚Π°Π», ΠΏΠ° ΡƒΠ·ΠΊΠΈΡ… ΠΈ ΠΊΡ€Π°ΡΠΎΡ‡Π½Ρ‹Ρ… ΡƒΠ»ΠΎΡ‡ΠΊΠ°Ρ… ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ сосрСдоточСно мноТСство рСсторанов китайской ΠΊΡƒΡ…Π½ΠΈ ΠΈ ΠΌΠ°Π³Π°Π·ΠΈΠ½ΠΎΠ², Ρ‚ΠΎΡ€Π³ΡƒΡŽΡ‰ΠΈΡ… китайскими Ρ‚ΠΎΠ²Π°Ρ€Π°ΠΌΠΈ.

НСизвСстСн.

(?).

Для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π΄Π°Π½Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ Π±ΡƒΠ΄Π΅Ρ‚ использована вСкторная модСль прСдставлСния тСкста. Π’ ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° классификации Π±ΡƒΠ΄Π΅Ρ‚ использован мСтричСский ΠΌΠ΅Ρ‚ΠΎΠ΄ Π ΠΎΠΊΠΊΠΈΠΎ. Π’ ΡΠ²ΡΠ·ΠΈ с ΠΌΠ°Π»Ρ‹ΠΌ объСмом исходных Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π°Ρ Π²Ρ‹Π±ΠΎΡ€ΠΊΠ° Π½Π΅ Π±ΡƒΠ΄Π΅Ρ‚ Π΄Π΅Π»ΠΈΡ‚ΡŒΡΡ Π½Π° Π΄Π²Π΅ части, поэтому ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° ΠΈ ΠΎΡ†Π΅Π½ΠΊΠ° качСства классификатора Π±ΡƒΠ΄ΡƒΡ‚ ΠΏΡ€ΠΎΠ²Π΅Π΄Π΅Π½Ρ‹ Π½Π° ΠΎΡΠ½ΠΎΠ²Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ этапы Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Ρ‹ Π² Ρ‚Π°Π±Π». 9.10.

Π­Ρ‚Π°Π½Ρ‹ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ΠΈ.

Π’Π°Π±Π»ΠΈΡ†Π° 9.10

ΠšΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ этап.

ПояснСниС.

Бпособ построСния ΠΌΠΎΠ΄Π΅Π»ΠΈ прСдставлСния тСкста.

ВСкторная модСль (VCM).

Бпособ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

ВокСнизация (Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ тСкстов Π½Π° ΡΠ»ΠΎΠ²Π°) +.

+ лСмматизация (ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ слов ΠΊ ΡΠ»ΠΎΠ²Π°Ρ€Π½Ρ‹ΠΌ Ρ„ΠΎΡ€ΠΌΠ°ΠΌ).

ΠžΠΊΠΎΠ½Ρ‡Π°Π½ΠΈΠ΅ Ρ‚Π°Π±Π». 9.10

ΠšΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ этап.

ПояснСниС.

Бпособ построСния ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ³ΠΎ пространства.

Π’Ρ‹Π±ΠΎΡ€ Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² (ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… слов) гСографичСских Π½Π°Π·Π²Π°Π½ΠΈΠΉ (ΠΈ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½Ρ‹Ρ… ΠΎΡ‚ Π½ΠΈΡ…), Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‰ΠΈΡ…ΡΡ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ… исходного мноТСства.

Бпособ построСния ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹Ρ… описаний Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

ИспользованиС Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ вСсов ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² частот Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… слов Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹.

Бпособ построСния классификатора.

ΠœΠ΅Ρ‚Ρ€ΠΈΡ‡Π΅ΡΠΊΠΈΠΉ способ ΠΏΠ° ΠΎΡΠ½ΠΎΠ²Π΅ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ° Π ΠΎΠΊΠΊΠΈΠΎ.

Бпособ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ классификатора.

Π ΡƒΡ‡Π½ΠΎΠΉ.

Бпособ ΠΎΡ†Π΅Π½ΠΊΠΈ качСства классификатора.

Π ΡƒΡ‡Π½ΠΎΠΉ.

Π¨Π°Π³ 1. ΠŸΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². Как ΠΎΡ‚ΠΌΠ΅Ρ‡Π°Π»ΠΎΡΡŒ Π²Ρ‹ΡˆΠ΅, тСксты Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΏΠ° Π΄Π°Π½Π½ΠΎΠΌ этапС Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π½Π° ΡΠ»ΠΎΠ²Π°, Π° ΡΠ»ΠΎΠ²Π° приводятся ΠΊ Π»Π΅ΠΌΠΌΠ°ΠΌ — словарным Ρ„ΠΎΡ€ΠΌΠ°ΠΌ. Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΈΠ· Ρ‚Скстов ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ Π±Ρ‹Π»ΠΎ Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΎ 106 слов, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‚ 82 Π»Π΅ΠΌΠΌΡ‹. Из Π½ΠΈΡ… 11 Π»Π΅ΠΌΠΌ Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‚ΡΡ Π² Ρ‚Скстах Π±ΠΎΠ»Π΅Π΅ ΠΎΠ΄Π½ΠΎΠ³ΠΎ Ρ€Π°Π·Π° (Ρ‚Π°Π±Π». 9.11).

Π’Π°Π±Π»ΠΈΡ†Π° 9.11

Π’ΠΎΠΏ самых частотных Π»Π΅ΠΌΠΌ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ.

β„–.

Π›Π΅ΠΌΠΌΠ°.

Частота.

китайский.

ΠΈ.

Япония.

Π².

ΡΠ²Π»ΡΡ‚ΡŒΡΡ.

ПСкин.

Π’ΠΎΠΊΠΈΠΎ.

ΠΏΠΎΡ€Ρ‚.

Π™ΠΎΠΊΠΎΠ³Π°ΠΌΠ°.

Π¨Π°Π½Ρ…Π°ΠΉ.

Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒΡΡ.

Π¨Π°Π³ 2. Π’Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². Из ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… 82 Π»Π΅ΠΌΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΎΡ‚ΠΎΠ±Ρ€Π°Ρ‚ΡŒ слова для формирования ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ³ΠΎ пространства, Ρ‚. Π΅. ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ слова, ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‰ΠΈΠ΅ высокими классификационными свойствами. ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ исходная коллСкция являСтся Π½Π΅ ΡΠ»ΠΈΡˆΠΊΠΎΠΌ большой, ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ слова ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ‚ΠΎΠ±Ρ€Π°Ρ‚ΡŒ Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ. Π’ Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… слов Π±Ρ‹Π»ΠΈ Π²Ρ‹Π±Ρ€Π°Π½Ρ‹ гСографичСскиС названия, Π²ΡΡ‚Ρ€Π΅Ρ‡Π°ΡŽΡ‰ΠΈΠ΅ΡΡ Π² Ρ‚Скстах, Π° Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄Π½Ρ‹Π΅ ΠΎΡ‚ Π½ΠΈΡ… (Ρ‚Π°Π±Π». 9.12).

Π’Π°Π±Π»ΠΈΡ†Π° 9.12

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ (ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ слова)

β„–.

Π›Π΅ΠΌΠΌΠ°.

Частота.

китайский.

Япония.

ПСкин.

Π’ΠΎΠΊΠΈΠΎ.

Π™ΠΎΠΊΠΎΠ³Π°ΠΌΠ°.

Π¨Π°Π½Ρ…Π°ΠΉ.

Π‘Π΅ΠΉΡ†Π·ΠΈΠ½.

Макао.

Π¨Π°Π³ 3. ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹Ρ… описаний Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ пространство, ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ΅ Π½Π° ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΌ шагС, состоит ΠΈΠ· Π²ΠΎΡΡŒΠΌΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². БоотвСтствСнно, ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹Π΅ описания Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² — это 8-ΠΌΠ΅Ρ€Π½Ρ‹Π΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹, ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Ρ‹ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ вСса ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ². Π’ Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ вСсов ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ частоты ΠΈΡ… Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹ (Ρ‚Π°Π±Π». 9.13).

Π¨Π°Π³ 4. ΠŸΠΎΡΡ‚Ρ€ΠΎΠ΅Π½ΠΈΠ΅ классификатора. Π’ Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ для классификации ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²ΠΈΡ‚Π΅Π»ΡŒ класса мСтричСских Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² — ΠΌΠ΅Ρ‚ΠΎΠ΄ Π ΠΎΠΊΠΊΠΈΠΎ. Как ΠΎΡ‚ΠΌΠ΅Ρ‡Π°Π»ΠΎΡΡŒ Π²Ρ‹ΡˆΠ΅, мСтричСскиС Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ основаны Π½Π° ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠΈ, Ρ‡Ρ‚ΠΎ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ ΠΎΠ΄Π½ΠΎΠ³ΠΎ класса Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ случаСв Ρ€Π°ΡΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ΡΡ ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΠΎ, Ρ‚. Π΅. Π²Π±Π»ΠΈΠ·ΠΈ Π΄Ρ€ΡƒΠ³ Π΄Ρ€ΡƒΠ³Π°. Π’ ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ Π ΠΎΠΊΠΊΠΈΠΎ Π±Π»ΠΈΠ·ΠΎΡΡ‚ΡŒ опрСдСляСтся ΠΊΠ°ΠΊ Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²ΠΎ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠΌ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΈ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ΠΎΠΌ класса.

Π€ΠΎΡ€ΠΌΡƒΠ»Π° Π΅Π²ΠΊΠ»ΠΈΠ΄ΠΎΠ²Π° расстояния ΠΌΠ΅ΠΆΠ΄Ρƒ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ a = (at,…, a") ΠΈ b = (bu…, bn):

АвтоматичСская катСгоризация тСкстов.

Под Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ΠΎΠΌ класса понимаСтся Π²Π΅ΠΊΡ‚ΠΎΡ€, ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Ρ‹ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΡΠ²Π»ΡΡŽΡ‚ΡΡ срСдними арифмСтичСскими ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²Ρ‹Π΅ описания Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

Π’Π°Π±Π»ΠΈΡ†Π° 9.13

Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚.

ВСкст Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°.

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ описаниС Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, Π²Π΅ΠΊΡ‚ΠΎΡ€

китайский.

Япония.

ПСкин.

Π’ΠΎΠΊΠΈΠΎ.

Π™ΠΎΠΊΠΎΠ³Π°ΠΌΠ°.

Π¨Π°Π½Ρ…Π°ΠΉ.

Π‘Π΅ΠΉΡ†Π·ΠΈΠ½.

Макао.

d

ПСкин являСтся ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅Ρ… Π΄Ρ€Π΅Π²Π½ΠΈΡ… китайских столпи. Π‘ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΌΡƒ китайскому ΠΏΡ€ΠΎΠΈΠ·Π½ΠΎΡ‚Π΅Π½ΠΈΡŽ соотвСтствуСт Π½Π°Π·Π²Π°Π½ΠΈΠ΅ Π‘Π΅ΠΉΡ†Π·ΠΈΠ½.

d2

Π¨Π°Π½Ρ…Π°ΠΉ считаСтся Π³Π»Π°Π²Π½Ρ‹ΠΌ экономичСским ΠΈΠ΅Π½Ρ‚Ρ€ΠΎΠΌ ΠšΠΈΡ‚Π°ΠΉΡΠΊΠΎΠΉ Народной РСспублики. ИмСнно Π¨Π°Π½Ρ…Π°ΠΉ, Π° Π½Π΅ ΠŸΠ΅ΠΊΠΈΠ½ являСтся ΠΊΡ€ΡƒΠΏΠ½Π΅ΠΉΡˆΠΈΠΌ китайским Π³ΠΎΡ€ΠΎΠ΄ΠΎΠΌ ΠΈ ΠΏΠΎΡ€Ρ‚ΠΎΠΌ.

ΠΠ°Ρ…ΠΎΠ΄ΡΡΡŒ ΠΏΠΎΠ΄ китайской ΡŽΡ€ΠΈΡΠ΄ΠΈΠΊΡ†ΠΈΠ΅ΠΉ. Макао являСтся Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠΈΠ΅ΠΉ ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ ΡΠΎΠ±ΡΡ‚Π²Π΅Π½Π½ΡƒΡŽ ΠΏΡ€Π°Π²ΠΎΠ²ΡƒΡŽ, Π΄Π΅Π½Π΅ΠΆΠ½ΡƒΡŽ, Ρ‚Π°ΠΌΠΎΠΆΠ΅Π½Π½ΡƒΡŽ ΠΈ ΡΠΌΠΈΠ³Ρ€Π°Ρ†ΠΈΠΎΠ½Π½ΡƒΡŽ систСмы.

d

ΠŸΡ€Π°Π²ΠΈΡ‚Π΅Π»ΡŒΡΡ‚Π²ΠΎ Π―ΠΏΠΎΠ½ΠΈΠΈ осудило заявлСния китайских Π΄ΠΈΠΏΠ»ΠΎΠΌΠ°Ρ‚ΠΎΠ², ΠΎΠ±Π²ΠΈΠ½ΠΈΠ²ΡˆΠΈΡ… Π’ΠΎΠΊΠΈΠΎ Π² ΠΊΡ€Π°ΠΆΠ΅ китайских Ρ‚Π΅Ρ€Ρ€ΠΈΡ‚ΠΎΡ€ΠΈΠΉ. ΠšΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚, Ρ‚Π»Π΅ΡŽΡˆΠΈΠΉ ΠΌΠ½ΠΎΠ³ΠΎ Π»Π΅Ρ‚. разгорСлся, ΠΊΠΎΠ³Π΄Π° власти Π―ΠΏΠΎΠ½ΠΈΠΈ ΠΊΡƒΠΏΠΈΠ»ΠΈ Ρ‚Ρ€ΠΈ острова Ρƒ Ρ‡Π°ΡΡ‚Π½Ρ‹Ρ… Π²Π»Π°Π΄Π΅Π»ΡŒΡ†Π΅Π².

d5.

Иокогама — ΠΊΡ€Π°ΡΠΈΠ²Π΅ΠΉΡˆΠΈΠΉ ΠΏΠΎΡ€Ρ‚ Π―ΠΏΠΎΠ½ΠΈΠΈ Π½Π΅Π΄Π°Π»Π΅ΠΊΠΎ ΠΎΡ‚ Π’ΠΎΠΊΠΈΠΎ. Π’ Π˜ΠΎΠΊΠΎΠ³Π°ΠΌΠ΅ находится самый большой Π² ΠΌΠΈΡ€Π΅ китайский ΠΊΠ²Π°Ρ€Ρ‚Π°Π», Π½Π° ΡƒΠ·ΠΊΠΈΡ… ΠΈ ΠΊΡ€Π°ΡΠΎΡ‡Π½Ρ‹Ρ… ΡƒΠ»ΠΎΡ‡ΠΊΠ°Ρ… ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ сосрСдоточСно мноТСство рСсторанов китайской ΠΊΡƒΡ…Π½ΠΈ ΠΈ ΠΌΠ°Π³Π°Π·ΠΈΠ½ΠΎΠ², Ρ‚ΠΎΡ€Π³ΡƒΡŽΡ‰ΠΈΡ… ΠΊ ΠΈΡ‚Π° ΠΉ с ΠΊ ΠΈ ΠΌ ΠΈ Ρ‚ΠΎ Π²Π°Ρ€Π°ΠΌ ΠΈ.

ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰ΠΈΡ… Π΄Π°Π½Π½Ρ‹ΠΉ класс. ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½Ρ‹ΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ считаСтся ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ‰ΠΈΠΌ Ρ‚ΠΎΠΌΡƒ классу, ΠΊ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Ρƒ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ Π±Π»ΠΈΠΆΠ΅ Π΅Π³ΠΎ Π²Π΅ΠΊΡ‚ΠΎΡ€.

Π’ Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ Ρ‚Ρ€ΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ (d{, d2, d3) ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‚ класс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² «ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ», ΠΎΠ΄ΠΈΠ½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ d4 ΠΎΠ±Ρ€Π°Π·ΡƒΠ΅Ρ‚ класс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ». Π’ Ρ‚Π°Π±Π». 9.14 ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Ρ‹ значСния Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ΠΎΠ² ΠΎΠ±ΠΎΠΈΡ… классов ΠΈ Ρ€Π°ΡΡΡ‚ояниС ΠΎΡ‚ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° d5 Π΄ΠΎ ΡΡ‚ΠΈΡ… Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ΠΎΠ².

Π’Π°Π±Π»ΠΈΡ†Π° 9.14

Π¦Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Ρ‹ классов.

Класс.

Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚/ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ.

ΠŸΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ²ΠΎΠ΅ описаниС (Π²Π΅ΠΊΡ‚ΠΎΡ€).

Класс докумснтов «ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

Ρ…, =(2,0,1,0,0,0,1,0).

d2

Ρ…2 = (2,0,1,0,0,2,0,0).

d.

Ρ…3= (1,0,0,0,0,0,0,1).

Π¦Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ класса.

Ρ€, = (1.67,0,0.67,0,0,0.67,0.33,0.33).

Класс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

d4

Ρ…4 =(2,2,0,1,0,0,0,0).

Π¦Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄ класса.

Ρ€_, =(2,2,0,1,0,0,0,0).

НСизвСсти Ρ‹ΠΉ ΠΊΠ»Π°ΡΡ.

d->

*5 = (3,1,0,1,2,0,0,0).

РасстояниС Π΄ΠΎ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π° класса «ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

Ρ€ (Ρ…5, Ρ€,) = 2,98.

РасстояниС Π΄ΠΎ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π° класса «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

Ρ€ (Π»Π³5,|Ρ…_1) = 2,45.

Как Π²ΠΈΠ΄Π½ΠΎ ΠΈΠ· Ρ‚Π°Π±Π». 9.14, Π²Π΅ΠΊΡ‚ΠΎΡ€ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° d5 Π±Π»ΠΈΠΆΠ΅ ΠΊ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Ρƒ класса «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ», ΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ, Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ d'5 ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ‚ классу «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

Π¨Π°Π³ 5. ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΊΠ° классификатора. Π’ Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ провСряСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ d5: «Π˜ΠΎΠΊΠΎΠ³Π°ΠΌΠ° — ΠΊΡ€Π°ΡΠΈΠ²Π΅ΠΉΡˆΠΈΠΉ ΠΏΠΎΡ€Ρ‚ Π―ΠΏΠΎΠ½ΠΈΠΈ Π½Π΅Π΄Π°Π»Π΅ΠΊΠΎ ΠΎΡ‚ Π’ΠΎΠΊΠΈΠΎ…» РасстояниС ΠΎΡ‚ Π΄Π°Π½Π½ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Π΄ΠΎ ΠΊΠ»Π°ΡΡΠ° «ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ» (2,98) большС, Ρ‡Π΅ΠΌ расстояниС ΠΎΡ‚ Π½Π΅Π³ΠΎ ΠΆΠ΅ Π΄ΠΎ ΠΊΠ»Π°ΡΡΠ° «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ» (2,45). ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ классификатор ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΠ», Ρ‡Ρ‚ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ относится ΠΊ ΠΊΠ»Π°ΡΡΡƒ «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ». ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρ€Π΅Ρ‡ΡŒ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ Π΄Π΅ΠΉΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΈΠ΄Π΅Ρ‚ ΠΎ ΡΠΏΠΎΠ½ΡΠΊΠΎΠΌ, Π° Π½Π΅ ΠΎ ΠΊΠΈΡ‚айском Π³ΠΎΡ€ΠΎΠ΄Π΅, Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ классификатор ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ отнСс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΊ ΠΊΠ»Π°ΡΡΡƒ «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ».

Π¨Π°Π³ 6. ΠžΡ†Π΅Π½ΠΊΠ° точности классификатора. ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ класс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° установлСн ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎ, Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ классификатора составляСт 100%. Однако Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΈ ΠΈΠ½Π°Ρ‡Π΅: хотя Ρ€Π΅Ρ‡ΡŒ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π΅ ΠΈΠ΄Π΅Ρ‚ ΠΎ Π―ΠΏΠΎΠ½ΠΈΠΈ, Π° Π½Π΅ ΠΎ ΠšΠΈΡ‚Π°Π΅, Π½ΠΎ Π² Π½Π΅ΠΌ содСрТится информация ΠΎ ΠΊΠΈΡ‚айском ΠΊΠ²Π°Ρ€Ρ‚Π°Π»Π΅, Π·Π½Π°Ρ‡ΠΈΡ‚, ΠΌΠΎΠΆΠ½ΠΎ ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ этот Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ Π² ΠΊΠ°ΠΊΠΎΠΉ-Ρ‚ΠΎ стСпСни относится ΠΈ ΠΊ ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области «ΠšΠΈΡ‚Π°ΠΉ». Π­Ρ‚ΠΎΡ‚ Ρ„Π°ΠΊΡ‚ подтвСрТдаСтся ΠΈ Π·Π½Π°Ρ‡Π΅Π½ΠΈΡΠΌΠΈ близости: расстояниС ΠΎΡ‚ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π° Π΄ΠΎ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π° класса «Π½Π΅ ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ» лишь Π½Π΅ΠΌΠ½ΠΎΠ³ΠΎ мСньшС, Ρ‡Π΅ΠΌ Π΄ΠΎ Ρ†Π΅Π½Ρ‚Ρ€ΠΎΠΈΠ΄Π° класса «ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ». Π—Π΄Π΅ΡΡŒ скорСС ΠΌΠΎΠΆΠ½ΠΎ вСсти Ρ€Π΅Ρ‡ΡŒ Π½Π΅ ΠΎ Ρ‡Π΅Ρ‚ΠΊΠΎΠΉ классификации, Π° ΠΎ Ρ€Π°Π½ΠΆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² — упорядочСнии ΠΏΠΎ ΡΡ‚Π΅ΠΏΠ΅Π½ΠΈ ΠΈΡ… ΠΏΡ€ΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡ‚ΠΈ классам.

Π£ΠΊΠ°Π·Π°Π½Π½Ρ‹Π΅ шаги ΠΏΠΎ ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ΄Π΅Π»Π°Ρ‚ΡŒ ΠΈ Π² Π°Π²Ρ‚оматичСском Ρ€Π΅ΠΆΠΈΠΌΠ΅, с ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΠΏΠ°ΠΊΠ΅Ρ‚Π° R. Волько ΠΌΡ‹ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠΈΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€, построСнный для английской ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ тСкстов. ΠžΡ‚ΠΊΡ€ΠΎΠΉΡ‚Π΅ Π² R скрипт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ тСкстов ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚Π΅ Π΅Π³ΠΎ Π²ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π΄ΠΎ ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹, Π³Π΄Π΅ формируСтся нСполная ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹», состоящая Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΈΠ· Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²-Π³Π΅ΠΎΠ½ΠΈΠΌΠΎΠ².

Π’Π΅ΠΏΠ΅Ρ€ΡŒ установитС ΠΈ ΠΏΠΎΠ΄ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅ ΠΏΠ°ΠΊΠ΅Ρ‚ RTextTools. Π—Π°Ρ‚Π΅ΠΌ ΠΏΡ€ΠΎΠ΄ΡƒΠ±Π»ΠΈΡ€ΡƒΠΉΡ‚Π΅ ΠΊΠΎΠ΄, ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Π½Π½Ρ‹ΠΉ Π½ΠΈΠΆΠ΅.

ClassLabels =с (1, 1,1,2,2,2).

container <- create_container (dtm, ClassLabels, trainSize=1:5, testSize=6:6, virgin=FALSE).

models <- train_models (container, algorithms = c («SVM»)).

results <- classify_models (container, models) analytics <- create_analytics (container, results) analytics@algorithm_summary analytics@document_summary.

Π‘Π½Π°Ρ‡Π°Π»Π° ΠΌΡ‹ Π·Π°Π΄Π°Π΅ΠΌ ΠΌΠ΅Ρ‚ΠΊΠΈ классов для Π½Π°ΡˆΠΈΡ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ². ΠŸΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΡˆΠ΅ΡΡ‚ΠΎΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ тСстовый, Ρ‚ΠΎ ΠΌΠ΅Ρ‚ΠΊΡƒ ΠΌΠΎΠΆΠ½ΠΎ Π·Π°Π΄Π°Ρ‚ΡŒ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΡƒΡŽ. ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€, Π° Π² Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ ΠΌΡ‹ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌ ΠΌΠ°ΡˆΠΈΠ½Ρƒ ΠΎΠΏΠΎΡ€Π½Ρ‹Ρ… Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² SVM, сам ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ ΠΌΠ΅Ρ‚ΠΊΡƒ этого Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°. Π—Π°Ρ‚Π΅ΠΌ ΠΌΡ‹ ΡƒΠΊΠ°Π·Ρ‹Π²Π°Π΅ΠΌ Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ ΠΊΠΎΠ½Ρ‚Π΅ΠΉΠ½Π΅Ρ€ для классификации, ΠΊΡƒΠ΄Π° ΠΏΠΎΠΌΠ΅Ρ‰Π°Π΅ΠΌ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡŽ Π² Π²ΠΈΠ΄Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, ΠΌΠ΅Ρ‚ΠΊΠΈ классов, Ρ€Π°Π·ΠΌΠ΅Ρ€ ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ, Ρ€Π°Π·ΠΌΠ΅Ρ€ тСстовой ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ. Π”Π°Π»Π΅Π΅ описываСм модСль, Ρ‚. Π΅. наш ΠΊΠΎΠ½Ρ‚Π΅ΠΉΠ½Π΅Ρ€ ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ. Π”Π°Π»Π΅Π΅ запускаСм ΠΊΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡŽ. ПослСдниС Ρ‚Ρ€ΠΈ строчки выводят Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹.

Π Π°ΡΡˆΠΈΡ„Ρ€ΡƒΠ΅ΠΌ Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ значСния Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ². SVM_LABEL = 2 ΠΎΠ·Π½Π°Ρ‡Π°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ поставил ΠΌΠ΅Ρ‚ΠΊΡƒ класса для ΡˆΠ΅ΡΡ‚ΠΎΠ³ΠΎ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°, Ρ€Π°Π²Π½ΡƒΡŽ 2, Ρ‚. Π΅. отнСс Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ ΠΊ ΠΊΠ»Π°ΡΡΡƒ Япония. Π’Π΅Ρ€ΠΎΡΡ‚Π½ΠΎΡΡ‚ΡŒ классификации Ρ€Π°Π²Π½Π° SVM_PROB = 0.716 847 9, ручная ΠΌΠ΅Ρ‚ΠΊΠ°, проставлСнная Π½Π°ΠΌΠΈ, Ρ‚ΠΎΠΆΠ΅ Ρ€Π°Π²Π½Π° 2, ΠΎ Ρ‡Π΅ΠΌ ΡΠ²ΠΈΠ΄Π΅Ρ‚Π΅Π»ΡŒΡΡ‚Π²ΡƒΠ΅Ρ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ MANUAL_CODE = 2.

Π‘ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½ΠΎ ΠΎ ΡΠΏΠΎΡΠΎΠ±Π°Ρ… классификации ΠΌΠΎΠΆΠ½ΠΎ ΡƒΠ·Π½Π°Ρ‚ΡŒ ΠΈΠ· Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… источников1.

ΠŸΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ вСсь тСкст
Π—Π°ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Ρ„ΠΎΡ€ΠΌΡƒ Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ