ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² ΡƒΡ‡Ρ‘Π±Π΅, ΠΎΡ‡Π΅Π½ΡŒ быстро...
Π Π°Π±ΠΎΡ‚Π°Π΅ΠΌ вмСстС Π΄ΠΎ ΠΏΠΎΠ±Π΅Π΄Ρ‹

Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ·

Π Π΅Ρ„Π΅Ρ€Π°Ρ‚ΠŸΠΎΠΌΠΎΡ‰ΡŒ Π² Π½Π°ΠΏΠΈΡΠ°Π½ΠΈΠΈΠ£Π·Π½Π°Ρ‚ΡŒ ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒΠΌΠΎΠ΅ΠΉ Ρ€Π°Π±ΠΎΡ‚Ρ‹

БингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅, прСдставлСнноС равСнством (9.2), называСтся экономным, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π² ΡΠ»ΡƒΡ‡Π°Π΅, ΠΊΠΎΠ³Π΄Π° ΠΊ Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ мСньшС, Ρ‡Π΅ΠΌ Ρ‚ ΠΈ ΠΏ, ΠΎΠ½ΠΎ позволяСт произвСсти сущСствСнноС сТатиС исходной ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ. Π‘ΠΆΠ°Ρ‚ΠΈΠ΅ понимаСтся Π² Ρ‚ΠΎΠΌ смыслС, Ρ‡Ρ‚ΠΎ Ρ‡Π°ΡΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Π΅ΠΌΠΎΠΉ исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ, тСряСтся, Π° ΡΠΎΡ…раняСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ самая ваТная (доминантная) информация. ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ сТатия исходной ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ… Π§ΠΈΡ‚Π°Ρ‚ΡŒ Π΅Ρ‰Ρ‘ >

Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ· (Ρ€Π΅Ρ„Π΅Ρ€Π°Ρ‚, курсовая, Π΄ΠΈΠΏΠ»ΠΎΠΌ, ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒΠ½Π°Ρ)

Π•Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ класс ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ Π½Π° Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ прСдставлСний тСкстов с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π»Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹Ρ… (скрытых) Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ. Π€ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ Ρ‚Π°ΠΊΠΈΡ… прСдставлСний осущСствляСтся ΠΏΡƒΡ‚Π΅ΠΌ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹»1.

НаиболСС популярным ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ являСтся сингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅, ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‰Π΅Π΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΡƒΡŽ Ρ‡ΠΈΡΠ»ΠΎΠ²ΡƒΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ А размСрности Ρ‚? ΠΏ (Ρ‚ > ΠΏ) Π² Π²ΠΈΠ΄Π΅ произвСдСния Ρ‚Ρ€Π΅Ρ… ΠΌΠ°Ρ‚Ρ€ΠΈΡ†[1][2] (рис. 9.2):

Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ·.

Π³Π΄Π΅ U ΠΈ V — ΠΎΡ€Ρ‚ΠΎΠ³ΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ размСрностСй Ρ‚? ΠΏ ΠΈ ΠΏ β€’ ΠΏ соотвСтствСнно (столбцы этих ΠΌΠ°Ρ‚Ρ€ΠΈΡ† Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ Π»Π΅Π²Ρ‹ΠΌΠΈ ΠΈ ΠΏΡ€Π°Π²Ρ‹ΠΌΠΈ сингулярными Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ), 5 — диагональная ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° размСрности Ρ‚? ΠΏ (Π΅Π΅ Π΄ΠΈΠ°Π³ΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ элСмСнты Π½Π°Π·Ρ‹Π²Π°ΡŽΡ‚ сингулярными числами).

БингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹.

Рис. 9.2. БингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ»ΡŒΠ½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹.

Богласно Ρ‚Π΅ΠΎΡ€Π΅ΠΌΠ΅ Π­ΠΊΠΊΠ°Ρ€Ρ‚Π° — Π―Π½Π³Π°, сингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ позволяСт ΡΠ½ΠΈΠ·ΠΈΡ‚ΡŒ ΡˆΡƒΠΌ ΠΈ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΡΡ‚ΡŒ исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, замСняя Π΅Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ Ρ‚ΠΎΠΉ ΠΆΠ΅ размСрности, Π½ΠΎ ΠΌΠ΅Π½ΡŒΡˆΠ΅Π³ΠΎ Ρ€Π°Π½Π³Π°, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ сохранСна Ρ‚ΠΎΠ»ΡŒΠΊΠΎ самая значимая информация[3]. Π‘ΠΎΠ»Π΅Π΅ Ρ„ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ эта Ρ‚Π΅ΠΎΡ€Π΅ΠΌΠ° Π·Π²ΡƒΡ‡ΠΈΡ‚ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ.

ΠŸΡƒΡΡ‚ΡŒ Π΄Π°Π½Π° ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° А размСрности Ρ‚? ΠΏ, для ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ извСстно сингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ А = IJSVΠ’ ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ трСбуСтся Π°ΠΏΠΏΡ€ΠΎΠΊΡΠΈΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ Ак с Π·Π°Π΄Π°Π½Π½Ρ‹ΠΌ Ρ€Π°Π½Π³ΠΎΠΌ k Если Π² ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ S ΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ k Π½Π°ΠΈΠ±ΠΎΠ»ΡŒΡˆΠΈΡ… сингулярных Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Π° ΠΎΡΡ‚Π°Π»ΡŒΠ½Ρ‹Π΅ Π·Π°ΠΌΠ΅Π½ΠΈΡ‚ΡŒ нулями, Ρ‚ΠΎ Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅.

Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ·.

даст Π½Π°ΠΈΠ»ΡƒΡ‡ΡˆΠ΅Π΅ ΠΏΡ€ΠΈΠ±Π»ΠΈΠΆΠ΅Π½ΠΈΠ΅ исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ А Ρ€Π°Π½Π³Π° k Π² ΡΠΌΡ‹ΡΠ»Π΅ Π½ΠΎΡ€ΠΌΡ‹ ЀробСниуса.

Если ΠΏΡ€ΠΈ этом элСмСнты ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ 5 отсортированы ΠΏΠΎ ΡƒΠ±Ρ‹Π²Π°Π½ΠΈΡŽ Sj > s2 > sn > 0, Ρ‚ΠΎ Ρ„ΠΎΡ€ΠΌΡƒΠ»Π° (9.1) ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ записана Π² Π΄Ρ€ΡƒΠ³ΠΎΠΉ Ρ„ΠΎΡ€ΠΌΠ΅:

Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ·.

Π³Π΄Π΅ Uk ΠΈ Vk — это ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π²Ρ‹Π΄Π΅Π»Π΅Π½ΠΈΠ΅ΠΌ ΠΏΠ΅Ρ€Π²Ρ‹Ρ… ΠΊ столбцов ΠΈΠ· ΠΌΠ°Ρ‚Ρ€ΠΈΡ† U ΠΈ V соотвСтствСнно (рис. 9.3).

Экономная Ρ„ΠΎΡ€ΠΌΠ° сингулярного разлоТСния.

Рис. 9.3. Экономная Ρ„ΠΎΡ€ΠΌΠ° сингулярного разлоТСния.

Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Π² Π»Π°Ρ‚Π΅Π½Ρ‚Π½ΠΎΠΉ сСмантичСской ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ тСкст ΠΈ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ ΠΌΠΎΠ³ΡƒΡ‚ Π±Ρ‹Ρ‚ΡŒ прСдставлСны ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€ΠΎΠ² Π² Ρ€Π΅Π΄ΡƒΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΌ пространствС размСрности ΠΊ — пространствС Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ (рис. 9.4).

Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ·.

Рис. 9.4. Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ·.

БингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅, прСдставлСнноС равСнством (9.2), называСтся экономным, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Π² ΡΠ»ΡƒΡ‡Π°Π΅, ΠΊΠΎΠ³Π΄Π° ΠΊ Π½Π°ΠΌΠ½ΠΎΠ³ΠΎ мСньшС, Ρ‡Π΅ΠΌ Ρ‚ ΠΈ ΠΏ, ΠΎΠ½ΠΎ позволяСт произвСсти сущСствСнноС сТатиС исходной ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ. Π‘ΠΆΠ°Ρ‚ΠΈΠ΅ понимаСтся Π² Ρ‚ΠΎΠΌ смыслС, Ρ‡Ρ‚ΠΎ Ρ‡Π°ΡΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Π΅ΠΌΠΎΠΉ исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ, тСряСтся, Π° ΡΠΎΡ…раняСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ самая ваТная (доминантная) информация. ΠšΠΎΡΡ„Ρ„ΠΈΡ†ΠΈΠ΅Π½Ρ‚ сТатия исходной ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π½Π΅Ρ‚Ρ€ΡƒΠ΄Π½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ исходя ΠΈΠ· ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… сообраТСний. Для хранСния исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ трСбуСтся Ρ‚ β€’ ΠΏ чисСл, Π° Π΄Π»Ρ сТатой ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ m-k + k-k + + k β€’ ΠΏ чисСл. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, коэффициСнт сТатия Ρ€Π°Π²Π΅Π½:

Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ·.

ΠŸΠΎΡ‚Π΅Ρ€Ρ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ происходит Π·Π° ΡΡ‡Π΅Ρ‚ прСнСбрСТСния ΠΌΠ°Π»Ρ‹ΠΌΠΈ сингулярными числами, поэтому Ρ‡Π΅ΠΌ большС сингулярных чисСл ΠΎΡ‚Π±Ρ€ΠΎΡˆΠ΅Π½ΠΎ, Ρ‚. Π΅. Ρ‡Π΅ΠΌ мСньшС ΠΊ, Ρ‚Π΅ΠΌ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Π΅ΠΉ эта потСря. Π”Ρ€ΡƒΠ³ΠΈΠΌΠΈ словами, потСря ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Ρ‚Π΅ΠΌ Π²Ρ‹ΡˆΠ΅, Ρ‡Π΅ΠΌ Π½ΠΈΠΆΠ΅ Ρ€Π°Π½Π³ Π°ΠΏΠΏΡ€ΠΎΠΊΡΠΈΠΌΠΈΡ€ΡƒΡŽΡ‰Π΅ΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹. ΠŸΡ€ΠΈ этом Π² ΠΏΠ΅Ρ€Π²ΡƒΡŽ ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ происходит потСря нСсущСствСнных Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Π·Π° ΡΡ‡Π΅Ρ‚ Ρ‡Π΅Π³ΠΎ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π΄ΠΎΠΌΠΈΠ½Π°Π½Ρ‚Π½Ρ‹Π΅ значСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹.

Π‘ ΠΏΡ€Π°Π³ΠΌΠ°Ρ‚ичСской Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния Π΄Π°Π½Π½Ρ‹ΠΉ Π²Ρ‹Π²ΠΎΠ΄ ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΠ»Π΅Π·Π΅Π½. Π’ Ρ‡Π°ΡΡ‚ности, Ссли исходная ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° содСрТит большоС количСство «ΡΠ»Π°Π±Ρ‹Ρ…» Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ, Ρ‚ΠΎ ΠΏΠΎΡ‚Сря ΠΈΠ»ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠ΅ этих Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ скорСС ΠΏΠΎΠΉΠ΄ΡƒΡ‚ Π²ΠΎ Π±Π»Π°Π³ΠΎ, Ρ‡Π΅ΠΌ Π²ΠΎ Π²Ρ€Π΅Π΄, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ Ρ‚Π°ΠΊΠΈΠΌ способом Π±ΡƒΠ΄Π΅Ρ‚ ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΎ ΠΎΡ‡ΠΈΡ‰Π΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΎΡ‚ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡˆΡƒΠΌΠ°. ИмСнно эта идСя ΠΈ ΡΡ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Π»Π° ΠΈΠ΄Π΅ΠΉΠ½Ρ‹ΠΉ базис ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π»Π°Ρ‚Π΅Π½Ρ‚Π½ΠΎΠ³ΠΎ сСмантичСского Π°Π½Π°Π»ΠΈΠ·Π° {latent semantic analysis — LCA), ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π½ΠΎΠ³ΠΎ для выявлСния скрытых (Π³Π»ΡƒΠ±ΠΈΠ½Π½Ρ‹Ρ…) сСмантичСских связСй, ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΡ… Π² ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ тСкстов[4] [36].

ΠžΡ‡ΠΈΡ‰Π΅Π½Π½Π°Ρ ΠΎΡ‚ ΡˆΡƒΠΌΠ° с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ LCA ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° «Π΄ΠΎΠΊΡƒΠΌΡΠ½Ρ‚Ρ‹Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹», Π° Ρ‚Π°ΠΊΠΆΠ΅ Π²ΡΠΏΠΎΠΌΠΎΠ³Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹Π½Π°-Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ» ΠΈ «Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒΡΡ для опрСдСлСния сСмантичСских связСй ΠΌΠ΅ΠΆΠ΄Ρƒ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°ΠΌΠΈ ΠΈ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ. ВсСго сущСствуСт Ρ‚Ρ€ΠΈ основных примСнСния Π»Π°Ρ‚Π΅Π½Ρ‚Π½ΠΎΠ³ΠΎ сСмантичСского Π°Π½Π°Π»ΠΈΠ·Π°. Π­Ρ‚ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ связи (близости) ΠΌΠ΅ΠΆΠ΄Ρƒ Π»ΡŽΠ±Ρ‹ΠΌΠΈ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ, ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ связи (близости) ΠΌΠ΅ΠΆΠ΄Ρƒ Π»ΡŽΠ±Ρ‹ΠΌΠΈ тСкстами ΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ связи (близости) ΠΌΠ΅ΠΆΠ΄Ρƒ Π»ΡŽΠ±Ρ‹ΠΌ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠΌ ΠΈ Π»ΡŽΠ±Ρ‹ΠΌ тСкстом.

ПокаТСм, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΠΊΠ°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΡƒΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» для опрСдСлСния сСмантичСских связСй ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ. ΠšΠ°ΠΆΠ΄Ρ‹ΠΉ Ρ‚Π΅Ρ€ΠΌΠΈΠ½ Π² ΡΡ‚ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ прСдставляСт собой Π²Π΅ΠΊΡ‚ΠΎΡ€-столбСц, Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΡΠ΅ΠΌΠ°Π½Ρ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ связь ΠΌΠ΅ΠΆΠ΄Ρƒ Π»ΡŽΠ±Ρ‹ΠΌΠΈ двумя Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΡΠΌΠ°Ρ‚Ρ€ΠΈΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ Π±Π»ΠΈΠ·ΠΎΡΡ‚ΡŒ ΠΈΠ»ΠΈ расстояниС ΠΌΠ΅ΠΆΠ΄Ρƒ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€Π°ΠΌΠΈ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΏΡ€ΠΈ этом Π»ΡŽΠ±Ρ‹Π΅ извСстныС ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ Π²Π΅ΠΊΡ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ пространства. НапримСр, ΠΊΠΎΡΠΈΠ½ΡƒΡΠ½ΡƒΡŽ ΠΌΠ΅Ρ€Ρƒ:

Π›Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ сСмантичСский Π°Π½Π°Π»ΠΈΠ·.

Π³Π΄Π΅ 7j, Tj — это Π²Π΅ΠΊΡ‚ΠΎΡ€-столбцы ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹», ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ i-ΠΌΡƒ ΠΈ j-ΠΌΡƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌ соотвСтствСнно (/ ΠΈ j ΠΏΡ€ΠΎΠ±Π΅Π³Π°ΡŽΡ‚ вСсь список Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²), — это Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ близости, элСмСнт ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ сСмантичСских связСй (рис. 9.5).

ΠŸΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ ΠΎΡ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ Β«Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹Β» ΠΊ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ сСмантичСских связСй Β«Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹Β».

Рис. 9.5. ΠŸΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ ΠΎΡ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» ΠΊ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ сСмантичСских связСй «Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹».

ΠžΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ косинуса Π² ΠΏΠ΅Ρ€Π²ΠΎΠΌ ΠΊΠ²Π°Π΄Ρ€Π°Π½Ρ‚Π΅ Π΄Π΅ΠΊΠ°Ρ€Ρ‚ΠΎΠ²Ρ‹Ρ… ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚ позволяСт ΡƒΡ‚Π²Π΅Ρ€ΠΆΠ΄Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ максимально Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ близости ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ Ρ€Π°Π²Π½ΠΎ 1, Π° ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΠ΅ — 0.

Π”Ρ€ΡƒΠ³ΠΈΠΌ способом Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ (разлоТСния) исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» являСтся Π½Π΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ матричная факторизация {nonnegative matrix factorization — NMF)[5]. Π’ ΡΡ‚ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ вмСсто сингулярного разлоТСния ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ Π² ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΈΠ΅ Π΄Π²ΡƒΡ… Π½Π΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠ°Ρ‚Ρ€ΠΈΡ†: «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ» ΠΈ «Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» (рис. 9.6).

ΠΠ΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ матричная факторизация.

Рис. 9.6. ΠΠ΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Π°Ρ матричная факторизация.

ΠΠ΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ‡Π½ΠΎΠ΅ Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ являСтся Π±ΠΎΠ»Π΅Π΅ слоТной ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€ΠΎΠΉ, Ρ‡Π΅ΠΌ сингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅. Однако эта ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ оправдываСтся Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΡΠ²Π»ΡΡŽΡ‚ΡΡ поэлСмСнтно Π½Π΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ, Π° ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΠ½ΠΈ Π²Ρ‹Ρ€Π°ΠΆΠ°ΡŽΡ‚ вСса (вСса Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ Π² Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ… ΠΈ Π²Π΅ΡΠ° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² Π² Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ°Ρ…), Ρ‚ΠΎ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠ΅ Π½Π΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ являСтся Π±ΠΎΠ»Π΅Π΅ Ρ‡Π΅ΠΌ цСлСсообразным. Одним ΠΈΠ· ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Ρ… слСдствий Π½Π΅ΠΎΡ‚Ρ€ΠΈΡ†Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ‡Π½ΠΎΠΉ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ·Π°Ρ†ΠΈΠΈ являСтся Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ автоматичСского извлСчСния ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… слов, ΠΎΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‰ΠΈΡ… ΠΊΠ°ΠΆΠ΄ΡƒΡŽ ΠΈΠ· Π²Ρ‹ΡΠ²Π»Π΅Π½Π½Ρ‹Ρ… скрытых Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ. Π‘ ΡΡ‚ΠΎΠΉ Ρ†Π΅Π»ΡŒΡŽ Π² ΠΊΠ°ΠΆΠ΄ΠΎΠΉ строкС ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΈ-Π½Π°Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ /(/<οΏ½") Π½Π°ΠΈΠ±ΠΎΠ»ΡŒΡˆΠΈΡ… вСсов ΠΈ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ этим вСсам столбцы (Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹). Π­Ρ‚ΠΎ ΠΈ Π±ΡƒΠ΄ΡƒΡ‚ ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊ, выявлСнных Π²Π½ΡƒΡ‚Ρ€ΠΈ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ.

Π Π°Π±ΠΎΡ‚Ρƒ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° сТатия ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ сингулярного разлоТСния ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ тСкстовой ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹. ΠŸΡƒΡΡ‚ΡŒ имССтся растровоС ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ ΠΈ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π°Ρ этому ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π°, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ пиксСлям изобраТСния ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½ΠΈΡ†Ρ‹, Π° ΠΏΠΈΠΊΡΠ΅Π»ΡΠΌ Ρ„ΠΎΠ½Π° — Π½ΡƒΠ»ΠΈ (рис. 9.7).

ЗапуститС R. Π‘ΠΎΠ·Π΄Π°ΠΉΡ‚Π΅ Π½ΠΎΠ²Ρ‹ΠΉ скрипт. УстановитС ΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹ Isa ΠΈ igraph с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρ‹ install. packages (с («Isa», «igraph»)) ΠΈ ΠΏΠΎΠ΄ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅ ΠΈΡ…. Π‘ΠΎΠ·Π΄Π°ΠΉΡ‚Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ Π±ΡƒΠΊΠ²Ρ‹ Π•. Π’Ρ‹Π²Π΅Π΄ΠΈΡ‚Π΅ Π΅Π΅ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π½Π° ΡΠΊΡ€Π°Π½.

library (Isa).

library (igraph) С <- matrix (с.

  • (1, 1, 1, 1, 1, 1, 1,
  • 1, О, О, 1, О, О, 1,
  • 1, О, О, 1, О, О, 1,
  • 1, О, О, 1, О, О, 1,
  • 1, О, О, О, О, О, 1), 7, 5)

image (t (Π΅), axes = FALSE, col = grey (seq (1, 0, length = 256))).

Puc. 9.7. РастровоС ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π±ΡƒΠΊΠ²Ρ‹ E ΠΈ сС ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° Π’Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚Π΅ сингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹. ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€ΠΈΡ‚Π΅ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ²ΡˆΠΈΠ΅ΡΡ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹. Π£ вас Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, символичСски ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½Π½Ρ‹Π΅ Π½Π° рис. 9.8 (ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΎ ΠΎΠΊΡ€ΡƒΠ³Π»Π΅Π½ΠΈΠ΅ Π΄ΠΎ Π΄Π²ΡƒΡ… Π·Π½Π°ΠΊΠΎΠ²).

Puc. 9.7. РастровоС ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π±ΡƒΠΊΠ²Ρ‹ E ΠΈ ΡΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° Π’Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚Π΅ сингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹. ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€ΠΈΡ‚Π΅ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ²ΡˆΠΈΠ΅ΡΡ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹. Π£ Π²Π°Ρ Π΄ΠΎΠ»ΠΆΠ½Ρ‹ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, символичСски ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½Π½Ρ‹Π΅ Π½Π° Ρ€ΠΈΡ. 9.8 (ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΎ ΠΎΠΊΡ€ΡƒΠ³Π»Π΅Π½ΠΈΠ΅ Π΄ΠΎ Π΄Π²ΡƒΡ… Π·Π½Π°ΠΊΠΎΠ²).

Π³ <- svd (e) s <- diag (r$d) s.

u <- r$u u.

v <- r$v t (v).

Puc. 9.8. БингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅ΠΉ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ Π±ΡƒΠΊΠ²Ρ‹ Π• Из сингулярного разлоТСния слСдуСт, Ρ‡Ρ‚ΠΎ сТатиС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π±Π΅Π· ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈ k > 3, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Ρƒ Π΄Π°Π½Π½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ сущСствуСт всСго Ρ‚Ρ€ΠΈ Π½Π΅Π½ΡƒΠ»Π΅Π²Ρ‹Ρ… сингулярных значСния: 3,81, 1,70, 0,76. Π§Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒΡΡ Π² этом, ΠΌΠΎΠΆΠ½ΠΎ просто ΠΏΠ΅Ρ€Π΅ΠΌΠ½ΠΎΠΆΠΈΡ‚ΡŒ Ρ‚Ρ€ΠΈ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, ΠΎΠ±Ρ€Π΅Π·Π°Π² (Ρ€Π΅Π΄ΡƒΡ†ΠΈΡ€ΠΎΠ²Π°Π²) ΠΊΠ°ΠΆΠ΄ΡƒΡŽ ΠΈΠ· Π½ΠΈΡ… сначала с Π³Π»ΡƒΠ±ΠΈΠ½ΠΎΠΉ ΠΊ = 3, Π·Π°Ρ‚Π΅ΠΌ ΠΊ = 2 ΠΈ, Π½Π°ΠΊΠΎΠ½Π΅Ρ†, ΠΊ = 1. ЗапуститС скрипт, ΠΏΠΎΠΊΠ°Π·Π°Π½Π½Ρ‹ΠΉ Π½ΠΈΠΆΠ΅, ΠΈ ΠΏΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠΉΡ‚Π΅ Ρ‚Ρ€ΠΈ изобраТСния Π±ΡƒΠΊΠ²Ρ‹ Π•, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ€Π΅Π΄ΡƒΠΊΡ†ΠΈΠΈ.

Puc. 9.8. БингулярноС Ρ€Π°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰Π΅ΠΉ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΡŽ Π±ΡƒΠΊΠ²Ρ‹ Π• Π˜Π· ΡΠΈΠ½Π³ΡƒΠ»ΡΡ€Π½ΠΎΠ³ΠΎ разлоТСния слСдуСт, Ρ‡Ρ‚ΠΎ сТатиС ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π±Π΅Π· ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ ΠΏΠΎΡ‚Π΅Ρ€ΠΈ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈ k > 3, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Ρƒ Π΄Π°Π½Π½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ сущСствуСт всСго Ρ‚Ρ€ΠΈ Π½Π΅Π½ΡƒΠ»Π΅Π²Ρ‹Ρ… сингулярных значСния: 3,81, 1,70, 0,76. Π§Ρ‚ΠΎΠ±Ρ‹ ΡƒΠ±Π΅Π΄ΠΈΡ‚ΡŒΡΡ Π² ΡΡ‚ΠΎΠΌ, ΠΌΠΎΠΆΠ½ΠΎ просто ΠΏΠ΅Ρ€Π΅ΠΌΠ½ΠΎΠΆΠΈΡ‚ΡŒ Ρ‚Ρ€ΠΈ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹, ΠΎΠ±Ρ€Π΅Π·Π°Π² (Ρ€Π΅Π΄ΡƒΡ†ΠΈΡ€ΠΎΠ²Π°Π²) ΠΊΠ°ΠΆΠ΄ΡƒΡŽ ΠΈΠ· Π½ΠΈΡ… сначала с Π³Π»ΡƒΠ±ΠΈΠ½ΠΎΠΉ ΠΊ = 3, Π·Π°Ρ‚Π΅ΠΌ ΠΊ = 2 ΠΈ, Π½Π°ΠΊΠΎΠ½Π΅Ρ†, ΠΊ = 1. ЗапуститС скрипт, ΠΏΠΎΠΊΠ°Π·Π°Π½Π½Ρ‹ΠΉ Π½ΠΈΠΆΠ΅, ΠΈ ΠΏΡ€ΠΎΠ°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠΉΡ‚Π΅ Ρ‚Ρ€ΠΈ изобраТСния Π±ΡƒΠΊΠ²Ρ‹ Π•, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ Ρ€Π΅Π΄ΡƒΠΊΡ†ΠΈΠΈ.

reduce <-function (u, s, v, k).

(.

us <- as. matrix (u [, 1: k]) vs <- as. matrix (v [, 1: k]) ss <- as. matrix (s [1: k, 1: k]) return (us %*% ss%*% t (vs)).

}.

e3<-reduce (u, s, v, 3).

e3.

image (t (e3), axes = FALSE, col = grey (seq (1, 0,.

length = 256))) e2<-reduce (u, s, v, 2).

e2.

image (t (e2), axes = FALSE, col = grey (seq (1, 0,.

length = 256))) el<-reduce (u, s, v, l).

el.

image (t (el), axes = FALSE, col = grey (seq (1, 0,.

length = 256))).

ΠŸΡ€ΠΈ ΠΊ = 3 ΠΈΠΌΠ΅Π΅ΠΌ e3 = u3s3v73 = e. Π£ Π²Π°Ρ Π΄ΠΎΠ»ΠΆΠ½Π° ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° e:i, символичСски прСдставлСнная Π½Π° Ρ€ΠΈΡ. 9.9 (ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΎ ΠΎΠΊΡ€ΡƒΠ³Π»Π΅Π½ΠΈΠ΅ Π΄ΠΎ Π΄Π²ΡƒΡ… Π·Π½Π°ΠΊΠΎΠ²). ΠŸΠΎΡ‚Π΅Ρ€Ρ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, Ссли Π½Π΅ ΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΏΠΎΠ³Ρ€Π΅ΡˆΠ½ΠΎΡΡ‚ΠΈ вычислСний, отсутствуСт.

Аппроксимация исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ изобраТСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ Ρ€Π°Π½Π³Π° ΠΊ = 3.

Рис. 9.9. Аппроксимация исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ изобраТСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ Ρ€Π°Π½Π³Π° ΠΊ = 3.

А Π²ΠΎΡ‚ ΠΏΡ€ΠΈ значСниях ΠΊ < 3 (особСнно ΠΏΡ€ΠΈ k = 1) ΡƒΠΆΠ΅ Π½Π°Π±Π»ΡŽΠ΄Π°Π΅Ρ‚ΡΡ сущСствСнная потСря ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ. Π‘Ρ€Π°Π²Π½ΠΈΡ‚Π΅ рис. 9.10 ΠΈ 9.11 (ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΎ ΠΎΠΊΡ€ΡƒΠ³Π»Π΅Π½ΠΈΠ΅ Π΄ΠΎ Π΄Π²ΡƒΡ… Π·Π½Π°ΠΊΠΎΠ²).

Π­Ρ‚ΠΎ Ρ…ΠΎΡ€ΠΎΡˆΠΎ Π·Π°ΠΌΠ΅Ρ‚Π½ΠΎ ΠΈ ΠΏΠΎ ΡΠ°ΠΌΠΈΠΌ изобраТСниям Π±ΡƒΠΊΠ²Ρ‹, построСнным Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡ€ΠΈΠ±Π»ΠΈΠΆΠ΅Π½Π½Ρ‹Ρ… ΠΌΠ°Ρ‚Ρ€ΠΈΡ† Π΅3, Π΅2, Π΅Ρ€ ΠΏΡ€ΠΈ ΠΊ = 3 ΠΏΠΎΡ‚Π΅Ρ€ΠΈ качСства Π½Π΅Ρ‚, ΠΏΡ€ΠΈ k = 2 качСство изобраТСния нСсколько Ρ…ΡƒΠΆΠ΅, Π½ΠΎ Π±ΡƒΠΊΠ²Ρƒ ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°ΡΠΏΠΎΠ·Π½Π°Ρ‚ΡŒ, ΠΏΡ€ΠΈ k = 2 Π±ΡƒΠΊΠ²Ρƒ Ρ€Π°ΡΠΏΠΎΠ·Π½Π°Ρ‚ΡŒ практичСски Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ (рис. 9.12). Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, ΠΊΠ°ΠΊ ΠΈ ΠΎΡ‚ΠΌΠ΅Ρ‡Π°Π»ΠΎΡΡŒ Π²Ρ‹ΡˆΠ΅, Π·Π°ΠΌΠ΅Π½Π° исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΏΡ€ΠΈΠ±Π»ΠΈΠΆΠ΅Π½Π½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ мСньшСго Ρ€Π°Π½Π³Π° позволяСт ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΡ‚ΡŒ количСство Ρ…Ρ€Π°Π½ΠΈΠΌΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, Π½ΠΎ ΠΏΡ€ΠΈ этом Ρ‡Π°ΡΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ тСряСтся. Π’ΠΎ, насколько ΠΊΡ€ΠΈΡ‚ΠΈΡ‡Π½Π° потСря части ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ, опрСдСляСтся условиями ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠΉ Π·Π°Π΄Π°Ρ‡ΠΈ.

Аппроксимация исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ изобраТСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ Ρ€Π°Π½Π³Π° k = 2.

Рис. 9.10. Аппроксимация исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ изобраТСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ Ρ€Π°Π½Π³Π° k = 2.

Аппроксимация исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ изобраТСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ Ρ€Π°Π½Π³Π° k = 1.

Рис. 9.11. Аппроксимация исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ изобраТСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ΠΉ Ρ€Π°Π½Π³Π° k = 1.

ΠŸΠΎΡΡ‚Π΅ΠΏΠ΅Π½Π½Π°Ρ потСря качСства изобраТСния ΠΏΡ€ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠΈ k.

Рис. 9.12. ΠŸΠΎΡΡ‚Π΅ΠΏΠ΅Π½Π½Π°Ρ потСря качСства изобраТСния ΠΏΡ€ΠΈ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΠΈ k.

Π‘Π»Π΅Π΄ΡƒΠ΅Ρ‚ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π² ΠΏΠ΅Ρ€Π²ΡƒΡŽ ΠΎΡ‡Π΅Ρ€Π΅Π΄ΡŒ Ρ‚Π΅Ρ€ΡΡŽΡ‚ΡΡ «ΡΠ»Π°Π±Ρ‹Π΅» сигналы, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π² Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… случаях ΠΌΠΎΠΆΠ½ΠΎ Ρ‚Ρ€Π°ΠΊΡ‚ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΊ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹ΠΉ ΡˆΡƒΠΌ, ΠΏΠΎΠΌΠ΅Ρ…ΠΈ. Па Ρ„ΠΎΠ½Π΅ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Ρ‚Π°ΠΊΠΈΡ… слабых сигналов ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°ΡŽΡ‚ΡΡ значСния Π΄ΠΎΠΌΠΈΠ½Π°Π½Ρ‚Π½Ρ‹Ρ…, ΠΈΠ»ΠΈ ΡƒΠ²Π΅Ρ€Π΅Π½Π½Ρ‹Ρ…, сигналов.

Анализ ΠΌΠ°Ρ‚Ρ€ΠΈΡ† Π΅3, Π΅2, Π΅{ позволяСт Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ Π² ΠΊΠ°Ρ‡Π΅ΡΡ‚Π²Π΅ Π΄ΠΎΠΌΠΈΠ½Π°Π½Ρ‚Π½Ρ‹Ρ… сигналов элСмСнты [1,1], [4,1], [7,1]. ΠŸΡ€ΠΈ ΠΏΠ΅Ρ€Π²ΠΎΠΉ аппроксимации значСния этих элСмСнтов Π±Ρ‹Π»ΠΈ Ρ€Π°Π²Π½Ρ‹ 1, Π° ΠΏΡ€ΠΈ послСднСй аппроксимации ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ»ΠΈΡΡŒ. Π”Π°Π½Π½Ρ‹ΠΉ Ρ„Π°ΠΊΡ‚ Π»Π΅Π³ΠΊΠΎ поддаСтся гСомСтричСской ΠΈΠ½Ρ‚Π΅Ρ€ΠΏΡ€Π΅Ρ‚Π°Ρ†ΠΈΠΈ: ΡƒΠΊΠ°Π·Π°Π½Π½Ρ‹Π΅ элСмСнты ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΡΠ²Π»ΡΡŽΡ‚ΡΡ ΡΠΈΡΡ‚Π΅ΠΌΠΎΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰ΠΈΠΌΠΈ Π² ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΈ Π±ΡƒΠΊΠ²Ρ‹ Π•, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой Ρ‚ΠΎΡ‡ΠΊΠΈ пСрСсСчСния ΠΎΠ±Ρ€Π°Π·ΡƒΡŽΡ‰ΠΈΡ… эту Π±ΡƒΠΊΠ²Ρƒ Π»ΠΈΠ½ΠΈΠΉ.

Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΡ‹ ΠΏΡ€ΠΎΠΈΠ»Π»ΡŽΡΡ‚Ρ€ΠΈΡ€ΡƒΠ΅ΠΌ, ΠΊΠ°ΠΊ Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ Π»Π°Ρ‚Π΅Π½Ρ‚Π½ΠΎΠ³ΠΎ сСмантичСского Π°Π½Π°Π»ΠΈΠ·Π° Π½Π° ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ тСкстов. ΠžΡ‚ΠΊΡ€ΠΎΠΉΡ‚Π΅ скрипт, созданный Ρ€Π°Π½Π΅Π΅ ΠΏΡ€ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ тСкстов ΠΏΡ€ΠΎ ΠšΠΈΡ‚Π°ΠΉ ΠΈ Π―понию. Π’ΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΡƒ Isa. Π’Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚Π΅ Ρ‚Ρƒ Ρ‡Π°ΡΡ‚ΡŒ ΠΊΠΎΠΌΠ°Π½Π΄, которая Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΠ΅Ρ‚ корпус Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ², ΠΎΡ‡ΠΈΡ‰Π°Π΅Ρ‚ Π΅Π³ΠΎ ΠΎΡ‚ ΡΡ‚ΠΎΠΏ-слов, ΠΏΡƒΠ½ΠΊΡ‚ΡƒΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Ρ… Π·Π½Π°ΠΊΠΎΠ², чисСл, ΠΏΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΡƒΠ΅Ρ‚ символы Π² Π½ΠΈΠΆΠ½ΠΈΠΉ рСгистр ΠΈ Ρ„ΠΎΡ€ΠΌΠΈΡ€ΡƒΠ΅Ρ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹», ΡΠΎΡΡ‚ΠΎΡΡ‰ΡƒΡŽ ΠΈΠ· 6 Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² ΠΈ 55 слов.

Для Π°Π½Π°Π»ΠΈΠ·Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΡ‹ Ρ…ΠΎΡ‚ΠΈΠΌ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Π² Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅, Π½Π°ΠΌ Π½Π΅ ΠΏΠΎΡ‚Ρ€Π΅Π±ΡƒΡŽΡ‚ΡΡ всС 55 слов. ΠœΡ‹ Π±ΡƒΠ΄Π΅ΠΌ ΠΎΠΏΠ΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌΠΈ словами-Π³Π΅ΠΎΠ½ΠΈΠΌΠ°ΠΌΠΈ: China, Beijing, Shanghai, Масаи, Tokyo, Japan, Yokohama. ΠŸΠΎΡΡ‚ΠΎΠΌΡƒ ΠΈΠ· ΠΏΠΎΠ»Π½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» Π½ΡƒΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ Π΅Π΅ Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚, ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π½Ρ‹ΠΉ ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌΠΈ столбцами (Ρ‚Π°Π±Π». 9.7).

geonyms <-с («china» ," beijing" ," shanghai" ," macau" ," to.

kyo", «japan» ," yokohama").

dtm<-dtm [, geonyms].

a<-as.matrix (dtm).

a.

Π’Π°Π±Π»ΠΈΡ†Π° 9.7

ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹», составлСнная ΠΈΠ· Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ²-Π³Π΅ΠΎΠ½ΠΈΠΌΠΎΠ².

DocsTerms.

china.

beijing.

shanghai.

macau.

tokyo.

japan.

yokohama.

Beijing.txt.

Chinatown.txt.

Islands.txt.

Macau.txt.

Shanghai.txt.

Yokohama.txt.

Π’Π΅ΠΏΠ΅Ρ€ΡŒ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ сСмантичСскиС связи ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ, Ρ‚. Π΅. ΠΎΡ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» ΠΏΠ΅Ρ€Π΅ΠΉΡ‚ΠΈ ΠΊ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ «Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹». Для Ρ‚Π°ΠΊΠΎΠ³ΠΎ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄Π° Π½ΡƒΠΆΠ½ΠΎ Ρ€Π°ΡΡΡ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΊΠΎΡΠΈΠ½ΡƒΡΠ½ΡƒΡŽ ΠΌΠ΅Ρ€Ρƒ ΠΌΠ΅ΠΆΠ΄Ρƒ всСми столбцами ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» ΠΈ ΡΡ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ· ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ Π½ΠΎΠ²ΡƒΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ «Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» (Ρ‚Π°Π±Π». 9.8). МоТно ΠΎΠ±Π½ΡƒΠ»ΠΈΡ‚ΡŒ Π² ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ слабыС сСмантичСскиС связи, Ρ‚. Π΅. Ρ‚Π΅ ΡΠ»Π΅ΠΌΠ΅Π½Ρ‚Ρ‹, значСния ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… мСньшС 0,5.

relations C-cosine (a) relations.

relations [ relations< = 0.5 ] <- 0.

Π’Π°Π±Π»ΠΈΡ†Π° 9.8

ΠœΠ°Ρ‚Ρ€ΠΈΡ†Π° сСмантичСских связСй «Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹».

Terms.

china.

beijing.

shanghai.

macau.

tokyo.

japan.

yokohama.

china.

1,000.

0,459.

0,459.

0,229.

0,162.

0,530.

0,487.

beijing.

0,459.

1,000.

0,000.

0,000.

0,000.

0,000.

0,000.

shanghai.

0,459.

0,000.

1,000.

0,000.

0,000.

0,000.

0,000.

macau.

0,229.

0,000.

0,000.

1,000.

0,000.

0,000.

0,000.

tokyo.

0,162.

0,000.

0,000.

0,000.

1,000.

0,816.

0,500.

japan.

0,530.

0,000.

0,000.

0,000.

0,816.

1,000.

0,816.

yokohama.

0,487.

0,000.

0,000.

0,000.

0,500.

0,816.

1,000.

Π’Ρ‹Π΄Π΅Π»Π΅Π½Π½Ρ‹Π΅ Ρ‚Π°ΠΊΠΈΠΌ способом сСмантичСскиС связи ΠΌΠΎΠΆΠ½ΠΎ Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Π³Ρ€Π°Ρ„Π°, Π²Π΅Ρ€ΡˆΠΈΠ½Π°ΠΌΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ³ΠΎ ΡΠ²Π»ΡΡŽΡ‚ΡΡ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ (рис. 9.13).

Π“Ρ€Π°Ρ„ сСмантичСских связСй ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ.

Рис. 9.13. Π“Ρ€Π°Ρ„ сСмантичСских связСй ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ.

Из Ρ€ΠΈΡ. 9.13 Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ сСмантичСски связной оказалась Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π³Ρ€ΡƒΠΏΠΏΠ° японских Π³Π΅ΠΎΠ½ΠΈΠΌΠΎΠ² Yokohama, Japan, Tokyo ΠΈ ΠΏΡ€ΠΈΠΌΠΊΠ½ΡƒΠ²ΡˆΠΈΠΉ ΠΊ Π½ΠΈΠΌ китайский Π³Π΅ΠΎΠ½ΠΈΠΌ China. Однако ясно, Ρ‡Ρ‚ΠΎ сущСствуСт Π΅Ρ‰Π΅ ΠΎΠ΄Π½Π° связная Π³Ρ€ΡƒΠΏΠΏΠ° Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΎΠ² (китайских), Π½ΠΎ ΡΡ‚ΠΈ связи ΠΏΠ»ΠΎΡ…ΠΎ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½Ρ‹ (скрыты). Π§Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΡ€ΠΎΠ΄ΠΈΡ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ ΠΌΠΎΡ‰Π½ΡƒΡŽ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρƒ связСй ΠΈ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ скрытыС (Π»Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹Π΅) сСмантичСскиС связи, Π½ΡƒΠΆΠ½ΠΎ вмСсто исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ «Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹» ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π΅Π΅ ΡΠΆΠ°Ρ‚Ρ‹ΠΉ ΠΎΠ±Ρ€Π°Π·, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΉ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ сингулярного разлоТСния. Π‘ΡƒΠ΄Π΅ΠΌ Ρ„ΠΎΡ€ΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ сТатый ΠΎΠ±Ρ€Π°Π· Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΠ΅Ρ€Π²Ρ‹Ρ… Π΄Π²ΡƒΡ… сингулярных чисСл, Ρ‚. Π΅. с Π³Π»ΡƒΠ±ΠΈΠ½ΠΎΠΉ 2. Π—Π°Ρ‚Π΅ΠΌ Π½ΡƒΠΆΠ½ΠΎ снова ΠΏΠ΅Ρ€Π΅ΠΉΡ‚ΠΈ ΠΎΡ‚ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ сТатой ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ ΠΊ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ «Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹-Π½Π°-Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹», ΠΎΠ±Π½ΡƒΠ»ΠΈΡ‚ΡŒ слабыС связи ΠΈ Π²ΠΈΠ·ΡƒΠ°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π³Ρ€Π°Ρ„ (рис. 9.14).

Π³ <- svd (a) s <- diag (r$d) u <- r$u v <- r$v s.

reduce <-function (u, s, v, k).

{.

us <- as. matrix (u [, 1: k]).

vs <- as. matrix (v [, 1: k]).

ss <- as. matrix (s [1: k, 1: k]).

return (us %*% ss%*% t (vs)).

}.

a2<-reduce (u, s, v, 2) colnames (a2) <-geonyms.

relations2 <-cosine (a2) relations2 [relations3<=0.5] <- 0.

relations2.

net2=graph.adjacency (adjmatrix=relations2, mode= «undirected», weighted = TRUE, diag = FALSE) plot (net2, vertex. size = 12, vertex.label.dist = 1, vertex.label.degree = 0, edge.arrow.size = 0).

Π‘Ρ€Π°Π²Π½Π΅Π½ΠΈΠ΅ Π΄Π²ΡƒΡ… Π³Ρ€Π°Ρ„ΠΎΠ² сСмантичСских связСй Π½Π° Ρ€ΠΈΡΡƒΠ½ΠΊΠ°Ρ… 9.13 ΠΈ 9.14 позволяСт Π³ΠΎΠ²ΠΎΡ€ΠΈΡ‚ΡŒ ΠΎ Π±ΠΎΠ»ΡŒΡˆΠ΅ΠΉ информативности Π²Ρ‚ΠΎΡ€ΠΎΠ³ΠΎ Π³Ρ€Π°Ρ„Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½ Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ аппроксимации с ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ k = 3. Π’Ρ‚ΠΎΡ€ΠΎΠΉ Π³Ρ€Π°Ρ„ содСрТит большС связСй, ΠΈ ΡΡ‚ΠΈ связи ΠΎΡ‡Π΅Π²ΠΈΠ΄Π½Ρ‹: ΠΊΠ°ΠΊ ΠΌΡ‹ Π²ΠΈΠ΄ΠΈΠΌ, всС китайскиС Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ объСдинились Π² ΠΎΠ΄ΠΈΠ½ ΠΏΠΎΠ΄Π³Ρ€Π°Ρ„, Π° ΡΠΏΠΎΠ½ΡΠΊΠΈΠ΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Ρ‹ — Π² Π΄Ρ€ΡƒΠ³ΠΎΠΉ. Π’Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, новая ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π° связСй ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ»Π°ΡΡŒ Π±ΠΎΠ»Π΅Π΅ ΠΌΠΎΡ‰Π½ΠΎΠΉ, ΠΈ ΠΎΠ½Π° Ρ‚Π΅ΠΏΠ΅Ρ€ΡŒ ΠΎΡ‚ΠΎΠ±Ρ€Π°ΠΆΠ°Π΅Ρ‚ всС связи ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΈ — ΠΈ ΡΠ²Π½Ρ‹Π΅, ΠΈ ΡΠΊΡ€Ρ‹Ρ‚Ρ‹Π΅ (Π»Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹Π΅).

Π“Ρ€Π°Ρ„ сСмантичСских связСй ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ Π½ΠΎΠ²ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ близости, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ послС сингулярного разлоТСния исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹.

Рис. 9.14. Π“Ρ€Π°Ρ„ сСмантичСских связСй ΠΌΠ΅ΠΆΠ΄Ρƒ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ, ΡΠΎΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ Π½ΠΎΠ²ΠΎΠΉ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Π΅ близости, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ послС сингулярного разлоТСния исходной ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹.

  • [1] Π‘ΠΌ.: Indexing by Latent Semantic Analysis / S. C. Deerwester, S. T. Dumais, T. K. Landauer [et al.] // JAsIs. 1990. № 6 (41); Xu IF., Liu X., Gong Y. DocumentClustering Based on Non-Negative Matrix Factorization // Proceedings of the 26thAnnual International ACM SIGIR Conference on Research and Development inInformation Retrieval. Toronto: ACM, 2003.
  • [2] Cm.: Eckart C., Young G. The Approximation of One Matrix by Another of LowerRank // Psychometrika. 1936. № 3(1).
  • [3] Π‘ΠΌ.: Eckart Π‘., Young G. The Approximation of One Matrix by Another of LowerRank.
  • [4] Π‘ΠΌ.: Indexing by Latent Semantic Analysis / S. C. Deerwester, S. T. Dumais, T. K. Landauer [ct al.].
  • [5] Xu W. t Liu X., Gong Y. Document Clustering Based on Non-Negative MatrixFactorization.
ΠŸΠΎΠΊΠ°Π·Π°Ρ‚ΡŒ вСсь тСкст
Π—Π°ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ Ρ„ΠΎΡ€ΠΌΡƒ Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΉ Ρ€Π°Π±ΠΎΡ‚ΠΎΠΉ