Чтобы определить сходство между объектами или признаками, используют различные меры (метрики) сходства. Обычно эти величины принимают значения от 0 до 1 (при абсолютном сходстве). Рассмотрим некоторые из таких метрик.
Сходство, основанное на расстоянии
Для определения сходства можно сначала вычислить расстояние одним из способов:
Евклидово расстояние.
В данном случае каждый объект представляется как вектор в пространстве признаков (или наоборот). Тогда между любыми двумя точками можно найти Евклидово расстояние по известной формуле.
Расстояние Хемминга.
Эта метрика применяется для бинарных данных. Расстояние в данном случае равно количеству разных значений координат двух векторов.
Для выбранного расстояния сходство часто ищется по формуле:
.
Вернемся к метрике Хемминга. Поскольку d может принимать только натуральные значения и 0, максимальное значение s равняется 1 (при нулевом расстоянии), но уже при d = 1 значение s = ½, что является очевидным недостатком: если имеется два 100-мерных бинарных вектора, у которых различие лишь в одной из координат, то согласно формуле получаем, что они сходны лишь наполовину. Такой «несглаженный» характер значений сходства можно видеть на графике (рис.1):
Рис. 1. Зависимость сходства от расстояния Хемминга