Какова энтропия романа МУБА племени БУМ, если он состоит из 10000 знаков, включая буквы А (4000), У (1000), М (2000

  • 65
Какова энтропия романа "МУБА" племени БУМ, если он состоит из 10000 знаков, включая буквы А (4000), У (1000), М (2000), Б (1500), точки (500) и пробелы (1000)?
Arbuz
22
Для решения этой задачи, нам необходимо использовать формулу для вычисления энтропии:

\[ H = -\sum_{i=1}^{n} p_i \log_2(p_i) \]

где \( H \) - энтропия, \( p_i \) - вероятность появления символа \( i \), а сумма берется по всем символам, которые могут встретиться в тексте.

В нашем случае, у нас есть 6 различных символов и их соответствующие вероятности:

Буква А: \( p_A = \frac{4000}{10000} = 0.4 \)
Буква У: \( p_Y = \frac{1000}{10000} = 0.1 \)
Буква М: \( p_M = \frac{2000}{10000} = 0.2 \)
Буква Б: \( p_B = \frac{1500}{10000} = 0.15 \)
Точка: \( p_\text{точка} = \frac{500}{10000} = 0.05 \)
Пробел: \( p_\text{пробел} = \frac{1000}{10000} = 0.1 \)

Теперь мы можем использовать формулу для вычисления энтропии:

\[ H = -(0.4 \log_2(0.4) + 0.1 \log_2(0.1) + 0.2 \log_2(0.2) + 0.15 \log_2(0.15) + 0.05 \log_2(0.05) + 0.1 \log_2(0.1)) \]

\[ H = -(0.4 \cdot (-2) + 0.1 \cdot (-3.3219) + 0.2 \cdot (-2.3219) + 0.15 \cdot (-2.737) + 0.05 \cdot (-4.3219) + 0.1 \cdot (-3.3219)) \]

\[ H \approx -( -0.8 - 0.33219 - 0.46438 - 0.41055 - 0.216095 - 0.33219 ) \]

\[ H \approx -2.955935 \]

Таким образом, энтропия романа "МУБА" племени БУМ составляет примерно 2.96. Энтропия показывает меру неопределенности сообщения, то есть чем больше энтропия, тем более случайным является текст.