Закон Хипса

Зако́н Хи́пса — эмпирическая закономерность в лингвистике, описывающая распределение числа разных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой

,
Типичный график, иллюстрирующий закон Хипса. По оси x — размер текста, по оси y — число разных слов в тексте. Сравните значения на двух осях

где VR — число разных слов в тексте размера n. K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстов K обычно лежит между 10 и 100, а β между 0,4 и 0,6.

Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.[1] С некоторым приближением закон Гердана — Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.[2]

Примечания

  1. Egghe (2007): «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
  2. Kornai (1999); Baeaza-Yates & Navarro (2000); van Leijenhorst & van der Weide (2003).

Ссылки

  • Baeza-Yates, Ricardo & Navarro, Gonzalo, Block addressing indices for approximate text retrieval, Journal of the American Society for Information Science Т. 51 (1): 69–82, DOI 10.1002/(sici)1097-4571(2000)51:1<69::aid-asi10>3.0.co;2-c.
  • Egghe, L. (2007), Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments, Journal of the American Society for Information Science and Technology Т. 58 (5): 702, DOI 10.1002/asi.20524.
  • Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects, Academic Press. Heaps' law is proposed in Section 7.5 (pp. 206—208).
  • Herdan, Gustav (1960), Type-token mathematics, The Hague: Mouton.
  • Kornai, Andras (1999), Zipf's law outside the middle range, in Rogers, James, Proceedings of the Sixth Meeting on Mathematics of Language, University of Central Florida, с. 347–356.
  • Milička, Jiří (2009), Type-token & Hapax-token Relation: A Combinatorial Model, Glottotheory. International Journal of Theoretical Linguistics Т. 1 (2): 99—110, DOI 10.1515/glot-2009-0009.
  • van Leijenhorst, D. C & van der Weide, Th. P. (2005), A formal derivation of Heaps' Law, Information Sciences Т. 170 (2–4): 263–272, DOI 10.1016/j.ins.2004.03.006.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.