Закон Ципфа гласит, что в некотором корпусе высказываний на естественном языке частотность любого слова обратно пропорциональна его позиции в таблице частотностей.
Вот эквиваленты основных блоков NLP в компиляторах языка программирования: • токенизатор — сканер, лексический анализатор; • словарь — лексикон; • синтаксический анализатор — компилятор; • токен, терм, слово или n-грамма — токен, символ или терминальный символ.
Токенизатор для компиляции языка программирования называют сканером (scanner) или лексическим анализатором (lexer).
Регулярные выражения используют специальный вид (класс) грамматики формального языка, называемый регулярной грамматикой.
Формальные языки — подмножество естественных языков.