ta muallif kitobidan iqtiboslar  Обработка естественного языка. Python и spaCy на практике

Конвейер обработки текста
Fikr bildirish
включая статистическое моделирование языка и статистические сетевые модели
Fikr bildirish
I want the newspaper delivered to my door.
Fikr bildirish
ari
ariiqtibos olmoqda1 yil oldin
Названия моделей создаются по следующему принципу: lang_type_genre_size. Lang обозначает язык. Type указывает на возможности модели (например, core означает, что речь идет об универсальной модели, имеющей словарь, синтаксис, сущности и векторы). Genre указывает на тип текстов, которые лежали в основе обучения данной модели: web («Википедия» или подобные ресурсы) или news (новостные статьи). Size обозначает размер модели: lg — большая, md — средняя и sm — маленькая. Чем больше модель, тем больше дискового пространства ей нужно.
Fikr bildirish
ari
ariiqtibos olmoqda1 yil oldin
Обычно узлы в нейронной сети сгруппированы по слоям: имеются входной и выходной слои, а между ними — один скрытый слой или более. Каждый узел в слое (за исключением выходного слоя) соединяется с каждым узлом из следующего слоя, и каждому соединению соответствует весовой коэффициент. Во время процесса обучения алгоритм подбирает веса таким образом, чтобы минимизировать ошибку предсказаний
Fikr bildirish
ari
ariiqtibos olmoqda1 yil oldin
Нейронная сеть (neural network) представляет собой набор алгоритмов предсказания. Она состоит из большого числа простых обрабатывающих элементов, подобных нейронам в мозге человека, которые взаимодействуют между собой путем отправки сигналов в соседние узлы и получения встречных сигналов.
Fikr bildirish
ari
ariiqtibos olmoqda1 yil oldin
распределение вероятностей (probability distribution) для конкретной случайной величины представляет собой таблицу соответствий значений этой величины вероятностям их выпадения (в эксперименте).
Fikr bildirish
ari
ariiqtibos olmoqda1 yil oldin
Математически определение семантического подобия между двумя словами сводится к вычислению косинусного коэффициента между соответствующими векторами, то есть вычислению косинуса угла между ними.
Fikr bildirish
сценария таким образом: for token in doc: print(token.head.text, token.dep_, token.text)
Fikr bildirish
 import spacy  nlp = spacy.load('en')  doc = nlp(u'I am flying to Frisco')  print([w.text for w in doc])
Fikr bildirish