TinkoffTask(n-gram model)

Доброго времени суток. Я не очень хорошо умею в гит, не знаю правил оформления документации, поэтому просто расскажу, что сделал. Итак, я написал генератор речи. В основу лег алгоритм цепей Маркова: для каждого возможного префикса из обучающей выборки я хранил возможные за ним слова и вероятность, с которой это слово встретится после префикса.

В начале программы вас попросят ввести размер окон, с которым будет работать программа.
Для начала нужно добавить все файлы в список файлов, затем программа обработает информацию этих файлов и начнет работать(функции openFile, textProcessing, delExtra[useless]).
Затем исходные тексты будут нарезаны на отрезки заданной длины(функция sliceCorpus)
Далее программа построит всевозможные переходы(функции collectTransitions, collectNextWord)
Основной момент работы - функция generateChain. Из этой функции запустится функция createChain, которая вернет рандомный отрезок слов, а затем в вечном цикле будет строиться следующее слова на основе статитических данных(функция predictNext)

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
NLP		NLP
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TinkoffTask(n-gram model)

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

TinkoffTask(n-gram model)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages