Photo by davisuko on Unsplash

Це п’ята в серії статей, що описує обробку природної мови (Natural Language Processing — NLP).

Розпізнавання іменованих сутностей — це підзадача видобування інформації, яка спрямована на пошук і класифікацію іменованих сутностей, згаданих в неструктурованому тексті, по заздалегідь певних категорій, таким як імена людей, організації, місця розташування, медичні коди, вираження часу, кількості, грошові значення, відсотки та інше.

Для цього ви можете використовувати готову попередньо навчену модель NER за допомогою бібліотеки з відкритим вихідним кодом, таку як Spacy або Stanford CoreNLP.

Тепер, якщо ви гадаєте, що…


У цій частині розглянемо тематичне моделювання на прикладі новин

Photo by Giammarco on Unsplash

Це четверта в серії статей, що описує обробку природної мови (Natural Language Processing — NLP).

Завдання тематичного моделювання: захоплювати семантичну інформацію за межами окремих слів; виявляти приховані теми чи теми в документах;
відповідно анотувати документи; використовувати анотації для управління, узагальнення, пошуку та рекомендування вмісту.

У машинному навчанні та обробки природної мови, тематична модель являє собою тип статистичної моделі для виявлення абстрактних «тем», що зустрічаються в колекції документів.


У цій частині розглянемо кластеризацію текстів на прикладі новин

Photo by Pierre Bamin on Unsplash

Це третя в серії статей, що описує обробку природної мови (Natural Language Processing — NLP).

У минулій статті витратили досить багато часу на розуміння проблем класифікації, яка є формою контрольованого навчання. Давайте тепер подивимося на кластеризацию, яка є формою навчання без учителя. Кластеризація тексту — це завдання угруповання набору текстів без міток таким чином, щоб тексти в одній групі (кластер) були більш схожі один на одного, ніж на тексти в інших кластерах.

Багато алгоритмів кластеризації доступні в Scikit-Learn та інших бібліотеках, але, можливо…


У цій частині розглянемо класифікацію текстів на прикладі новин

Це друга в серії статей, що описує обробку природної мови (Natural Language Processing — NLP).

Класифікація текстів це процес класифікації документів в одну або кілька певних категорій. Слід відрізняти класифікацію текстів від кластеризації. В останньому випадку тексти також об’єднуються за деякими критеріями, але заздалегідь задані категорії відсутні. Класифікація може здійснюватися власноруч або автоматично, за допомогою створеного набору правил чи із застосуванням методів машинного навчання.

Присвоєння категорій текстів, які можуть бути веб-сторінкою, книгою, статтею для ЗМІ та іншим, має безліч застосувань, наприклад: аналіз настроїв, позначення тем, класифікація новин…


У цій частині розглянемо аналіз тональності текстів на прикладі новин

Ми будемо використовувати Google Colab тому вам не потрібно нічого встановлювати або налаштовувати на вашому комп’ютері.

Обробка природної мови (Natural Language Processing — NLP) — це технологія, яка допомагає комп’ютеру розуміти природну мову людини. Використовуючи NLP, розробники можуть систематизувати і структурувати знання для виконання таких завдань, як автоматичне реферування, переклад, розпізнавання іменованих сутностей, аналіз тональності, розпізнавання мови, тематична сегментація та інше.

NLTK (Natural Language Toolkit) — провідна платформа для створення NLP-програм на Python. У неї легкі у використанні інтерфейси для багатьох мовних корпусів, а також бібліотеки для обробки текстів для…

Oleg Dubetcky

I am an information systems architect, enthusiast of machine learning. My technologies are Python, Java, Сloud Сomputing, SQL, NoSQL, Node.js, IoT, Blockchain.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store