Skip to content

cluster data from text embeddings

Notifications You must be signed in to change notification settings

ThatCoderMan/claster

Repository files navigation

open in colab

Кластеризация Данных

Project stack
  • Python 3.10
  • HuggingFace Embedding
  • DBSCAN
  • UMAP
  • Plotly
  • spaCy

Общая Идея

Проект представляет собой инструмент для анализа и визуализации текстовых данных, используя методы машинного обучения и кластеризации. Основная идея проекта заключается в преобразовании текстовых данных в числовые эмбединги с помощью предобученной модели HuggingFace, после чего применяется алгоритм DBSCAN для кластеризации этих эмбедингов. После кластеризации программа генерирует суммари для каждого кластера и визуализирует результаты на графике.

Проблемы, Решаемые Проектом

Проект решает проблему анализа больших объемов текстовых данных, позволяя выявить ключевые темы и аномалии в данных. Это может быть полезно для исследователей, аналитиков и специалистов в области обработки естественного языка, работающих с большими наборами данных, такими как отзывы клиентов, социальные медиа, научные статьи и т.д.

Применение Проекта

Проект может использоваться для анализа отзывов клиентов, исследования трендов в социальных сетях, кластеризации научных статей по темам и многое другое. Визуализация результатов кластеризации позволяет легко идентифицировать группы похожих документов или отзывов, что может быть полезно для принятия решений на основе анализа данных.

Техническая Реализация

Проект реализован на Python и использует следующие технологии и библиотеки:

  • HuggingFace Embedding: Для преобразования текстовых данных в числовые эмбединги используется предобученная модель HuggingFace.
  • DBSCAN: Алгоритм DBSCAN (Density-Based Spatial Clustering of Applications with Noise) используется для кластеризации эмбедингов.
  • UMAP: Для создания проекции эмбедингов в двухмерное пространство используется алгоритм UMAP (Uniform Manifold Approximation and Projection).
  • Plotly: Для визуализации кластеров используется библиотека Plotly, которая позволяет создавать интерактивные графики.
  • spaCy: Для генерации суммариев кластеров используется библиотека spaCy, которая предоставляет инструменты для обработки естественного языка.

Этот проект демонстрирует возможности использования современных методов машинного обучения и обработки естественного языка для анализа и визуализации текстовых данных, предоставляя ценные инсайты и упрощая процесс исследования больших объемов информации.

Developers:

About

cluster data from text embeddings

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published