Merge pull request #27 from NikitaKozlovtcev/feature/NV-8056-urls-ignor

[NV-8056] added ignoring urls to SpellCheckService.prepare
xfenix · Jul 3, 2024 · 3367835 · 3367835
2 parents 42c5dbf + 4541a69
commit 3367835
Show file tree

Hide file tree

Showing 10 changed files with 287 additions and 181 deletions.
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -18,6 +18,7 @@ sentry-sdk = "*"
 pydantic-settings = "*"
 fastapi = "*"
 structlog = "*"
+urlextract = "*"
 
 [tool.poetry.group.dev.dependencies]
 httpx = "*"

diff --git a/scripts/__main__.py b/scripts/__main__.py
@@ -1,5 +1,6 @@
 #!/usr/bin/env python3
 """Simple dockerhub readme generator."""
+
 import argparse
 import pathlib
 import re
@@ -19,7 +20,7 @@ def _update_dockerhub_readme() -> None:
         r"\#\# Development.*",
         r"",
         README_PATH.read_text(),
-        flags=re.I | re.S,
+        flags=re.IGNORECASE | re.DOTALL,
     ).strip()
     new_content = replace_tag_in_readme(new_content, parse_last_git_tag())
     README_PATH.write_text(new_content + "\n")
@@ -58,7 +59,7 @@ def _update_readme() -> None:
         r"(.*Here is a list of them\:).*?(\#\#\#\s.*)",
         r"\1\n" + automatic_config_readme + r"\n\n\2",
         new_content,
-        flags=re.I | re.M | re.S,
+        flags=re.IGNORECASE | re.MULTILINE | re.DOTALL,
     )
     new_content = replace_tag_in_readme(new_content, parse_last_git_tag())
     README_PATH.write_text(new_content)

diff --git a/scripts/_helpers.py b/scripts/_helpers.py
@@ -24,5 +24,5 @@ def replace_tag_in_readme(readme_text: str, new_tag: str) -> str:
         r"(xfenix/spellcheck-microservice\:)(\d{1,}\.\d{1,}\.\d{1,})",
         r"\g<1>" + new_tag,
         readme_text,
-        flags=re.I | re.S,
+        flags=re.IGNORECASE | re.DOTALL,
     )
diff --git a/tests/_fixtures.py b/tests/_fixtures.py
@@ -2,6 +2,7 @@
 
 We do not want to parse files for tests — it's just waste of time.
 """
+
 import typing
 
 
@@ -11,3 +12,9 @@
     """,
     """Апичатки — настаящая граза фсякага блохера. Это палнаценный ужос в текздах. Так жидь нельзйа""",
 )
+
+COMMON_TEXT_MESSAGE: typing.Final[str] = (
+    "Коллеги из поддержки юридических лиц работают в чате по будням с 6:00 до 22:00 по Москве.\n"  # noqa: RUF001
+    "Напишите в рабочее время или позвоните 8(800)700-46-46 по будням с 6:00 до 22:00 суббота с 9:00 по 18:00.\n"  # noqa: RUF001
+    "{} \nЕсли хотите, я передам вопрос, и вам напишут в рабочее время."  # noqa: RUF001
+)
diff --git a/tests/test_spell.py b/tests/test_spell.py
@@ -1,3 +1,6 @@
+import pytest
+
+from tests._fixtures import COMMON_TEXT_MESSAGE
 from whole_app import models
 from whole_app.spell import SpellCheckService
 
@@ -12,3 +15,32 @@ def test_correct_spell() -> None:
     # a тут надо проверять, что first_position и last_position корректные, что word соответствует слову из text
     # что в corrections есть правильные варианты (в рандомизированном случае можно такое не проверять)
     # важно: нужно ВРУЧНУЮ подбирать first_position, last_position и правильные слова и вручную вносить сюда
+
+
+@pytest.mark.parametrize(
+    "url",
+    [
+        "www.rzb.ru",
+        "https://rzb.ru",
+        "https://www.rzb.ru",
+        "rzb.ru/taCWpO",
+        "www.rzb.ru/taCWpO",
+        "https://rzb.ru/taCWpO",
+        "https://www.rzb.ru/taCWpO",
+        "https://www.asd.google.com/search?q=some+text&param=3#dfsdf",
+        "https://www.google.com",
+        "http://google.com/?q=some+text&param=3#dfsdf",
+        "https://www.google.com/api/?",
+        "https://www.google.com/api/login.php",
+        "https://r-chat.raiffeisen.ru/admin/operator/",
+        "https://r-chat.raiffeisen.ru/admin/operator/taCWpO",
+    ],
+)
+def test_urls_ignored(
+    url: str,
+) -> None:
+    fake_engine: SpellCheckService = SpellCheckService()
+    corrections = fake_engine.prepare(
+        models.SpellCheckRequest(text=COMMON_TEXT_MESSAGE.format(url), language="ru_RU", exclude_urls=True),
+    ).run_check()
+    assert not corrections
diff --git a/whole_app/__main__.py b/whole_app/__main__.py
@@ -3,6 +3,7 @@
 This file meant only for basic workers wrappers and fastapi exposure.
 For end-points look in views.py
 """
+
 import typing
 
 import fastapi

diff --git a/whole_app/models.py b/whole_app/models.py
@@ -1,5 +1,6 @@
 # pylint: disable=no-member
 """Models for input/output."""
+
 import typing
 
 import pydantic
@@ -24,6 +25,7 @@ class SpellCheckRequest(pydantic.BaseModel):
         min_length=SETTINGS.username_min_length,
         max_length=SETTINGS.username_max_length,
     )
+    exclude_urls: bool = True
 
 
 class SpellCheckResponse(pydantic.BaseModel):

diff --git a/whole_app/spell.py b/whole_app/spell.py
@@ -1,6 +1,8 @@
+import re
 import typing
 
 import pylru
+import urlextract
 from enchant.checker import SpellChecker
 
 from . import models
@@ -11,12 +13,15 @@
     pylru.lrucache(SETTINGS.cache_size) if SETTINGS.cache_size > 0 else {}
 )
 
+SEPARATORS_TO_SPLIT_URL_BY_WORDS: typing.Final[re.Pattern[str]] = re.compile(r"\.|\:|\/\/|\/|\?|\&|\=|\+|\#|\-")
+
 
 class SpellCheckService:
     __slots__ = ("_input_text", "_spellcheck_engine", "_exclusion_words")
     _input_text: str
     _spellcheck_engine: SpellChecker
     _exclusion_words: list[str]
+    _url_extractor: urlextract.URLExtract = urlextract.URLExtract()
 
     def prepare(
         self: "SpellCheckService",
@@ -26,6 +31,13 @@ def prepare(
         """Initialize machinery."""
         self._input_text = request_payload.text
         self._exclusion_words = exclusion_words if exclusion_words else []
+
+        if request_payload.exclude_urls:
+            for one_url in self._url_extractor.find_urls(self._input_text):
+                self._exclusion_words.extend(
+                    [word.lower() for word in re.split(SEPARATORS_TO_SPLIT_URL_BY_WORDS, one_url)]
+                )
+
         self._spellcheck_engine = SpellChecker(request_payload.language)
         return self
 

diff --git a/whole_app/views.py b/whole_app/views.py
@@ -1,4 +1,5 @@
 """All project end-points lie here."""
+
 import typing
 
 import fastapi