Files
GorichBot/bot/utils/text_tools.py
T
2026-05-12 23:37:04 +03:00

120 lines
4.4 KiB
Python

import html
import re
from html.parser import HTMLParser
def to_html(obj):
return str(obj).replace("<", "&lt;").replace(">", "&gt;")
class TelegramHTMLSanitizer(HTMLParser):
ALLOWED_TAGS = {"b", "i", "u", "s", "code", "pre", "a"}
TAG_ALIASES = {"strong": "b", "em": "i"}
ALLOWED_HREF_PREFIXES = ("http://", "https://", "tg://", "mailto:")
def __init__(self) -> None:
super().__init__(convert_charrefs=False)
self.parts: list[str] = []
self.tag_stack: list[str] = []
def handle_starttag(self, tag: str, attrs: list[tuple[str, str | None]]) -> None:
normalized_tag = self.TAG_ALIASES.get(tag, tag)
if normalized_tag not in self.ALLOWED_TAGS:
return
if normalized_tag == "a":
href = next((value for key, value in attrs if key == "href" and value), None)
if not href or not href.startswith(self.ALLOWED_HREF_PREFIXES):
return
safe_href = html.escape(href, quote=True)
self.parts.append(f'<a href="{safe_href}">')
self.tag_stack.append(normalized_tag)
return
self.parts.append(f"<{normalized_tag}>")
self.tag_stack.append(normalized_tag)
def handle_endtag(self, tag: str) -> None:
normalized_tag = self.TAG_ALIASES.get(tag, tag)
if normalized_tag not in self.ALLOWED_TAGS:
return
for index in range(len(self.tag_stack) - 1, -1, -1):
if self.tag_stack[index] == normalized_tag:
del self.tag_stack[index]
self.parts.append(f"</{normalized_tag}>")
break
def handle_data(self, data: str) -> None:
self.parts.append(html.escape(data, quote=False))
def handle_entityref(self, name: str) -> None:
self.parts.append(f"&{name};")
def handle_charref(self, name: str) -> None:
self.parts.append(f"&#{name};")
def get_html(self) -> str:
while self.tag_stack:
self.parts.append(f"</{self.tag_stack.pop()}>")
return "".join(self.parts)
def markdown_to_telegram_html(text: str) -> str:
prepared = text.replace("\r\n", "\n").strip()
prepared = re.sub(
r"\[([^\]]+)\]\((https?://[^\s)]+)\)",
r'<a href="\2">\1</a>',
prepared,
)
prepared = re.sub(r"\*\*(.+?)\*\*", r"<b>\1</b>", prepared, flags=re.DOTALL)
prepared = re.sub(r"__(.+?)__", r"<b>\1</b>", prepared, flags=re.DOTALL)
prepared = re.sub(r"(?m)^[ \t]*[*-]\s+", "", prepared)
return prepared
def format_telegram_html(text: str) -> str:
prepared = markdown_to_telegram_html(str(text))
sanitizer = TelegramHTMLSanitizer()
sanitizer.feed(prepared)
sanitizer.close()
return sanitizer.get_html()
def parse_links_to_inline_markup(message: str) -> list:
"""
Парсит сообщение с форматированными ссылками и возвращает список рядов кнопок.
Формат входного сообщения:
- [Текст кнопки + Ссылка] для одной кнопки.
- [Кнопка1 + Ссылка1][Кнопка2 + Ссылка2] для нескольких кнопок в одном ряду.
- Каждая строка представляет отдельный ряд кнопок.
Пример:
[Кнопка1 + https://example.com]
[Кнопка2 + https://example.org][Кнопка3 + https://example.net]
:param message: Строка с отформатированными ссылками.
:return: Список рядов кнопок, где каждый ряд — это список кортежей (Текст, Ссылка).
"""
# Исправленное регулярное выражение для поиска [Текст + Ссылка]
pattern = re.compile(r"\[([^\[\]+]+)\s*\+\s*(https?://[^\[\]]+)\]")
# Инициализируем список рядов кнопок
keyboard_rows = []
# Разбиваем сообщение на строки
lines = message.strip().split("\n")
for line in lines:
# Находим все совпадения в строке
matches = pattern.findall(line)
if matches:
row = []
for text, url in matches:
button = (text.strip(), url.strip())
row.append(button)
keyboard_rows.append(row)
return keyboard_rows