name | label | type | description |
---|---|---|---|
domain | домен сайта | string | Домены сайтов с хостинга narod.ru |
main_page_link | полный URL главной страницы сайта | string | Ссылка, ведущая на главную страницу сайта |
main_page_html | словарь html-документов главной страницы сайта | string | Строка, содержащая словарь html-документов глвной страницы и фреймов главной страницы Словрь содержит ключи: - HTML - ключ содержит html-документ главной страницы сайта - {frame/iframe}HTML_{значение атрибута 'src' фрейма} - ключ содержит html-документ тэга frame/iframe главной страницы сайта Ключи могут принимать следующие значения: - строка с html-документом - код статуса http ответа в случае огибки получения доступа к сайту Для конвертации строки в словарь использовать ast.literal_eval(main_page_html) |
main_page_text | словарь текстов, содержащихся на главной странице сайта | string | Строка, содержащая словарь текстов главной страницы сайта и фреймов главной страницы сайта Словрь содержит ключи: - HTML - ключ содержит текст главной страницы сайта - {frame/iframe}HTML_{значение атрибута 'src' фрейма} - ключ содержит текст в тэге frame/iframe главной страницы сайта Ключи могут принимать следующие значения: - строка с текстом - код статуса http ответа в случае огибки получения доступа к сай Для конвертации строки в словарь использовать ast.literal_eval(main_page_text) |
main_page_numbers | числа от 1000 до 2024 в тексте главной страницы сайта | string | Содержит стоку списка чисел от 1000 до 2024, которые встречаются в тексте главной страницы сайта Для конвертации строки в список использовать ast.literal_eval(main_page_numbers) |
main_page_phrase_numbers | контекст упоминания чисел атрибута main_page_numbers | string | Содержит строку списка частей текста главной страницы, к контексте которых упоминается число из атрибута main_page_numbers. Для конвертации строки в список использовать ast.literal_eval(main_page_phrase_numbers) |
main_page_dating | числа от 2000 до 2024 в тексте главной страницы сайта | string | Содержит стоку списка чисел от 2000 до 2024, которые встречаются в тексте главной страницы сайта Для конвертации строки в список использовать ast.literal_eval(main_page_dating) |
main_page_phrase_dating | контекст упоминания чисел атрибута main_page_dating | string | Содержит строку списка частей текста главной страницы, к контексте которых упоминается число из атрибута main_page_dating. Для конвертации строки в список использовать ast.literal_eval(main_page_phrase_dating) |
main_page_warning | категория сенсетивного контента, присутствующего на главной странице сайта | string | Показывает, является ли главная страница сайта потенциально неприемлемой для просмотра. Если страница безопасна, то переменная содержит 0. В остальных случаях встречаются названия категорий в строчном виде: 'porn' (порнографический контент), 'drugs' (пропаганда наркотиков), 'bad_words' (ненормативная/грубая лексика), 'race_discr' (расовая дискриминация), 'suicide' (пропаганда суицида), 'minust' (запрещенные, нежелательные организации, фамилии лиц, признанных иноагентами), 'lgbt' (упоминание представителей ЛГБТ) |
main_page_bad_word | слово, детектирующее категорию сенсетивного контента на главной странице сайта | string | Содержит слово, которое послужило тригером для присвоения главной странице категории сенсетивного контента |
internal_links | словарь url адресов внутренних ссылок сайта | string | Содержит строку со списоком внутренних ссылок сайта Словрь содержит ключи: - путь к странице относительного адреса главной страницы Ключи могут принимать следующие значения: - код статуса http-ответа при попытке получения доступа к сайту Для конвертации строки в словарь использовать ast.literal_eval(internal_links) |
main_page_text_clean | очищенный от спецсимволов текст главной страницы сайта | string | Содержит текст главной страницы, очищенный от спецсимолов |
main_page_language_name | название основного языка главной страницы сайта | string | Содержит название основного языка главной страницы сайта |
main_page_language_code | код основного языка главной страницы сайта | string | Содержит код основного языка главной страницы сайта |
main_page_language_count | количество языков, встречающихся на главной странице сайта | integer | Содержит число языков, встречающихся на главной странице сайта |
main_page_proper_nouns | именованые сущности, встречающиеся в тексте главной страницы | string | Содержит строку списка именованых сущностей текста главной страницы сайта |
main_page_text_lemm | лемматизированный текст главной страницы сайта | string | Содержит лемматизированный текст главной страницы сайта |
main_page_text_len | длина текста главной страницы сайта | float | Содержит длину текста главной страницы сайта |
main_page_period | период дат в тексте главной страницы сайта | string | Содержит период дат в тексте главной страницы в формате "date_begin - date_ending" |
main_page_date_begin | начало интервала дат из атрибута main_page_period | float | Содержит значение начала интервала дат из атрибута main_page_period |
main_page_date_ending | конец интервала дат из атрибута main_page_period | float | Содержит значение конца интервала дат из атрибута main_page_period |
duration | длительность периода активного существования сайта | float | Содержит длительность периода активного сузествования сайта как разницу значений атрбутов date_ending и date_start |
preview_file_name | название файла со скриншотом главной страницы сайта | string | Содержит назвние файла со скриншотом главной страницы сайта |