Text Moderation Model

Text Moderation Model — это интеллектуальное решение, которое позволяет в реальном времени отслеживать потенциально опасный или нежелательный текстовой контент. Благодаря ему вы сможете обеспечить высокие стандарты безопасности на вашей платформе и защитить пользователей от материалов, провоцирующих агрессию или нарушающих законодательство.

Модель обнаруживает и классифицирует контент по следующим категориям:

harassment: Контент, который выражает, подстрекает или пропагандирует оскорбительные высказывания в отношении любой целевой аудитории. Контент оскорбительного характера, который также включает насилие или нанесение серьезного вреда любой цели.
hate: Контент, который выражает, подстрекает или пропагандирует ненависть по признаку расы, пола, этнической принадлежности, религии, национальности, сексуальной ориентации, инвалидности или касты. Контент, разжигающий ненависть, направленный на незащищённые группы (например, шахматистов), является домогательством. Под эту категорию подпадает также контент, включающий насилие или серьёзный вред целевой группе по признаку расы, пола, религии и т.д.
illicit: Контент, который даёт советы или инструкции о том, как совершать незаконные действия (например, «как воровать в магазине»). Также сюда относится упоминание насилия или приобретения оружия.
self-harm: Контент, который пропагандирует, поощряет или описывает акты членовредительства (самоубийство, нанесение порезов, расстройства пищевого поведения). Сюда же относится контент, где говорящий заявляет, что совершает или намеревается совершить акт самоповреждения, либо инструкции и призывы к подобным действиям.
sexual: Контент, призванный вызвать сексуальное возбуждение, например, описание сексуальной активности или продвижение услуг эротического характера (кроме тем, связанных с половым воспитанием и ЗОЖ). Сюда входит и сексуальный контент, где фигурирует лицо моложе 18 лет.
violence: Контент, изображающий смерть, насилие или физические травмы. Сюда также относится детальное описание подобных действий.

Используя данную модель, вы сможете своевременно реагировать на нарушения, фильтровать токсичный текст и повышать уровень доверия пользователей к вашему продукту.

Пример использования (curl)

curl -X 'POST' \
  'https://ai-platform.shertaev-tech.kz/api/v1/text/moderation' \
  -H 'accept: */*' \
  -H 'Authorization: Bearer token' \
  -H 'Content-Type: application/json' \
  -d '{
    "text": "Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text..."
  }'

Пример ответа

{
  "isValid": true,
  "errors": []
}

Поле isValid говорит о том, что контент прошёл проверку, а errors содержит перечень категорий, по которым текст может нарушать политику платформы. Будьте уверены, что с Text Moderation Model ваш проект станет безопаснее и привлекательнее для пользователей!

AI Platform