В современном мире обширный обмен цифровыми данными — это та цена, которую мы платим за технологические достижения, достигнутые в результате того, что системы искусственного интеллекта (ИИ) анализируют большие объёмы данных за относительно короткое время. Там, где технологии искусственного интеллекта используются в сфере психического здоровья, такой обмен данными создаёт дополнительные проблемы не только из-за конфиденциального характера самих данных, но и из-за потенциальной уязвимости самих доноров информации, в случае нарушения конфиденциальности. Чтобы решить эту проблему, научное предлагает использовать синтетический текст, сохраняя только существенные свойства оригинала. Такой текст может заполнить пробелы в доступности текстовых данных (например, редкие пограничные депрессивные состояния). Эта статья призвана демистифицировать процесс генерации синтетического текста, объяснить связанные с ним алгоритмические и этические проблемы, особенно в области психического здоровья, а также определить наиболее перспективные способы их преодоления. Возможно, что это поспособствует лучшему пониманию и, как следствие, приемлемости использования синтетического текста за пределами исследовательского сообщества.
За последние несколько лет прогрессивные разработки в области ИИ оказались большим подспорьем как для специалистов в области психического здоровья, так и для исследований в этой области. Например, эта технология активно используется для анализа данных из социальных сетей, для отслеживания определённых состояний (например, депрессии или суицидальных мыслей), анализа языка, используемого на сеансах терапии, чтобы помочь специалистам в улучшении индивидуальных планов лечения, а также для обучения специалистов. Искусственный интеллект демонстрирует большой потенциал для улучшения, как исследований в области психического здоровья, так и практики за счёт изучения соответствующих шаблонов в наборах текстовых данных образцов. Однако такие наборы данных не всегда легко доступны и очень часто требуют больших затрат (иначе говоря, существует проблема разреженности данных, например, могут потребоваться годы для получения лонгитюдных наблюдений о психическом здоровье для адекватного мониторинга прогрессирования заболевания). Что ещё более важно, использование таких данных в облачных сервисах обработки информации вызывает серьёзные вопросы конфиденциальности. Это происходит не только из-за обмена конфиденциальным текстом о психическом здоровье, но и из-за того, что модели ИИ внутренне запоминают свои обучающие данные, которые могут подвергаться угрозам кибербезопасности после их развёртывания в сетях.
Подход, набирающий популярность в сообществе разработчиков для решения проблем разрежённости информации и конфиденциальности, заключается в создании и использовании синтетических данных. Здесь надо подчеркнуть, что конфиденциальность является основным ограничивающим фактором, влияющим на доступность такой информации. Решение или, по крайней мере, существенное смягчение проблем с конфиденциальностью ослабит это ограничение полноты данных. В соответствующих кругах изучается, как сделать эти синтетические данные статистически значимыми, а также полезными для алгоритмического анализа и машинного обучения. Такие данные демонстрируют потенциал для улучшения доступности, производительности создания цифровых поведенческих моделей и, в конечном итоге, для ускорения научного прогресса. Однако создание и использование синтетического текста сопряжено с рядом проблем.
Синтетические данные - что это вообще такое?
Разработчики определяют синтетический текст как искусственно сгенерированный текст, основанный на контексте, релевантном для варианта использования, и который отражает релевантное значение для статистического анализа в предполагаемом контексте (включая обучение и анализ с помощью ИИ).
Существует множество других способов создания искусственного текста. Простой способ - манипулировать и изменять исходный текст. Например, мы можем создать «зашумлённую» версию исходного текста, заменив или поменяв местами в нем некоторые слова (например, заменив некоторые слова синонимами или словами с близким значением из заранее заданного словаря или случайным образом).
Другой способ — автоматически обнаруживать личную информацию в исходном тексте (например, имена и адреса) и либо полностью удалять их (анонимизация), либо заменять их заполнителями (псевдонимизация), либо дезинфицировать их (запутать посредством семантического вывода, т. е. заменить синонимами или омонимами).
Оба этих подхода сами по себе недостаточны для защиты конфиденциальности текстового массива о психическом здоровье из-за вероятности того, что достаточная идентифицирующая информация (например, описание сценария, участника и местоположения) сохранится в этих процессах.
Один из подходов — сделать шаг назад. Вместо того, чтобы изменять исходный текст для создания синтетического текста, модель ИИ анализирует исходный текст и/или любую другую дополнительную информацию (метаданные, изображения, видео, данные датчиков и т. п.), чтобы определить её значение и другую важную контекстную информацию, чтобы исключить частную составляющую. После этой процедуры он генерирует из этого новый текст с нуля, который потом сохраняет.
Например, исходный текст может содержать следующее предложение: «Я подошёл к кассе на вокзале ****, но не мог вспомнить, куда я хотел купить билет». Модель ИИ проанализирует это на предмет значения, т. е. того, что кто-то хотел купить билет для путешествия и выразил чувство замешательства. Затем искусственный разум сгенерирует новое предложение, например: «Я подошёл к кассе, но не мог вспомнить, почему я был там». Такое переписывание сохраняет достоверность текста для автоматического анализа (например, для обнаружения путаницы в сознании пациента), но делает описание нерелевантным для ситуации, когда конкретный человек нейтрализует конфиденциальную информацию.
Языковые модели
По сути, языковые модели ИИ выполняют генерацию языка, формируя предложения, выбирая слова одно за другим из изученного словаря. Их выбор определяется вероятностным распределением слов, полученным в результате анализа большого количества текстов, то есть обучающих данных. Например, мы можем сравнить, сколько раз слова «книга» и «сумка» следуют за фразой «Он уронил…», чтобы получить для них относительное распределение вероятностей (например, 45 % вероятность слова «сумка», 10 % вероятность того, что это «книга»).
Кроме того, необходимо учитывать контекст. В расшифровке простого обывательского онлайн-чата «Он изменил свои…» чаще всего может следовать слово «планы», тогда как в юридическом тексте это может быть «показания» / «возражения».
Чтобы закодировать эту комбинацию распределением вероятностей слов и текстовых контекстов, необходимо использовать концепцию, называемую «встраивание слов». Если упростить для понимания о чём идёт речь, то слова могут быть представлены последовательностями чисел, которые, в свою очередь, имеют несколько перекрёстных ссылок с взвешенными вероятностями их появления в любом заданном контексте, полученном из обучающих данных.
Этот подход к языковому моделированию достаточно гибок, чтобы направлять и адаптировать процесс генерации к конкретным ситуациям и контекстам. Используя приведённые выше примеры, он позволяет выбрать «планы», «привычки» или «возражения» после фразы «Он изменил свои…» в зависимости от контекста.
Современные нейронные языковые модели изучают миллиарды и триллионы параметров для предсказания вероятностей слов из больших порций немодерируемых данных, поступающих из Интернета. Эти модели общедоступны в Интернете в виде универсальных генераторов через такие библиотеки, как Huggingface.
Алгоритмические задачи
Чтобы иметь возможность генерировать текст, сохраняющий основные свойства оригинала, языковая модель должна иметь доступ к релевантной контекстной информации на этапе ввода. В настоящее время языковые модели эффективно работают с чётко определёнными, но узкими контекстами в таких задачах, как создание медицинских отчётов при наличии изображений, таблиц или любого другого более длинного текста (например, текста для краткого изложения). Эти модели способны отличать важную информацию от входящего потока, которую необходимо сохранить в выходных данных (например, важные цифры из таблиц или фрагменты медицинских изображений, важные для диагностических заключений).
В случае создания текста о психическом здоровье контекст включает в себя множество факторов, таких как общие диагностические характеристики, личные физические и физиологические особенности, предыдущий опыт/переживания/мысли пациента и непосредственный контекст разговора (например, место разговора, настроение и эмоции собеседника, его личность и тому подобные). Это указывает на решающую роль человека в отборе и сужении соответствующей информации для управления процессом генерации текста и, следовательно, для создания достоверного текста о психическом здоровье для различных сценариев. Например, была предпринята попытка создания клинических заметок в области психического здоровья с использованием демографической информации и ключевых слов, извлечённых из реального текста. Синтетический текст, сгенерированный таким образом, оказался полезным в качестве обучающих данных для машинного обучения, предсказывающего диагнозы психического здоровья.
Недавние методы управления генерацией текста для больших предварительно обученных общедоступных языковых моделей продемонстрировали многообещающий потенциал, позволяющий создавать вычислительно управляемые модели для нескольких контекстов.
Как уже упоминалось, модели ИИ, в том числе языковые модели, склонны запоминать обучающие данные. Чтобы проиллюстрировать это, можно принять такую крайность, в которой обучающие данные содержат один единственный пример. В таком случае модель будет рассматривать вероятность увидеть именно этот вариант в задаче как равную единице. Исходя из этого, если модель даёт фразе или предложению вероятность, равную единице, можно сделать вывод, что это было в её обучающих данных. Это достаточно упрощённое, но понятное объяснение о принципе обучения/переобучения модели. Следовательно, следующая проблема генерации синтетического текста состоит в том, как предотвратить такое запоминание языковой модели и сохранить конфиденциальность соответствующего человека.
В настоящее время для генерации текста применяется ряд стандартных методов защиты конфиденциальности. Один из них, дифференциальная конфиденциальность, которая добавляет шум к обновлениям весов модели таким образом, что даже единичные обучающие примеры нельзя вывести из выходных данных. Альтернативный способ обучения моделей без обмена данными предлагается методом федеративного обучения. Этот метод позволяет узнать веса глобальной модели, не предоставляя этой глобальной модели доступ к локальным данным. Такие модели изучаются локально и регулярно объединяются в глобальную модель на следующем уровне агрегации.
Обратите внимание, что эти методы сохранения конфиденциальности не представляют собой решения проблемы разрежённости данных и не могут рассматриваться как замена методам генерации синтетического текста.
Этические проблемы
Существует также ряд практических последствий более широкого использования синтетического текста в машинном обучении. Первая - это задача разработки стандарта сравнительного анализа синтетического текста. Пока что в области клинического и психического здоровья полезность синтетического текста была оценена только для некоторых типов ИИ, таких как автоматическое прогнозирование диагнозов или распознавание именованных сущностей. Не существует передовой практики или систематических критериев оценки синтетических данных.
В последнее время методы оценки ИИ превратились в функциональную оценку, при которой производительность модели оценивается в ряде сценариев использования. Примером синтетического текста по психическому здоровью является измерение изменений его клинической валидности при изменении входной информации, так что текст, сгенерированный для входного «биполярного расстройства», должен чаще содержать слово «самостоятельный», чем текст, сгенерированный для входного слова «депрессия». Производительность машинного разума, обученного на синтетическом тексте, будет систематически сравниваться с производительностью аналогичного искусственного интеллекта, обученного на реальном тексте. Поскольку прозрачность модели теперь является требованием для ответственной разработки ИИ, эти сравнения производительности будут выполняться на уровне объяснений решений для конкретной модели. В целом генераторы текста должны подвергаться систематическому человеческому контролю на этапах разработки модели.
Второй проблемой является компромисс, связанный с достижением достоверности и полезности, необходимых данных для задачи, против сохранения конфиденциальности ввода. Используя подход, аналогичный тому, который используется для числовых данных в статистическом анализе, необходимо разработать методы для оценки этих компромиссов (для каждого варианта использования в области психического здоровья). Например, если не будет найден надлежащий баланс, то опасность, в случае редких состояний психического здоровья (т. е. тех, на которые влияет нехватка обучающих данных из-за небольшого размера выборки), заключается в том, что риск повторной идентификации пациента может перевесить преимущества снижения затрат на лечение (а затраты можно значительно снизить, благодаря раннему автоматическому выявлению заболевания).
Другим важным этическим следствием использования синтетических данных является предвзятость. Это становится все более важным в тех сценариях психического здоровья, в которых существует естественный небольшой размер выборки. Дело в том, что языковые модели фиксируют общие тенденции в обучающих данных и игнорируют выбросы. Так что любая погрешность в существующих данных (не представленная или неправильно представленная) будет усилена в синтетическом тексте. Было выяснено, что методы контролируемой генерации очень эффективны при решении таких проблем смещения, поскольку случаи обнаруженного смещения могут быть скорректированы, посредством создания и закрепления компенсирующих примеров с соответствующими свойствами, под контролем экспертов-людей. Таким образом, люди, при условии частого пересмотра результатов самообучащейся модели, улучшают и обогащают «опыт» машины естественными природными данными.
Это приводит к возможности создания банков или репозиториев синтетических данных достаточного качества, подходящих для обучения ИИ в области психического здоровья. С точки зрения кибербезопасности существует риск вмешательства в такие наборы данных или их использования злоумышленниками. Это приводит к необходимости «маркировать качество» таких данных, чтобы показать, что они были произведены в соответствии с требуемым стандартом и не изменены, процесс, который будет включать механизм проверки, потенциально использующий хэши или аналогичные криптографические механизмы для проверки подлинности и целостности данных.
Перспективность
В заключение, в этой части статьи необходимо хотим подчеркнуть потенциал синтетического текста для продвижения исследований и практики в области психического здоровья. Генераторы естественного языка являются эффективными инструментами, которые должны управляться и контролироваться людьми, для получения адекватных, этически приемлемых и статистически значимых результатов. Современные методы искусственного интеллекта предоставляют эффективные инструменты для управления процессом генерации, а также для обеспечения честности и конфиденциальности результирующего текста.
Необходимы дополнительные исследования параметров области применения этой технологии, которые будут определять получение статистически значимых результатов в конкретных случаях использования. Пока крайне не хватает всеобъемлющих рамок для систематической оценки достоверности синтетического текста. Это необходимо для дальнейшего статистического анализа эффективности его использования. В области психического здоровья, где, казалось бы, необходимо тщательно ориентироваться в противоречащих друг другу подводных течениях сохранения конфиденциальности пациента и достижения полезности/достоверности, такие схемы оценки особенно сложно разработать. Излишне говорить, что, хотя ИИ может предложить хорошую поддержку принятия решений, он не может заменить человеческий опыт, особенно в такой чувствительной области, как психиатрия или психологическая помощь.
Помимо использования синтетического текста для обучения ИИ, его потенциал можно использовать для исследования синтетических статистических контрольных популяций в лабораторных условиях (предлагая перспективу предоставления надёжных и недорогих альтернатив набору участников-людей). Кроме того, его можно использовать для условного расчёта в исследованиях, чтобы помочь решить стандартные проблемы с отсутствующими и асимметричными выборками данных. Дальнейшая интеграция синтетического текста должна поддерживаться зрелой правовой базой, а также передовым опытом ответственной разработки ИИ в исследовательском сообществе. Преимущества использования синтетических данных вполне могут оказаться обоюдоострым мечом не только для направления психологической помощи, но и для других отраслей. Улучшая модели уже существующие на рынке, посредством обработки больших массивов извлекаемых данных (либо приобретая их), в то же время уменьшая зависимость от реальных данных, крупные корпорации будут открывать для себя другие новые ниши, где их более слабые конкуренты заранее обречены на поражение в конкурентной борьбе.