Нейросеть вычислила алкоголиков и наркоманов в соцсетях
Как гласит официальная статистика, каждый десятый американец старше 12 лет страдает от той или иной формы зависимости, при этом исследователи находят определённую взаимосвязь между чертами личности и склонностью к различным привычкам. К примеру, считается, что курящие люди более открыты к общению и получению нового опыта, но при этом они менее дисциплинированные и целеустремлённые. Люди, употребляющие алкоголь, при этом чаще всего являются экстравертами и более социально активными личностями.
Используя социальные сети, пользователи сообщают много информации о своих интересах и чертах личности, а их посты и лайки могут указывать и на вредные привычки пользователей. Исследователи применили алгоритм машинного обучения, который использовал три базы данных, собранных в период с 2007 по 2012 годы специальным приложением myPersonality для психологических тестов. Первая содержала 21 миллион записей 100 тысяч пользователей Facebook (Социальная сеть признана экстремистской и запрещена на территории Российской Федерации), вторая - 5 миллионов лайков 250 тысяч пользователей, а в третьей хранилась информация о наличии зависимостей у 13,5 тысяч пользователей. Для обучения нейросети эти наборы данных компилировались различным образом.
После тренировки алгоритм неплохо научился распознавать наличие вредных привычек: вероятность курения определяется с максимальной точностью 86%, употребления наркотиков - 84%, а употребления алкоголя - 81%. Что интересно, учёные нашли определённые корреляции между содержанием постов, интересами пользователей и зависимостью, от которой они страдают (или наслаждаются). К примеру, нейросеть вычислила, что любители алкоголя и табака чаще используют слова, связанные с движением, а вот наркоманы частенько применяют слова, имеющие отношение к агрессивным действиям.
Выяснились и некоторые интересные подробности музыкальных предпочтений пользователей. Пересекающийся объём данных, впрочем, не указывает на чёткую причинно-следственную связь между постами и лайками в соцсетях и наличием той или иной зависимости, так как он содержал информацию лишь о 3508 пользователях, что изрядно меньше объёма каждой из трёх баз данных по отдельности.