ПО «Магуча»
машинное чтение вакансий и резюме

Научно-методическая основа

Новая таксономия профессий

В нашей стране нет твердого перечня профессий, специальностей и должностей, единого и обязательного для всех организаций. Существующие общероссийские классификаторы профессий и должностей полезны для целей Росстата и для определения налоговых/пенсионных коэффициентов и не имеют практически ничего общего с тем, что размещают на job-сайтах. Учебные учреждения, колледжи и вузы, часто «придумывают» названия профессий и специальностей в угоду моде или задачам по привлечению абитуриентов, а работодатели – в попытках конкурировать за внимание соискателей.

Некоторые вакансии могут содержать в своем названии наименование работодателя – причем как неотъемлемую смысловую часть (например, «Работник имябренда»). Часто используются сленговые названия или иные сокращения, далекие от наименования специальности по удостоверению или диплому – буровик, (авто)электрик, маникюрша, а еще появились «трендовые» наименования: озонщик, инстаграмщик, тиктокерщик и т.п.

Если посчитать все уникальные наименования, не вникая в их смысл, то число современных «профессий» просто зашкаливает: их более 250 000 по данным на 2020 год. Но, разумеется, это не профессии. В лучшем случае это названия для должностей в различных организациях. Среди этих названий могут быть и профессии, и специальности, и должности, и отсылки к квалификации (разряду или категории).

Чтобы отделить одно от другого и разобраться в этих «сущностях» нам пришлось пересобрать само понятие профессии, опираясь на несколько ключевых элементов:

  • трудовые действия — что именно требуется делать;
  • орудие труда — подразумевающее соответствующие профессиональные знания и навыки работы;
  • условия труда — место и его характеристики, где совершаются трудовые действия.

В результате была разработана таксономия профессий, в концепции которой встречаются такие понятия как:

  • корневые функции,
  • мета-профессии,
  • корневые профессии,
  • специальности (в рамках профессий),
  • должности,
  • квалификационные уровни.

Чуть позже, в рамках проекта «Профпробы-360», мы дополнили концепцию таксономией компетенций и профессионально важных качеств и требований.

Магуча позволяет соотнести описания вакансий и резюме, размещенных на job-сайтах, с нашей таксономией профессий, специальностей и должностей, чтобы таким образом посчитать, сколько же в реальности нужно тех или иных специалистов, выполняющих одинаковые по своей сути действия, вне зависимости от того, как их должность в вакансии называет работодатель или как они называют ее сами.

Встречаются такие случаи, когда имеющегося описания внутри вакансии или резюме недостаточно, чтобы хоть как-то таксонимировать по ним профессию. Например, когда в названии вакансии указано «Инспектор», а в единственной графе должностные обязанности скупая строчка «Согласно должностной инструкции».

Такие резюме способны сбить с толку человека, но Магуча с ними справляется: она смотрит на наименование организации и ее тип деятельности (и прочую информацию, указанную о компании на job-сайте), принимает во внимание размер зарплаты и график труда, и способна определить – о каком именно инспекторе идет речь: инспекторе ФСИН, инспекторе налоговой, инспекторе по контролю качества и так далее.

Аналогично с чтением резюме. Во внимание Магучи попадают другие резюме этого соискателя, если они есть, указанные им смежные специальности, опять же, если имеются, полученное образование, опыт предыдущей работы, ожидаемая заработная платы, возраст и пол.

Конечно, существуют и «неопознанные» резюме и вакансии, которые программа отправляет в нашу базу для ручной обработки и последующего уточнения лингвистической онтологии программы.

Цифровые портреты и онлайн-атлас современных профессий

Энциклопедия профессий

Когда от аналогового анализа мира профессий и рынка труда мы перешли к цифровому, то сразу же возникла идея создания «онлайн-энциклопедии всех профессий» путем автоматизированного «суммирования» и «усреднения» из описаний однотипных вакансий.

Выглядело это следующим образом: программа брала описания всех, к примеру, автослесарей, вычленяла и взвешивала на повторяемость однотипные фразы (требования к профессии, описания трудовых действий и так далее) и определяла конечное «усредненное» описание профессии.

Для запуска требовалось вычленить часто употребляемые в вакансиях лингвистические конструкции и с их помощью проводить машинную обработку текста. Именно тогда мы привлекли к работе профессиональных филологов для выявления паттернов и шаблонов, ставших позднее основой онтологии в прототипе Магучи. Здесь можно посмотреть, как выглядели исходные тексты описаний.

В итоге мы получили каталог с наименованиями профессий и с автоматически сформированным их описанием из множества должностных инструкций. Некоторые тексты были легко читаемыми, некоторыми не очень. Но реальной проблемой оказались индексы взвешивания: низкий уровень (40-60%%) у конечно выбираемого текста говорил о том, насколько «разной» бывает одна и та же профессия. Второй проблемой была неоднородность описаний профессий (то густо – то пусто), а предлагаемое решение – редуцировать до одинакового минимума – казалась нам противоречащей нашим принципам.

Атлас современных профессий, специальностей и должностей

Еще задолго до появления «цифровой» энциклопедии профессий была проделана «аналоговая» работа по описанию профессионально важных качеств для большого количества профессий в рамках проекта «Дерево эволюции профессий». Над проектом трудилось более ста сотрудников, в том числе коллеги из других стран, были заполнены миллионы ячеек таблиц с описаниями.

В итоге нам удалось связать эти два проекта – онлайн-обработку описаний профессий из вакансий и готовое структурированное описание самих профессий – чтобы получился наш Атлас. (Большая просьба не путать с атласом так называемых «новых» профессий, который делает АСИ).

В дальнейшем данные созданного Атласа вошли в онтологию Магучи, которая представляет собой оцифрованную таксономию, а также специальные лингвистические шаблоны и алгоритмы их обработки, позволяющие тексты вакансий и резюме приводить к таксономии (и еще совершать обратный процесс, если этого требуют задачи исследований, где Магуча используется).

В 2022 году существенным образом трансформировалась концепция описания профессионально важных качеств. Во-первых, пришлось понятия «качеств» расширить до понятия «требований», в которые вошли не только качества как таковые, но и медицинские показания, психологические особенности, элементы мотивов и ценностно-смысловых установок. Во-вторых, пришлось создать таксономию современных компетенций, понятие которых прочно закрепилось в профориентационной и hr повестке. Согласно нашей таксономии, компетенции представляют собой сложносоставные комбинации из атомарных и сложносоставных профессионально важных требований.

Подробно эта модель раскрыта и используется в проекте «Навигатум: Профпробы-360», который представляет собой программно-аппаратный тренажерно-диагностический комплекс, сочетающий в себе современный типологический подход на базе диагностики действием с системой «умного тестирования» (динамически выстраиваемого сценария тестирования на основе получаемых ответов) и в равной мере подходы гуманистические (аксиологический и феноменологические), то есть с опорой на мотивы, ценности и смыслы пользователя.

Цифровые портреты

Перечисленные методические концепции и возможности Магучи позволили реализовать давнюю задумку, лежащую и в энциклопедии профессий, и в Атласе современных профессий, специальностей и должностей — а именно: создавать цифровые описания профессий в онлайн-режиме.

Что изменилось в цифровых портретах кроме того, что они очищены от данных «лже- профессий» — с тем же названием, но с другим смысловым содержанием? Магуча, занимающаяся формированием портретов (фактически это самостоятельная программа на движке Магучи), во-первых, умеет определять требуемые профессиональные навыки и компетенции из описаний вакансий, даже если в тексте нет их прямых формулировок и вообще нет слов «компетенция».

Во-вторых, она рассматривает портрет с позиции социологического исследования, то есть фактически выделяет несколько суб-портретов в рамках одного на основе отличающихся паттернов (особенно это важно для создания цифровых портретов соискателей).

И самое главное отличие, скорее концептуально-методическое, чем программное: цифровой портрет не создается обобщенным из всех вакансий страны, словно средняя температура по больнице. Требования к профессиям (с учетом условий труда, требуемых навыков и даже особенностей трудовых действий, должностных инструкций) различается в конкретных городах и регионах. Портрет можно создать по каждому населенному пункту или региону.

В итоге появилось две очень интересных функции, открывающие новые возможности для исследователей:

  • Сравнение цифровых портретов одной профессии, но из разных населенных пунктов (как для цифровых портретов вакансии, так и цифрового портрета профессионала – соискателя).
  • Отслеживание динамики изменений этих портретов.

Первая возможность позволяет посмотреть, чем по существу отличается условный автоэлектрик в Москве от такого же автоэлектрика в Урюпинске или чем отличается совокупный портрет автоэлектрика-профессионала (соискателя) Москвы от портрета соискателей в том же Урюпинске. (Мы знаем и другие названия городов, если что — простите, если упоминания пресловутого Урюпинска задевает ваше восприятие). И чем портрет профессии-соискателя отличается от портрета профессии-вакансии.

А вторая возможность позволяет определить, как меняется, куда меняется и с какой силой (скоростью и масштабом изменений), портрет профессии или портрет соискателя по этой профессии.

Обычным путем увидеть такие тонкие тренды в изменениях профессий практически невозможно. А вот система, которая автоматически формирует, анализирует и сравнивает между собой портреты по разным срезам, может увидеть многое, и по заданным настройкам рассказать об этом исследователю. Один из наших исследователей создал рейтинг самых динамично изменяемых профессий и наблюдает за его обновлениями каждый день.

Когда мы используем уже имеющуюся базу знаний по обнаруженным программой едва намечающимся или так называемым скрытым трендам в прошлом (например, в базах за 2020-2021 года) и которые сегодня стали видны «невооруженным глазом», то с такими данными можно обучить нейронную сеть для «предсказаний», что именно изменится в мире профессий в ближайшем и отдаленном будущем. Чем вам не атлас по-настоящему новых профессий?

ЦМРТ
Цифровая модель рынка труда

Утилитарная цель Магучи — это обслуживать единую модель рынка труда, в которой условно посчитаны все рабочие места (и занятые, и свободные), и все трудовые ресурсы (и потенциально приходящие, и уходящие).

Расширенная «Цифровая модель рынка труда» привязывается ко множеству распознаваемых («понимаемых») данных:

  • статистики (по рождаемости и смертности),
  • системы образования (сколько человек, как и чему учат, и сколько чему в итоге научили),
  • налоговой (сколько и каких компаний существует),
  • пенсионного фонда (сколько человек официально трудоустроены и какие официальные зарплаты они получают),
  • справочно-информационных систем (какие компании находятся в информационном пространстве и как себя позиционируют).

Такая модель позволяет увидеть реальные данные и обнаружить все искусственные:

  • Так, цифровой анализ отчетов Росстата показывает противоречия между данными разных разделов; показывает ошибки или опечатки. Случайные, а возможно не очень.
  • Поверхностное сравнение данных налоговой, кадастровой системы и каталогов предприятий выявляет объемы «серого» или «черного» бизнеса и трудоустройства.
  • Анализ выпускников системы профессионального образования в сравнении с текущими и прогнозируемыми потребностями рынка труда, отчётливо демонстрирует, насколько профессиональное образование оторвано от реальности (а вне системно ведущаяся «цифровизация профессионального образования» никак не способствует решению этих корневых проблем).
  • Статистика по численности населения, половозрастным данным, доходам на душу населения по городам и регионам в сравнении с анализом данных по организациям (из каталогов, справочников и налоговых данных) показывает, где (в каких городах или городских районах) и каких именно бизнесов (услуг, ритейла) не хватает (концепция «голубого океана» для предпринимателей), а где уровень конкуренции зашкаливающий, то есть в какие бизнесы и где именно лучше не лезть («красных от крови морей», если пользоваться метафорами известной бизнес-концепции).

Такая цифровая модель, даже в первом своем приближении, предоставляет данные, важнейшие для развития и определения стратегии развития страны. Для построения такой модели НЕ НУЖНЫ сотни миллионов рублей, а нужно время на «медленные» исследования, на вникающих и дотошных исследователей и экспертов, подгоняемых научным азартом, а не сроками еще неоплаченного, но уже истекающего гранта или шальными KPI ради однократной демонстрации потемкинских фасадов в медийно-освещаемом «федеральном проекте».