Специализация для работы с визуальными данными: распознавание, детекция объектов, генеративные модели и промышленное применение.
Компьютерное зрение — одна из старейших областей ИИ, которая переживает второе рождение благодаря диффузионным моделям, Vision Transformer (ViT) и мультимодальным архитектурам. Промышленность, медицина, автономный транспорт и ритейл — все эти индустрии активно внедряют CV-решения, создавая стабильный спрос на специалистов.
Особенность направления — высокие требования к вычислительным ресурсам. Хорошие программы включают обязательную работу на GPU-кластерах, а не только теорию. Рекомендуется искать программы, дающие access к облачным GPU (AWS, Google Cloud).
Представление изображений в памяти, цветовые пространства, фильтрация, морфологические операции. Базовые задачи: детекция краёв, нахождение контуров, геометрические преобразования.
Архитектура CNN, операции свёртки и пулинга. Классические сети: LeNet, VGG, ResNet, EfficientNet. Transfer Learning как стандарт промышленного применения.
R-CNN семейство, YOLO (v5, v8, v10), DETR. Семантическая и инстанс-сегментация: U-Net, Mask R-CNN, SAM (Segment Anything). Практика на реальных датасетах COCO и Open Images.
ViT, CLIP, BLIP-2. Понимание мультимодальных моделей, связывающих зрение и язык. Применение в image captioning, visual QA, image-text retrieval.
GAN-архитектуры (StyleGAN, Pix2Pix), диффузионные модели (Stable Diffusion, DALL-E). Применение для аугментации данных, синтеза изображений и data privacy.
CV-специалисты востребованы в секторах, где зрительный анализ данных критически важен. Ниже — обзор основных применений в США: