Как удалить дублирующиеся строки в SSIS-пакете

В интеграционные службы SQL-сервера включено множество полезных трансформаций. Но простой операции удаления дублирующихся строк среди них нет. Как средствами SSIS удалить дубликаты в потоке данных?

Вот на вход поступает поток данных, содержащий дубликаты. Как удалить повторяющиеся строки? В конструкторе пакета для интеграционных служб SQL-сервера нет стандартной трансформации, предназначенной для решения этой задачи.

Но это не страшно. Для такого простого преобразования мы легко можем приспособить одну из двух простых трансформаций: агрегацию или сортировку.

Если вы выбрали агрегацию, то нужно просто перевести все столбцы в режим GROUP BY:

Группировка по всем полям очевидным образом приведёт к схлопыванию дублирующихся строк:

А если используете для этой цели сортировку, то следует выбрать для упорядочения все столбцы и установить флаг исключения дубликатов:

Результат будет тот же самый: