Архив электронной почты
Информационная безопасность Информационная безопасность

Главная>Информационная безопасность>Архив электронной почты
Информационная безопасность Тема номера

Архив электронной почты

Дата публикации:
29.05.2004
Посетителей:
376
Просмотров:
366
Время просмотра:
2.3

Авторы

Автор
Олег Слепов Руководитель направления защиты персональных данных, Центр информационной безопасности, компания «Инфосистемы Джет»
Электронная почта стала важнейшим средством обмена информацией. Согласно исследованиям, проведенным Ferris Research, за последние несколько лет объем корпоративной электронной почты увеличился на 50%. Ожидается, что в ближайшем будущем объемы почты будут расти на 3050% ежегодно. По прогнозам IDC, количество передаваемых в течение дня почтовых сообщений в 2005 году увеличится до 35 миллионов.
 
При этом значительно возрастет доля электронной почты в общем объеме корпоративной информации. Согласно статистике, уже сегодня 35% корпоративной «базы данных» хранится в виде почтовых сообщений.

 

Все большее число организаций начинает осознавать то, что электронная почта является ценным активом. Однако, чтобы электронная почта действительно стала бизнес инструментом, а содержащаяся в ней информация получила реальную ценность, необходимо, чтобы она стала полноценным элементом документооборота.

 

Эта цель может быть достигнута только при соблюдении условия, когда информацией, содержащейся в электронном письме, имеют возможность пользоваться все участники информационного обмена на всем цикле ее существования.

 

К сожалению, в настоящее время во многих организациях такое положение не является нормой. Важная информация, которая хранится в почтовых сообщениях, созданных отдельными пользователями, чаще всего скрыта от остальной части организации. По большей части, пользователи сами решают, какие письма оставлять, а какие удалять. Когда сотрудник находится за пределами организации или покидает ее, информация, которая содержится в его письмах, становится недоступна или, что еще хуже, бывает потеряна навсегда.

 

Устранить данный недостаток позволяет создание централизованного архива электронной почты, который включается в единую корпоративную систему документооборота.

 

Как нельзя обойтись без архива документов, так нельзя обойтись без архива электронной почты, однако необходимо отметить, что у почтового архива в отличие от документального есть своя специфика, которую необходимо учитывать при создании системы документооборота в организации.

 

Различие документальных и почтовых архивов

 

Архив электронной почты существенно отличается от документального архива. И связано это со следующими факторами:

 

1. Сложная структура электронного письма.

 

  • Электронное письмо может иметь как простую, так и комплексную структуру. В письмо могут входить много компонентов различных типов и форматов. Каждый из компонентов имеет несколько подтипов представления информации. Тело сообщения с комплексной структурой может иметь несколько частей или включать в себя другое почтовое сообщение. При этом допускается вложенность: составные части почтового сообщения могут быть образованы как из отдельных элементов, так и из их объединений, а инкапсулированное сообщение может содержать другие инкапсулированные сообщения.
  • Электронное сообщение может быть не только документом, но и "контейнером" для передачи документов. Таких документов может быть несколько, а каждый из них может относиться к разным категориям. Этим определяется сложность выделения и индексации этих документов в одном письме.
  • Электронное письмо содержит служебную информацию, так называемые мета-данные (SMTP-заголовки, MIME-типы и т.п.), которые также входят в состав электронного письма. При помещении письма в архив эти данные должны быть автоматически выделены из письма, образуя часть "карточки документа".
  • Сложность технической реализации решений, связанных с хранением электронной почты, например, необходимость помещения в архив отдельно как письма целиком (его оригинала), так и его компонентов (текстовых частей, бинарных файлов и т.п.).
  • Сложность поиска и извлечения необходимой информации из различных частей электронного сообщения. При этом каждая часть письма может иметь свою кодировку и формат.

 

2. Неопределенность структуры и состава сообщения электронной почты, поступающей в архив.

 

  • Сложность формализации почтовых сообщений. Например, при создании архива проектной документации можно установить правила оформления документов и правила их помещения в архив. В случае с электронной почтой, источники информации не поддаются контролю. Поэтому электронное письмо имеет произвольные структуру, способ упаковки нетекстовых объектов, типы и форматы данных, кодировку текстов и т.п.
  • Многофункциональность электронной почты. Электронные письма используются не только для деловой переписки, а также в личных целях и для передачи информации системного характера. Это приводит к тому, что не все письма, направленные в адрес компании, необходимо архивировать.

3. Специфика окружения, в котором работает почтовый архив.

 

  • Почтовый архив является частью почтовой системы, которая функционирует в режиме 24х7х365.
  • Почтовый архив открыт внешнему воздействию, поскольку в него постоянно поступает входящая корреспонденция. При этом источники этой информации не контролируются почтовым сервером. Электронная почта представляет собой практически идеальную среду для переноса различного рода "опасных" вложений, а именно вирусов, почтовых червей, "троянских" программ и т.п.

 

4. Высокий уровень динамичности работы почтового архива.

 

  • Работу почтового архива характеризует высокая скорость поступления документов. Ежедневно в архив среднестатистической компании помещается до 20 тысяч писем общим объемом от 10 до 25 мегабайт.
  • Высокая скорость поступления документов в архив приводит к быстрому переполнению архива. Во многих случаях приходится жертвовать либо информацией (помещать в архив только часть писем), либо временем хранения, либо идти на увеличение дискового пространства.
  • Высокая скорость поступления документов в архив может привести к деградации производительности поисковых процессов.

 

Требования к архиву электронной почты

 

К архиву электронной почты предъявляются такие же требования, как и к документальному архиву. Однако различия, перечисленные в предыдущем разделе, значительно ужесточают требования к архиву почтовых сообщений. К дополнительным требованиям относятся:

 

  • Более высокая степень надежности. Архив электронной почты работает в тесном взаимодействии с почтовой системой. В определенном смысле он является ее частью. Поэтому требования к надежности почтового архива не могут быть ниже требований к надежности почтовой системы. Сбои в работе архива не должны приводить к сбоям работы почтовой системы или влиять на ее производительность. Кроме того, почтовый архив должен корректно функционировать и в тех случаях, когда формат обрабатываемого письма не соответствует никаким общепринятым стандартам.
  • Более высокая производительность. Архив электронной почты изменяется более динамично, чем документальный архив. Кроме того, при помещении писем в архив производится анализ их структуры и содержимого. Это создает дополнительную и довольно существенную нагрузку на базу данных архива, что, в свою очередь, может приводить к снижению производительности при поисковых операциях.
  • Масштабируемость. Высокая скорость поступления документов в архив приводит к тому, что приходиться жертвовать либо информацией (помещать в архив только часть писем), либо временем хранения почты. Чтобы этого не происходило, почтовый архив должен обладать способностью постоянно наращивать возможности системы в условиях большого потока поступающих данных и быстро растущего архива.
  • Безопасность. Почтовый сервис предполагает работу с внешними адресатами, которые по своей сути являются неконтролируемыми источниками информации. Поэтому архив должен обеспечивать надежную защиту от всевозможных угроз извне.
  • Использование технологии контекстного анализа при помещении писем в архив. Требования индексирования помещаемых в архив писем гораздо выше, чем в документальном архиве, поскольку поступающие в архив письма нельзя привести к единому виду, а информация, содержащаяся в письмах, имеет различные форматы, кодировки и структуру. Технология контекстного анализа позволяет при помещении письма в архив произвести его декомпозицию на составляющие компоненты, обеспечить анализ любого сложного элемента и записать их в отдельные таблицы базы данных. При этом каждый компонент индексируется, что обеспечивает высокую скорость поиска писем в последующем.
  • Необходимость иметь достаточно мощный механизм фильтрации почтовых сообщений, который позволяет в условиях большого разнородного потока поступающих данных обеспечивать высокую производительность помещения писем в архив, гарантируя отсутствие критичных для почтовой системы задержек.
  • Специфические требования к обеспечению контекстного, атрибутивного, а также морфологического поиска по архиву почтовых сообщений. Данная специфика вызвана тем, что электронные письма, хранимые в архиве, имеют практически произвольную структуру и форму представления информации.

 

Современные тенденции

 

Создание архива почтовых сообщений является сегодня одной из актуальных проблем. Почтовый архив давно перестал быть просто архивом. Он постепенно начинает превращаться в инструмент для решения бизнес-задач. Как было уже сказано выше, электронная почта занимает значительное место в документообороте различных компаний и организаций. Без архива такой документооборот перестает иметь смысл, поскольку главное для документооборота – это «база знаний», которой можно оперировать при выполнении различных задач. Электронная почта обладает целым рядом достоинств, благодаря которым становится одним из важнейших элементов этой «базы знаний».

 

Архив почты во многих компаниях постепенно становится стандартом. Это связано с тем, что в таких компаниях почтовый сервис активно участвует в бизнес-процессах и неотделим от них. Содержащаяся в электронной почте информация действительно получает реальную стоимость и становится ценным активом компании. А как любой актив, электронную почту необходимо надежно сохранять.

 

Во многих компаниях почтовый архив появляется по требованию службы безопасности. При этом архив является незаменимым инструментом для реализации контроля почтового трафика, поскольку позволяет детально анализировать структуру и содержание почтового потока и на основании этого анализа своевременно модернизировать политику использования электронной почты, кроме того, информация из архива используется для проведения расследования различных инцидентов.

 

За рубежом наличие архива электронной почты давно уже является законодательным требованием. Невыполнение этих требований грозит организациям выплатой огромных штрафов или применением других санкций. Существует множество законодательных и нормативных актов, которые регулируют отношения в этой сфере. Все они различаются в зависимости от отраслей производства, а также стран, где они имеют распространение. Например, в Великобритании и Европейском Союзе действуют положения («New Basel Capital Accord» и «The Turnbull guidance»), в соответствии с которыми все компании должны хранить почту в течение 7 лет. В США действует целый ряд законодательных актов (Акты «Gram-Leach-Bliley Act», «Health Insurance Portability and Privacy Act», «The Security and Exchange Act» и т.п.), которые предусматривают хранение почтовых сообщений от 7 до 26 лет.

 

АРХИВ СИСТЕМЫ«ДОЗОР-ДЖЕТ»

 

Из истории...

 

В конце 1999 г. одновременно у двух заказчиков компании “Инфосистемы Джет” независимо друг от друга возник вопрос о контроле их корпоративной электронной почты. Имеющиеся на рынке решения такого рода по ряду параметров не отвечали необходимым требованиям (в первую очередь это были требования к производительности и к работе с русскими кодировками). Поэтому основной целью разработчиков стало создание продукта, который смог бы обеспечить контроль внешней почты на предмет утечек конфиденциальной и другой "нежелательной" информации. Ни о каком полноценном архиве электронной почты еще не было и речи. Тем не менее, уже на самых ранних стадиях проектирования такого продукта (в последствии системы) было принято решение об использовании СУБД, которая предназначалась для выполнения двух задач: создание хранилища конфигурационной информации, атрибутов пользователей системы, правил обработки писем, а также обеспечения временного хранилища для задержанных писем. Было ясно, что в системе должно храниться много технологических и прикладных данных, и с целью оптимизации сроков исполнения проекта, который к тому же разрабатывался под конкретного заказчика, хотелось максимально использовать стандартные технологические решения.

 

Разработка началась в конце апреля, а в конце июня первая версия системы уже была установлена и работала у заказчика. Один из уроков, извлеченных из этой первой (и последующих инсталляций), был таков: никто не желает удалять письма из базы! Пользователи системы осознали, что почтовый архив представляет ценность сам по себе. Довольно быстро выяснилось, что на систему имеется определенный спрос, причем оказалось, что для многих служб безопасности архив электронной почты является обычным инструментом работы.

 

Таким образом, с конца 2000 г. архив системы, которая получила название "Дозор-Джет", из вспомогательной подсистемы превратился в основную.

 

Развитие подсистемы архивирования в составе "Дозор-Джет" шло по следующим направлениям:

 

1. Развитие поисковых возможностей (включая расширенный контекстный поиск).

2. Повышение производительности поисковой системы.

3. Борьба за хранимые объемы.

 

Необходимо иметь в виду, что утечка информации может быть не только умышленной, но и случайной. Практика показала, что такая утечка происходит в 65% случаев. Наиболее часто встречающейся причиной является неаккуратное обращение пользователей с адресными списками. Примером может служить случай, который произошел в одной московской компании. На адрес сетевого администратора, отвечающего за почтовую систему, от других сотрудников компании периодически приходила почта, содержащая конфиденциальную информацию. Такая «утечка» не поддавалась никакой логике. Проверка данных сотрудников показала, что им можно доверять и что они не позволили бы себе подобных действий. Ясно, что «утечки» носили случайный характер. Но каким образом все это происходило? Причина оказалась банальной и заключалась в простой невнимательности данных сотрудников при пользовании адресного списка. Открывая его, они забывали выделять нужный адрес из списка. При этом после нажатия «ОК» в поле «Кому:» автоматически заносился первый адрес из списка, которым и был адрес сетевого администратора – admin@company.ru.

 

 Рисунок 1. Структура системы «Дозор-Джет»

 

 В результате в 2002 г. можно было говорить о "Дозор-Джет" как о системе с полнофункциональным архивом электронной почты. Если говорить об используемых СУБД, развитие архива системы "Дозор-Джет" происходило следующим образом: на первом этапе в качестве СУБД системы можно было использовать либо Oracle, либо Informix (через некоторое время "Дозор-Джет" на СУБД Informix по ряду технических параметров перестал устраивать разработчиков системы). Однако жесткая привязка к одной СУБД сужала круг потенциальных пользователей "Дозор-Джет". Среди клиентов были те, кто не планировал использовать почтовый архив, тем более использовать промышленную (и недешевую) СУБД Oracle. Поэтому к концу 2002 года была выпущена система "Дозор-Джет" версии Lite, которая в качестве СУБД использовала PostgreSQL и позиционировалась, в частности, как "Дозор-Джет" для тех, кто не планирует хранить почту.

 

Сейчас версия с СУБД PostgreSQL отличается от "большого Дозора" только отсутствием полнотекстового поиска в архиве и ограничением по объемам хранимой информации.

 

Описание системы «Дозор-Джет»

 

Современная система "Дозор-Джет" представляет собой набор программных модулей, которые обеспечивают потоковый анализ SMTP-трафика почтовых сообщений как между локальной сетью компании и внешним миром, так и внутри локальной вычислительной сети компании. Все почтовые сообщения, поступающие из внешней среды (Интернет) или из локальной сети компании, обрабатываются системой "Дозор-Джет". Обработка заключается в проверке почтовых сообщений на соответствие определенным администратором условиям. В зависимости от того, соответствует ли почтовое сообщение этим условиям или нет, система принимает решение о дальнейших действиях над ним. К таким действиям относятся: регистрация служебной информации о письме в архиве, помещение сообщения в архив, установление прав доступа на письмо при помещении его в архив, установка пометок на письмо при помещении в архив, отправка письма адресату, отправка уведомления, применение другого набора правил, запись сообщения в журнал, загрузка на выполнение внешней программы. Необходимо отметить, что набор действий не является фиксированным. Он может быть расширен. Это зависит от применяемых в системе модулей. Но даже этого набора действий достаточно, чтобы увидеть, что большинство из них связано с применением архива электронной почты.

 

«Дозор-Джет» состоит из следующих основных системных компонентов (см. рисунок 1):

 

  • Подсистемы фильтрации;
  • Подсистемы управления;
  • Подсистемы архивирования;
  • Подсистемы лицензирования.

 

Место базы данных в структуре системы “Дозор-Джет”

 

База данных занимает в структуре системы «ДозорДжет» центральное место. Она принимает участие во всех процессах, проходящих в системе. К примеру, подсистема фильтрации хранит в архиве базу данных правил и мета-данные, на основе которых осуществляется фильтрация почтовых сообщений. Архив задействован в работе большинства дополнительных модулей. Он используется для создания специальной зоны, так называемого карантина для временного помещения туда «подозрительных» писем. Накопленная в архиве информация применяется для дальнейшей обработки писем. И наоборот, с помощью управляющего Web-сервера, который входит в состав подсистемы управления, осуществляется конфигурация архива.

 

Подсистема архивирования «Дозор-Джет» в настоящее время имеет реализации на двух СУБД: Oracle и PostgreSQL. В ближайшем будущем планируется создание версий «Дозор-Джет», работающих с MS SQL Server и СУБД DB2.

 

Предназначение архива

 

Архив «Дозор-Джет» предназначен для хранения и поиска почтовых сообщений. В архиве хранятся оригинал письма и мета-данные (служебная информация о письме).

 

В тех случаях, когда архив используется только для создания отчетов по почтовым потокам, вместо оригинала письма в архив можно помещать так называемую регистрационную информацию.

 

Помещение писем в архив

 

Помещение писем в архив осуществляется автоматически. Выбор писем для помещения в архив может быть сделан по любым критериям, которые задаются администратором. Письму присваивается уникальный идентификатор, а также указывается дата и время записи почтового сообщения в архив. При помещении письма в архив производится его декомпозиция на основные логические элементы и запись их в отдельные таблицы базы. В процессе загрузки почтового сообщения в базу производится его синтаксический анализ и выделение имен и значений полей заголовков, а также значений их параметров.

 

Почему нет необходимости в архивации всех писем подряд? Вариантов ответов может быть несколько.

 

Во-первых, объем содержимого писем обычно многократно превышает объем регистрационной информации, и хранение писем целиком может потребовать существенного увеличения объема базы данных.

 

Во-вторых, некоторые письма могут содержать конфиденциальную информацию, и постоянное их хранение требует обеспечения повышенных требований к защите базы данных.

 

Существует два действия, в результате которых письма помещаются в архив: «зарегистрировать» и «поместить письмо в архив».

 

Регистрация письма означает сохранение в базе данных служебной информации о письме, то есть информации о заголовках электронного письма (автор, адресат, размер и т.п.) и его MIME-структуре.

 

Архивация письма – это помещение оригинала письма в архив в исходном виде, то есть его бинарный образ без осуществления каких-либо предварительных преобразований. Необходимо отметить, что при архивации оригинала письма кроме него самого в архив помещается вся текстовая информация, содержащаяся в письме, вне зависимости от формата и места, где она содержалась (в теле письма, во вложенном файле). При этом весь текст приводится к единому виду, то есть к одному формату и кодировке. Это позволяет обеспечить ускоренный поиск по тексту письма, которое помещено в архив целиком без изменений.

 

Кроме того, над письмами, которые помещены в архив, можно производить и другие действия. Например, на письмо можно установить пометку, а также ограничить право доступа при извлечении его из архива и т.д.

 

Установка пометок

 

В архив помещается не только информация, которая содержится в самом письме. Как уже говорилось выше, при помещении письма в архив на него можно установить несколько пометок. Пометки могут быть установлены автоматически в процессе обработки письма, например, пометка о том, что письмо содержало вирус, и он был нейтрализован антивирусной программой, или пометка, которая говорит о том, что в процессе анализа текста письма оно было квалифицировано как спам. Возможна также и ручная установка пометок уже во время хранения письма в архиве. Например, в результате просмотра определенной выборки писем мы пришли к выводу, что некоторая часть из них может нам понадобиться снова. Пометка позволит впоследствии отобрать эти письма с помощью простого запроса к базе данных архива.

 

Установка прав доступа к письму

 

Нет необходимости доказывать, что доступ к письмам в архиве не должен быть произвольным этот доступ управляется с помощью встроенной в почтовый архив "Дозор-Джет" системой управления правами доступа. Права доступа на письма устанавливаются автоматически в момент помещения письма в архив. Различные права доступа устанавливаются с помощью системы фильтрации, таким образом конкретные права доступа могут определяться любыми критериями, применимыми к обрабатываемым письмам. Например, можно разрешить доступ к письмам различным группам пользователей в зависимости от авторов, адресатов и тематики письма. В случае, когда права доступа не устанавливаются явно, письму присваивается набор прав доступа, определяемый по умолчанию.

 

Хранение писем

 

Архив обеспечивает хранение в режиме on-line большого количества корпоративной электронной почты (до 1 терабайта) с высоким уровнем доступности данных и долговременное хранение сообщений в течение десяти и более лет. При этом есть возможность экспорта данных на внешние носители, что обеспечивает практически неограниченные возможности по объемам хранения данных. Необходимо отметить, что объем хранимой в архиве информации ограничивается исключительно возможностями аппаратного обеспечения.

 

Долговременное хранение архива электронной почты

 

Одной из целей создания архива электронной почты является необходимость хранения почтовых сообщений в течение длительного времени. Это может быть связано как с соблюдением требований нормативных документов (внутриведомственные инструкции и т.п.), так и с необходимостью обеспечения определенных бизнес-процессов (например, хранение финансовых отчетов, которые могут использоваться длительное время после их создания). Поступления писем в архив электронной почты происходят постоянно и с большой скоростью. Ежедневно в архив может поступать около 20 тысяч почтовых сообщений. Именно поэтому архив очень быстро переполняется. Однако, несмотря на такие объемы необходимо предоставлять оперативный доступ к информации. Система «Дозор-Джет» позволяет с помощью специальных средств обеспечить надежное долговременное хранение информации больших объемов с высоким уровнем доступности данных. К таким средствам относятся: модуль сегментирования архива почтовых сообщений, а также программный компонент, обеспечивающий экспорт почтовых сообщений на внешние носители.

 

Модуль сегментирования архива почтовых сообщений

 

Модуль сегментирования архива почтовых сообщений предназначен для повышения продуктивности и надежности работы с большими базами данных электронной почты. В модуле используется опция Partitioning СУБД Oracle (Enterprise Edition), позволяющая строить секционированные таблицы и индексы. Секционированные таблицы и индексы применяются для разделения больших таблиц и индексов на части (секции), управлять которыми можно независимо друг от друга. При секционировании уменьшается время, требуемое для выполнения большинства операций над данными. Объясняется это обработкой меньшего числа «единиц хранения» и увеличением производительности вследствие их параллельного выполнения.

 

Администраторы баз данных могут определять атрибуты хранения для каждой секции и планировать ее размещение на файловой системе сервера, увеличивая тем самым гибкость управления большой базой данных. Каждая из секций может быть переведена в автономное (off-line) состояние или, наоборот, возвращена в оперативное (on-line) состояние. В автономном состоянии секция может храниться на внешних носителях, что обеспечивает практически неограниченные возможности по объемам хранения данных. Кроме того, данная опция обеспечивает постоянную производительность архива при поисковых операциях, поскольку в каждый момент работа ведется только с ограниченным набором писем.

 

 Рисунок 2. Форма для представления и создания справочника MIME-типов сообщении.

 

Экспорт почтовых сообщений на внешние носители

 

Экспорт информации на внешние носители производится с помощью специального программного компонента, который входит в состав стандартной комплектации системы «Дозор-Джет». Таким образом данное действие может быть осуществлено и без применения модуля сегментирования архива электронной почты. При этом информация может быть экспортирована на любой тип носителя, какой только может позволить оборудование, на котором установлен архив: магнитная лента, оптика, CD или DVD. Выгрузка информации с внешнего носителя осуществляется по специальному запросу с использованием Web-интерфейса системы «Дозор-Джет». Формат выгружаемой информации позволяет вновь загрузить ее в архив, либо использовать для ее обработки стандартные почтовые программы.

 

Хранение мета-данных

 

Архив системы «Дозор-Джет» предназначен для хранения мета-данных, то есть служебной информации, применяемой при работе подсистемы фильтрации. Архив системы содержит несколько справочников, в которых собраны используемые при работе параметры. К таким справочникам относятся:

 

  • справочник типов пометок, т.е. список всех возможных категорий, на которые администратор системы «Дозор-Джет» считает необходимым разделить почтовые сообщения;
  • справочник MIME-типов сообщений (см. рисунок 2);
  • справочник кодировок;
  • справочник имен заголовков сообщений.

 

При этом справочники составляются автоматически.

 

Поиск почтовых сообщений

 

Поиск является основной функциональностью архива. Система «Дозор-Джет» позволяет администратору осуществлять поиск в архиве почтовых сообщений, отвечающих задаваемым критериям. Формирование критериев осуществляется с помощью Webинтерфейса (см. рисунок 3). Архив обладает уникальными возможностями по поиску писем в базе данных. Благодаря применению новейших технологий, существует возможность осуществлять следующие виды поиска:

 

  • Контекстный;
  • Атрибутивный;
  • Морфологический.

 

Контекстный поиск по архиву

 

Контекстный поиск производится при помощи Модуля контекстного поиска в архиве почтовых сообщений. Он осуществляется по текстовым частям почтового сообщения. При этом поиск ведется по полному совпадению слова. Модуль реализован на основе опции inter Media СУБД Oracle и поставляется исключительно с «Дозор-Джет» Enterprise Edition.

 

Существенным преимуществом архива системы «Дозор-Джет» является то, что поиск не зависит от исходной кодировки текста и от того, где этот текст размещается. Благодаря технологии эвристического определения кодировки, система способна распознавать тексты в любой кодировке. Это тем более становится важным в связи с большим разнообразием русскоязычных кодировок (CP1251, СР866, ISO8859-5, KOI8-R, MAC). Кроме того, кодировка распознается и в текстах внутри архивных файлов (zip, rar, tar, arj, gzip).

 

 Рисунок 3. Форма составления запроса на выборку писем из архива

 

Атрибутивный поиск по архиву

 

Электронное письмо имеет сложную структуру и состоит из множества компонентов. Поэтому современный архив электронной почты должен уметь осуществлять поиск по любому из компонентов письма.

 

Система «Дозор-Джет» способна осуществлять поиск по следующим компонентам почтового сообщения:

 

  • по идентификатору, присвоенному системой «Дозор-Джет»;
  • по значениям типа, подтипа, кодировки и размеру в количестве строк и байтах почтового сообщения;
  • по именам и значениям MIME-заголовков, а также по именам и значениям параметров MIME-заголовков;
  • по дате создания письма;
  • по значениям всех адресов электронной почты, имеющихся в сообщении (поддерживается раздельный поиск по значению имени, значению почтового ящика и значению домена);
  • по именам и значениям заголовков сообщений, включая заголовки, значениями которых является дата создания письма, адреса отправителя, получателя и т.д.;
  • по пометкам, присвоенным почтовому сообщению при помещении в архив.

 

 Рисунок 4. Результаты обычной выборки писем из архива

 

 Морфологический поиск по архиву

 

Система «Дозор-Джет» имеет возможность поиска по архиву с учетом морфологического строения русского языка. Эта возможность реализуется с помощью Модуля лексического контекстного поиска в архиве почтовых сообщений. Данный модуль позволяет осуществлять поиск по текстовой части письма. В отличие от модуля контекстного поиска данный модуль позволяет находить в базе письма, содержащие любые грамматические производные от указанного слова.

 

Модуль поставляется исключительно с «Дозор-Джет» Enterprise Edition. Он реализован на основе опции Oracle Text СУБД Oracle и Russian Context Optimizer (RCO). RCO является программным продуктом компании «Гарант-Парк-Интернет» и предлагает лингвистическое обеспечение и алгоритмы, необходимые для выполнения поисковых операций на массивах русскоязычных текстов. Большинство слов русского языка имеют десятки различных грамматических форм, поэтому для их поиска в тексте необходимо использовать морфологический анализатор. Морфологический анализатор RCO позволяет обрабатывать более 110 тысяч слов, заданных в морфологическом словаре, а также любые неизвестные слова, анализируя их по аналогии с похожими известными словами.

 

Как и в случае с модулем контекстного поиска в архиве почтовых сообщений, морфологический поиск осуществляется вне зависимости от исходной кодировки текста. Если почтовое сообщение содержит архив (zip, rar, tar, arj, gzip), то поиск производится по содержимому архивированных файлов.

 

Действия по результатам поиска почтовых сообщений

 

Система «Дозор-Джет» позволяет администратору производить следующие действия над письмами в архиве:

 

  • Осуществить выборку писем из архива;
  • Отправить извлеченное из архива письмо;
  • Сохранить письмо на жесткий диск;
  • Удалить извлеченное из архива письмо.

 

Выборка писем из архива

 

Система “Дозор-Джет” позволяет администратору осуществить выборку из архива почтовых сообщений, отвечающих задаваемым им критериям. Формирование критериев для проведения выборки писем из архива осуществляется с помощью Web-интерфейса. Таким же способом осуществляется просмотр результатов выборки. Маршрутизацию почтовых сообщений, помеченных для отправления, осуществляет внешний почтовый сервер. Выборка из базы данных и ее представление пользователю производится в двух формах: обычной и статистической.

 

 Рисунок 5. Результаты статистической выборки писем

 

Выборка в обычной форме представляет собой набор из двух фреймов (см. рисунок 4). В верхнем – отображаются все почтовые сообщения, выбранные из архива в соответствии с заданными критериями. Нижний фрейм предназначен для просмотра отдельных почтовых сообщений, а также списка пометок почтового сообщения.

 

Помимо обычной формы представления результатов выборки система «Дозор-Джет» поддерживает дополнительную, предназначенную для просмотра статистических параметров почтового обмена (см. рисунок 5). К таким параметрам относятся количество почтовых сообщений, количество вложенных в письмо файлов и объем хранящихся в базе данных писем в байтах.

 

Кроме того, в состав системы входит Модуль статистики и отчетов, который дополняет встроенную в «Дозор-Джет» систему отчетов. Он позволяет получать детальную информацию о почтовом трафике и преобразовывать ее в формат, пригодный для работы в MS Excel. С помощью этого модуля можно анализировать почтовый трафик организации как за относительно большие периоды времени, так и за сутки, что позволяет оперативно корректировать политику использования электронной почты.

Если система «Дозор-Джет» поставляется с СУБД Oracle, то Модуль статистики и отчетов включает в свой состав несколько дополнительных стандартных отчетов для Oracle Reports.

 

Категоризация почтовых сообщений

 

Отличительной особенностью системы «ДозорДжет» является возможность дальнейшей обработки почтовых сообщений на основе полученных из архива данных и результатов анализа почты. Примером этого может служить использование данных из архива для категоризации почтовых сообщений.

 

Категоризация осуществляется при помощи специального модуля. Письма автоматически относятся к той или иной категории на основании ранее выполненного анализа выбранной администратором базы образцов писем. Такая база накапливается в течение определенного периода времени (как правило, один месяц).

 

Далее информация, полученная в ходе анализа базы данных, применяется в фильтре. Каждому встречающемуся в электронной переписке слову или тегу (элементу разметки текста) присваивается два значения: вероятность его наличия в письмах одной категории и вероятность его присутствия в письмах другой категории. Баланс этих двух значений и определяет вероятность того, что письмо, в котором встречаются данные слова и теги, относится к категории, которую мы хотим ему присвоить.

 

Доступ к архиву

 

Большое значение для централизованного архива электронной почты имеет возможность свободного доступа к нему всех пользователей, которым он определен в соответствии с правами доступа. В системе «Дозор-Джет» такую возможность обеспечивает Модуль доступа к архиву электронной почты по протоколу IMAP4. Он предоставляет администраторам и пользователям системы «Дозор-Джет» возможность доступа к почтовому архиву по стандартному протоколу с помощью распространенных пользовательских почтовых клиентов. Такими почтовыми клиентами могут быть любые широко используемые в настоящее время программы, например, MS Outlook, Netscape Messenger, The Bat и т.п.

 

Использование модуля предоставляет администраторам и пользователям системы «ДозорДжет» единый интерфейс доступа как к своей электронной почте, так и к почтовому архиву. Они получают возможность экспортировать письма из архива в свой почтовый ящик путем простого «перетаскивания» писем и соответственно осуществлять необходимую обработку почты.

 

Архив на Oracle

 

Рассмотрим СУБД Oracle в качестве архива электронной почты. В системе «Дозор-Джет» используется СУБД Oracle Database Standard/Enterprise Edition (версии 8.1.7 или 9.2.0). Система функционирует на Unix платформе под управлением ОС Sun Solaris, HP-UX и Linux.

 

СУБД Oracle обеспечивает практически неограниченные возможности по объемам хранения данных. Объем хранимой в архиве информации ограничивается исключительно возможностями аппаратного обеспечения. Опытная эксплуатация базы данных показала, что в режиме on-line с применением дополнительных дисковых массивов возможно хранение до 1 терабайта информации. При этом сохраняется высокий уровень доступности данных. Применение дополнительных возможностей, в том числе опции сегментирования (Partitioning) и экспорта части данных на внешние носители, позволяет обеспечить долговременное хранение почтовых сообщений общим объемом 1 петабайт в течение десяти и более лет.

 

В системе «Дозор-Джет» используются следующие опции СУБД Oracle: Partition, Bitmap index, Automated parallel query degree, Export transportable tablepsace, Oracle Text. На базе данных опций были созданы дополнительные модули к системе:

 

  • Модуль сегментирования архива почтовых сообщений;
  • Модуль контекстного поиска в архиве почтовых сообщений;
  • Модуль лексического контекстного поиска в архиве почтовых сообщений.

 

Архив на PostgreSQL

 

Рассмотрим СУБД PostgreSQL в качестве архива электронной почты системы «Дозор-Джет». СУБД PostgreSQL используется только в версии «ДозорДжет» Lite, предназначенной для малых и средних компаний, количество почтовых ящиков в которых не превышает 250. СУБД PostgreSQL функционирует на ОС Linux (дистрибутивы RedHat 8.x, 9.0, Fedora Core; RedHat Enterprise Linux 3.0, 2.1; ALTLinux Master 2.0, 2.2, Утес-К; Mandrake 8.x).

 

По своим характеристикам, а также выполняемым задачам, СУБД PostgreSQL практически не отличается от СУБД Oracle. Она уступает ей лишь по производительности. Так максимальное количество писем, хранимых в базе данных, может достигать 300 000.

 

Кроме того, поскольку часть функций архива почтовых сообщений построено на опциях СУБД Oracle, в «Дозор-Джет» версии Lite не применяются модули сегментирования, контекстного поиска и лексического контекстного поиска в архиве почтовых сообщений. Однако в ближайшем будущем планируется реализация на СУБД PostgreSQL возможности полнотекстового поиска по архиву почтовых сообщений.

 

Надежность и производительность архива

 

Архив «Дозор-Джет» является надежной и производительной системой.

 

Надежная работа обеспечивается за счет системы мониторинга ресурсов системы. Мониторинг предполагает наблюдение за всеми процессами, происходящими в системе и оказывающими влияние на ее работоспособность, а также обеспечивает возможность управления системой и ее конфигурациями в режиме реального времени. С этой целью в состав «Дозор-Джет» включен отдельный административный веб-сервер, который и обеспечивает данные функции. Система мониторинга отслеживает следующие параметры состояния «Дозор-Джет», которые влияют на надежность архива почтовых сообщений:

 

  • свободное место в спуле архивирования (Мб);
  • количество сообщений в спуле архивирования;
  • наличие сервиса архивирования;
  • доступность сервера баз данных;
  • свободное место, доступное для базы данных (Мб);
  • средняя загрузка (за 5 мин);
  • время ожидания и время обработки писем;
  • количество процессов, завершившихся с ошибкой.

 

Рисунок 6. Мониторинг ресурсов системы

 

Кроме того, наличие спула архивирования позволяет осуществлять временную остановку базы данных, например, для проведения регламентных работ. Спул повышает надежность системы в целом, поскольку предотвращает остановку работы «Дозор-Джет» при сбое СУБД.

 

Производительность СУБД также обеспечивается за счет улучшения системы поиска писем в архиве почтовых сообщений.

 

Модернизация архива

 

Особое внимание разработчики системы «ДозорДжет» уделяют усовершенствованию работы с архивом электронной почты. Такое усовершенствование предполагает:

 

  • Модернизацию системы поиска;
  • Обновление системы «Дозор-Джет», работающей с СУБД PostgreSQL;
  • Реализацию возможности полнотекстового поиска в системе «Дозор-Джет», версии Lite;
  • Улучшение функции мониторинга свободногоместа в архиве (СУБД Oracle);
  • Создание версий «Дозор-Джет», работающих с СУБД DB2 и MS SQL Server.

 

Модернизация системы поиска

 

Модернизация системы поиска предполагает:

 

  • Создание новых действий, позволяющих осуществлять работу над письмами в архиве; • Реализацию функции, дающей возможность создавать новые блоки запросов из заранее сформированных;
  • Редактирование прав доступа для писем в архиве;
  • Реализацию функции, обеспечивающей дополнительный поиск в уже осуществленной выборке почтовых сообщений;
  • Поиск по спискам слов;
  • Отправку писем из архива на другой адрес.

 

Обновление системы «Дозор-Джет», работающей с СУБД PostgreSQL

 

Обновление предусматривает выпуск версии системы «Дозор-Джет», работающей с СУБД PostgreSQL 7.4.х. Это предоставляет следующие преимущества по сравнению с предыдущей версией:

 

1. Увеличение производительности работы с архивом электронной почты, что позволит при увеличении размера архива не терять скорость работы с ним.

2. Увеличение размера архива электронной почты. В архиве появится возможность хранить до 600 000 писем.

 

Улучшение функции мониторинга свободного места в архиве (СУБД Oracle)

 

В условиях постоянно растущих объемов почтового потока особое внимание необходимо уделять архиву электронной почты. Основной проблемой, с которой приходится сталкиваться при сопровождении архива, является контроль наличия свободного пространства на дисках. Такой контроль позволяет обеспечить система мониторинга свободного пространства в базе данных. Модернизация этой системы позволит точнее оценивать свободное пространство в базе данных и поможет обеспечить надежную работу с архивом электронной почты.

 

СРАВНЕНИЕ С ДРУГИМИ СИСТЕМАМИ

 

Существенная и постоянно растущая роль электронной почты в современных бизнес-процессах привела к значительному спросу на средства управления и архивирования электронной почтой. На рынке информационных технологий появилось много продуктов, которые способны решать проблемы, связанные с управлением почтовым потоком. К таким средствам относятся системы типа «Enterprise Content Management» и «Secure Content Management». Эти два типа систем продуктов различаются по задачам и применяемым технологиям.

 

Основная задача продуктов, относящихся к типу «Enterprise Content Management», заключается в управлении электронной почтой. При этом архив является одним из средств выполнения данной задачи. К таким продуктам относятся:

 

  • Enterprise Vault, компании KVS Inc.
  • Assentor, компании iLumin Software Services Inc.
  • Ixos 6 Suite, компании Ixos Software AG/OpenText Corp.
  • CommonStore for Exchange, компании IBM
  • Exchange Archive Solution, компании Educom TS Inc.
  • EmailXtender, компании EMC Corp./Legato Software (продажи осуществляются через Hewlett-Packard и IBM).

 

Основная задача продуктов, относящихся к типу «Secure Content Management» обеспечение безопасности электронной почты. Во многих продуктах создание архива электронной почты является дополнительной задачей. К таким продуктам относятся:

 

  • MAILSweeper, компании ClearSwift;
  • eSafe Mail, компании Aladdin Knowledge System;
  • MailMarshal, компании Marshal Software Ltd;
  • Secure Mail, компании Tumbleweed Communications.

 

Система «Дозор-Джет» занимает среди данного типа продуктов промежуточное место, поскольку способна выполнять функции как одного, так и другого типа продуктов. Она предназначена для обеспечения полного контроля над системой электронной почты, что предполагает защиту от угроз, связанных с использованием электронной почты; является средством создания централизованного архива электронной почты, а также позволяет создать необходимые условия для гибкого управления почтовым потоком.

 

То есть исходя из задач, которые способна решать система «Дозор-Джет», она является средством реализации политики использования электронной почты в части, касающейся как безопасности, так и управления почтой.

 

В отличие от продуктов типа «Enterprise Content Management», система «Дозор-Джет» способна осуществлять рекурсивную декомпозицию почтовых сообщений, а главное – их анализ, по результатам которого принимается решение: помещать почтовое сообщение в архив или нет. Декомпозиция позволяет осуществлять, во-первых, категоризацию писем по их содержимому, а во-вторых, отсеивать почту, не имеющую отношения к деятельности компании. Это в конечном итоге позволяет значительно оптимизировать управление почтовым потоком. В других почтовых архивах фильтрующий компонент отсутствует, поэтому фильтрация писем перед помещением их в архив не осуществляется.

 

Система «Дозор-Джет» предоставляет уникальные возможности по поиску писем в архиве, поскольку имеет средства осуществления контекстного, морфологического и атрибутивного поиска почтовых сообщений.

 

Кроме того, перед помещением в архив почтовые сообщения проверяются на отсутствие вирусов, «троянских» программ, «запрещенного» и конфиденциального содержимого, что позволяет обеспечить соответствующий уровень безопасности хранения электронной почты.

 

Помещение писем в архив в продуктах типа «Enterprise Content Management» осуществляется по ограниченному количеству атрибутов. Как правило, это: адресат/получатель, тема письма, наименование и тип файлов-приложений, в то время как система «Дозор-Джет» обеспечивает архивацию по всем атрибутам почтовых сообщений.

 

Если сравнивать систему «Дозор-Джет» с продуктами типа «Secure Content Management», необходимо сказать, что создание архива электронной почты в такого типа системах является скорее побочной, чем основной задачей, в то время, как в «Дозор-Джет» создание и управление архивом почты является одной из основных задач. «ДозорДжет» это единственная система на рынке средств контроля содержимого, которая имеет полноценный архив. Входящая в состав «Дозор-Джет» подсистема архивирования относится к СУБД промышленного уровня. Архив обеспечивает хранение в режиме on-line большого количества корпоративной электронной почты с высоким уровнем доступности данных и долговременное хранение сообщений в течение десяти лет и более. Архив предоставляет широкий спектр возможностей по хранению и поиску писем. Из таких возможностей необходимо отметить контекстный поиск по архиву, поиск по архиву с учетом морфологического строения русского языка, разделение архива на исторические области (Partitioning), экспорт электронной почты на внешние носители.

 

Однако главное отличие системы «ДозорДжет» заключается в том, что она предоставляет возможность дальнейшей обработки почтовых сообщений на основе полученных из архива данных и результатов анализа почты. Эта функциональность не доступна таким продуктам как MAILSweeper, eSafe Mail и MailMarshal. Эти системы либо не имеют в своем составе архива электронной почты вообще, либо производят архивацию сообщений в виде файла. В архив письмо помещается только целиком. Отсутствуют возможности проведения анализа содержимого писем, не говоря уже о возможностях полнотекстового поиска. Поиск в архиве осуществляется только по ограниченному количеству атрибутов письма: адресату/получателю, теме письма, дате получения/отправки, типу и наименованию файлов-приложений.

Основным преимуществом системы «ДозорДжет» по сравнению со всеми типами названных продуктов является ее способность эффективно работать с текстами в русскоязычных кодировках, где бы эти тексты ни размещались (в теле письма, приложении или в сжатом архивном файле). Продукты иностранного производства в настоящее время не способны обеспечить качественную обработку русскоязычных текстов.

 

И, наконец, система мониторинга и архивирования почтовых сообщений “Дозор-Джет” соответствует всем российским стандартам, о чем свидетельствует сертификат No 465 от 14.06.2001 Государственной технической комиссии при Президенте Российской Федерации.

Уведомления об обновлении тем – в вашей почте

"Дозор-Джет" демонстрирует новый рекорд производительности

Специалисты компании "Инфосистемы Джет" провели тестирования продуктов линейки "Дозор-Джет" на новой платформе Sun Microsystems — серверах Sun Fire Т1000/Т2000 с технологией CoolThreads.

Интеграционные решения Oracle: обзор важнейших направлений

Когда речь заходит об интеграции, в голове обычного представителя ИТ-профессии начинает проноситься куча понятий: сервисы, шина данных, единый интерфейс, консолидация данных, сквозные процессы, единая точка входа и т.д.

Шлюзы как средство интеграции баз данных. Практический подход

Практика показывает, что сейчас в целом завершается этап создания оперативных баз данных организаций. В том или ином виде (в виде персональных или промышленных реляционных БД) во многих из них сформировались центры актуальных данных, ...

«Нам важен каждый клиент, мы стремимся, чтобы он получил качественный сервис»

Николай Яшин рассказал о том, какое место непрерывность бизнеса занимает в компании «ЛУКОЙЛ-Интер-Кард»

Интеллектуальное хранение

Пакет решений Symantec Veritas Storage Foundation (VxSF) на сегодняшний день является одним из лидирующих продуктов Enterprise-уровня для управления хранением данных.

Оптимально, основательно, OLAP

В процессе своей деятельности финансовые учреждения, бизнес-корпорации, промышленные предприятия, органы государственной власти накапливают значительные объемы данных. Они хранят в себе большие потенциальные возможности по извлечению аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые пути развития.

Рисковать по системе

В настоящее время риск-менеджмент в российской банковской системе как область стандартизации и средство повышения эффективности работы кредитно-финансовой организации является одним из самых актуальных направлений деятельности

Автоматизация бизнес-процессов? Siebel Task UI спешит на помощь

Работая на проектах, мы часто сталкиваемся с ситуацией, когда клиент, выбирая решение Oracle Siebel CRM, ожидает, что после внедрения CRM-системы все сотрудники его компании сразу начнут работать в новом интерфейсе по привычным им бизнес-процессам.

Спасибо!
Вы подписались на обновления наших статей
Предложить
авторский материал





    Спасибо!
    Вы подписались на обновления наших статей
    Подписаться
    на тему







      Спасибо!
      Вы подписались на обновления наших статей
      Оформить
      подписку на журнал







        Спасибо!
        Вы подписались на обновления наших статей
        Оформить
        подписку на новости







          Спасибо!
          Вы подписались на обновления наших статей
          Задать вопрос
          редактору








            Оставить заявку

            Мы всегда рады ответить на любые Ваши вопросы

            * Обязательные поля для заполнения

            Спасибо!

            Благодарим за обращение. Ваша заявка принята

            Наш специалист свяжется с Вами в течение рабочего дня