• Задать вопрос менеджеру

Twitter новости

Обучение письменному иноязычному общению на основе ИКТ http://t.co/IK2NAjncrk

Online-опрос

Антиплагиат онлайнДипломант
Яндекс.Метрика

Метод представления результатов категоризации электронной почты с использованием протокола IMAP

Предмет:Информатика
Тип:Курсовая
Объем, листов:30
Word
Получить полную версию работы
Релевантные слова:может, почты, папки, случае, папке, одной, папок, работы, работе, помощью, всех, новых, папках, системы, клиента
Процент оригинальности:
53 %
Цена:300 руб.
Содержание:

1 Аннотация 3

2 Введение 4

3 Постановка задачи 6

4 Обзор систем категоризации и организации почты 6

4. 1 Критерии рассмотрения систем 6

4. 2 Системы категоризации почты 7

4. 3 Выводы 12

5. Исследование и построение решения 13

5. 2 Расположение категоризатора 14

5. 3 Связь сообщений в виртуальных папках с физическими сообщениями 15

5. 4 Способ хранения информации о категоризации 16

5. 5 Организация виртуальных папок 17

5. 5. 1 Структура виртуальных папок 17

5. 5. 2 Работа с папками 17

5. 5. 3. Работа с сообщениями в виртуальных папках 18

5. 5. 4. Итоги 21

5. 6. Синхронизация и взаимодействие с категоризатором 22

6 Описание практической части 23

6. 2 Реализация протокола IMAP 23

6. 3 Тестирование и оценка результатов 24

6. 3. 1 Цели тестирования 24

6. 3. 2 Способы тестирования 25

6. 3. 3 Результаты тестирования 25

6. 4 Выводы 28

7. Заключение 28

8. Список литературы 29

Приложение А. Параметры системы, на которой производилось тестирование 30

Вступление:

На сегодняшний день электронная почта является одним из часто используемых способов коммуникации [1]. Число пользователей электронной почты и пересылаемых ими сообщений растет, причем сообщений, не только отправляемых пользователями, но и рассылаемых автоматически (списки рассылки, уведомления). Согласно статистике журнала Time Magazine: в 1994 году всего было отправлено 776 миллиардов сообщений, в 1997 – 2,6 триллиона, в 2000 – 6,6 триллиона [1]. Можно отметить следующие тенденции показателей, характеризующих использование электронной почты [4]: 1) типичный корпоративный пользователь отправляет и получает 167 сообщений в день, среди которых примерно 20% составляют спам-сообщения; 2) в 2009 году в день отправлялось уже около 247 миллиардов сообщений. В этом же исследовании [4] указывается, что около четверти рабочего времени пользователи тратят на работу с электронной почтой. Рост общего числа пересылаемых сообщений приводит к проблеме большого числа сообщений, среди которых находятся сообщения разного происхождения и приоритета для пользователя (например, уведомление с форума и сообщение от руководителя). Основные протоколы доступа к почте (POP3, IMAP) предоставляют иерархическую структуру почтовых папок (mailbox) и доступ к новым полученным сообщениям в специальной папке INBOX, то есть все новые сообщения находятся в одном месте, что затрудняет поиск нужных сообщений. Для решения проблемы большого числа сообщений используется, в том числе, сортировка и группировка сообщений [8]. Категоризация почты - это один из способов группировки сообщений, который заключается в отнесении сообщений по некоторым признакам (например, теме) к одной или нескольким категориям из числа заранее заданных категорий. Категоризация почты приводит к уменьшению времени поиска нужных сообщений, так как они расположены по темам.

Подходы к реализации категоризации электронных сообщений могут быть классифицированы по нескольким критериям. Первым из них является такой параметр, как количество категорий, к которым одновременно может принадлежать одно сообщение. При категоризации одно сообщение может быть отнесено либо к единственной категории (multi-class), либо к произвольному числу категорий одновременно (multi-label). В случае с электронной почтой первый случай может быть реализован, например, как помещение сообщения в одну из почтовых папок соответственно теме его содержания. При multi-label подходе сообщение может помещаться сразу в несколько папок. Очевидно, что второй подход является обобщением первого, при этом обеспечивает большую гибкость при категоризации сообщений, поскольку одно сообщение по своему содержанию зачастую может быть отнесено сразу к нескольким категориям, которыми могут являться как тема сообщения, так и некоторые другие его свойства. В качестве примера можно рассмотреть сообщение по работе (первая категория – название проекта, над которым идет работа) с конфиденциальной информацией для пользователя (вторая категория – конфиденциальные сообщения). Вторым критерием является способ получения решающих правил, с помощью которых определяются категории, которым принадлежит сообщение. Категоризация может быть либо на основе машинного обучения, либо на основе правил (фильтров), задаваемых пользователем в явном виде. В первом случае может также присутствовать возможность автоматической корректировки правил категоризатора с учетом новых поступающих сообщений и действий пользователя (например, исправление ошибки категоризации пользователем путем помещения неправильно категоризованного сообщения в нужную категорию). Такая корректировка правил реализуется с помощью дообучения модели категоризатора, полученной на этапе первичного обучения. Это позволяет пользователю не только исправлять ошибки категоризации, но и настраивать категоризатор так, чтобы этих ошибок в дальнейшем было меньше. В случае с явным заданием правил-фильтров, пользователь берет на себя ответственность за ошибки категоризации. И, наконец, третьим критерием является место расположения категоризатора в системе обращения электронных сообщений, а именно, на каком этапе отправки или получения сообщений производится категоризация. Здесь существует несколько вариантов. Первый из них – на SMTP-сервере (возможно, SMTP-прокси), существуют примеры использования такого варианта для решения задачи фильтрации спам–сообщений (эта задача является частным случаем категоризации). Здесь категоризация происходит перед отправкой сообщений (которая происходит по протоколу SMTP) на конечный сервер клиента. Второй вариант – категоризация в самом клиентском приложении. Третий вариант – встраивание категоризатора в процесс доступа к почте.

Протокол, используемый при работе с почтой (при доставке и получении), налагает свои ограничения на архитектуру категоризатора почты. Среди протоколов получения почты (или доступа к почте) распространенными являются POP3 и IMAP. POP3 описан в [5]. Особенностями POP3 являются: 1) сообщения загружаются с сервера при получении почты и 2) в рамках одной сессии можно работать только с одной почтовой папкой . Протокол IMAP (Internet Message Access Protocol) – это протокол доступа к электронной почте, введенный как альтернатива более раннего POP3. По сравнению с последним он имеет некоторые преимущества, основное среди которых - хранение писем и ассоциированной с ними информации на стороне сервера, а не клиента. Таким образом, сообщения становятся доступными из любого клиента, поддерживающего IMAP, то есть доступ к почте может осуществляться с различных физических машин, из различных почтовых клиентов, которые могут меняться без необходимости переносить ранее полученные сообщения. Другие преимущества IMAP: поддержка работы с несколькими почтовыми папками одновременно, поддержка одновременного доступа нескольких клиентов к одной папке. На данный момент стандарт этого протокола описан в [2]. Протокол IMAP в последнее время получает популярность, о чем говорит появление его поддержки в публичных почтовых серверах (например, в Gmail - c 2007 года, в Yandex – с 2009 года).

Система категоризации почты, которая разрабатывается в лаборатории технологий программирования, должна удовлетворять следующим требованиям: независимость от почтовых клиентов и серверов, поддержка multi-label категоризации (правила и машинное обучение), поддержка популярных почтовых протоколов, доступность для массового использования. Представление результатов категоризации с помощью протокола IMAP является частью системы, отвечающей за поддержку протокола IMAP, поэтому при разработке и реализации метода представления необходимо учитывать требования, предъявляемые к системе.

Заключение:

1) Прокси-сервер является масштабируемым;

2) При увеличении количества пользователей среднее время обработки запроса пользователя при работе с виртуальными папками растут линейно, что может быть связано с возрастанием количества пересылаемых сообщений и обработкой ввода/вывода в одной нити;

3) Рост потребления ресурсов (память, процессор) является линейным при возрастании числа пользовательских сессий, то есть одна пользовательская сессия требует фиксированного числа ресурсов;

4) Существует несколько направлений для оптимизации работы прокси-сервера: во-первых, использование более эффективной, чем SQLite, СУБД, во-вторых, использование нескольких нитей сервера для обработки ресурсоемких операций;

5) Реализация прокси-сервера проведена на языке Python c использованием Twisted Framework [6]. Количество строк кода: 4014, количество строк юнит-тестов: 2360.

7. Заключение

Основными результатами дипломной работы являются:

1) Предложен способ представления результатов категоризации электронной почты с использованием протокола IMAP, проведена реализация в виде модуля системы категоризации почты.

2) Проведена оценка ресурсоемкости (производительность, память) работы модуля в многопользовательском режиме, которая показала возможность его использования в этом режиме и масштабируемость.

Список литературы:

1) Mock, K. 2001. An experimental framework for email categorization and management. Proceedings of the 24th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (New Orleans, Louisiana, United States). SIGIR '01. ACM, New York, NY, 392-393.

2) M. Crispin. RFC3501: Internet Message Access Protocol – version 4rev1 [HTML] (http://www. faqs. org/rfcs/rfc3501. html).

3) P. Resnick. RFC 2822: Internet Message Format [HTML] (http://www. faqs. org/rfcs/rfc2822. html).

4) Исследование-прогноз компании Radicati Group, Inc. (www. radicati. com),

Email Statistics Report Executive Summary, 2009-2013.

5) J. Myers, M. Rose. RFC 1939: Post Office Protocol – Version 3 [HTML] (http://www. faqs. org/rfcs/rfc1939. html).

6) Фреймворк для разработки сетевых приложений Twisted Framework (http://www. twistedmatrix. com).

7) Средство для нагрузочного тестирования Mstone (http://www. mstone. sourceforge. net).

8) S. Perez. Five Methodologies to Deal with Email Overload [HTML] (http://www. readwriteweb. com/archives/five_methodologies_to_deal_with_email_overload. php)

Готовые работы:

Рекомендованные документы: