BigEdu.ru
» » » Латентно-семантический анализ
Вернуться назад

Латентно-семантический анализ

ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ

СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ

Реферат по русскому языку и культуре речи на тему:

«Латентно-семантический анализ»

Работу выполнил:

Студент группы

Работу принял:

Преподаватель

В статье «Латентно-семантический анализ» рассматривается один из методов поиска текстов одной тематики в интернете. Автор статьи, старший инженер-программист в Deutsche Bank, специалист в области ИТ, резидент профессионального портала посвященного ИТ (Информационные технологии) Хабрахабр, Сергей Едунов. Статья опубликована на сайте сообщества http://www.habrahabr.ru/ , а так же в личном блоге Сергея http://www.algorithmist.ru.

Тема статьи, алгоритм поиска текстов схожей тематики «Латентно-семантический анализ». Статья посвящена вопросу поиска информации в интернете, представляет собой обзор реализации алгоритма анализа текстов.

В статье рассматривается способ анализа текстовой информации для облегчения поиска. Сущность проблемы заключается в несовершенстве «обычных» алгоритмов поиска и необходимости в более глубоком анализе.

Статья делится на 3 части. В начале статьи формулируется проблема, ставится задача. Далее дается общая характеристика способа решения данной проблемы. В статье автор затрагивает следующие проблемы, как перечислить все возможные слова и что делать в случае когда в статье есть слова из нескольких классов (тематик) и так называемая проблема омонимов. Автор останавливается на способе отображения текстовой информации в так называемое «семантическое пространство», для облегчения сравнений, анализирует алгоритм.

В основной части излагается сам способ реализации латентно-семантического анализа и семантического пространства. Приводится аргументация в пользу использования математических матриц и их «сингулярного разложения». Так же в статье затронуты способы дальнейшего улучшения алгоритма.

Автор приводит данные подтверждающие его положения о эффективности такого рода анализа, ссылаясь на данные своего исследования. Из графика приведенного в статье видно, что статьи образуют независимые группы. С помощью этих данных можно определять местоположения слов и статей в пространстве и использовать эту информацию для, например, определения тематики статьи.

Автор подводит нас к заключению, что существуют более эффективные способы анализа информации и последующей ее кластеризации.

В итоге хотелось бы отметить актуальность разработки новых способов анализа, которые облегчают поиск в бурно растущем интернет пространстве, так как нынешние способы не эффективны при большом объеме и разнообразии информации. Безусловной заслугой автора является иллюстрация примера реализации и работы алгоритма, а так же идея его улучшения. К достоинствам работы следует отнести достаточную осведомленность автора в описываемой отрасли.

От себя хочу добавить, что многие студенты нашего факультета, жалуются на обилие математики, мотивируя это тем, что эти знания вряд тли понадобятся в их профессиональной деятельности. Данная статья отлично иллюстрирует область применения математических знаний, в частности теории матриц.

Латентно-семантический анализ ( http://habrahabr.ru/blogs/algorithm/110078/)

Как находить тексты похожие по смыслу? Какие есть алгоритмы для поиска текстов одной тематики? – Вопросы регулярно возникающие на различных программистских форумах. Сегодня я расскажу об одном из подходов, которым активно пользуются поисковые гиганты и который звучит чем-то вроде мантры для SEO aka поисковых оптимизаторов. Этот подход называет латентно-семантический анализ (LSA), он же латентно-семантическое индексирование (LSI)

Предположим, перед вами стоит задача написать алгоритм, который сможет отличать новости о звездах эстрады от новостей по экономике. Первое, что приходит в голову, это выбрать слова которые встречаются исключительно в статьях каждого вида и использовать их для классификации. Очевидная проблема такого подхода: как перечислить все возможные слова и что делать в случае когда в статье есть слова из нескольких классов. Дополнительную сложность представляют омонимы. Т.е. слова имеющие множество значений. Например, слово «банки» в одном контексте может означать стеклянные сосуды а в другом контексте это могут быть финансовые институты.

Латентно-семантический анализ отображает документы и отдельные слова в так называемое «семантическое пространство», в котором и производятся все дальнейшие сравнения. При этом делаются следующие предположения:

1) Документы это просто набор слов. Порядок слов в документах игнорируется. Важно только то, сколько раз то или иное слово встречается в документе.

2) Семантическое значение документа определяется набором слов, которые как правило идут вместе. Например, в биржевых сводках, часто встречаются слова: «фонд», «акция», «доллар»

3) Каждое слово имеет единственное значение. Это, безусловно, сильное упрощение, но именно оно делает проблему разрешимой.

Пример

Для примера я выбрал несколько заголовков с различных новостей. Они выбраны не совсем случайно, дело в том, что для случайной выборки потребовался бы очень большой объем данных, что сильно затруднило бы дальнейшее изложение. Итак, было выбрано несколько заголовков.

Первым делом из этих заголовков были исключены, так называемые, с

Внимание, отключите Adblock

Вы посетили наш сайт со включенным блокировщиком рекламы!
Ссылка для скачивания станет доступной сразу после отключения Adblock!

Скачать
Рефераты по культуре и искусству ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ Реферат по русскому языку и культуре речи на тему:
Оценок: 1002 (Средняя 5 из 5)

Наверняка у вас есть товары или услуги, продажа которых приносит вам максимальную прибыль. Для быстрого старта в сети вам необходимо создание посадочной страницы (одностраничного сайта), на которой будет размещена информация о маржинальных товарах/услугах интернет магазина. За 8 лет опыта разработки конверсионных страниц мы выработали оптимальную структуру, которая позволит привлекать через landing page больше продаж. На такую структуру «одевается» ваш контент — фирменный стиль, тексты, фотографии, уникальные торговые предложения, после чего страница выходит в свет. Разработка лендинга и запуск в сети — до 7 рабочих дней. Стоит отметить, что в разработку самой посадочной страницы входит и написание копирайтером продающих текстов для вашего бизнеса, чтобы каждый посетитель страницы захотел совершить покупку именно у вас. Результат: качественно разработаная продающая посадочная страница, которая готова приносить вам новых клиентов.

© 2016 - 2022 BigEdu.ru