Домой

Институт Экономики Управления и Права курсовая




Скачать 197.54 Kb.
НазваниеИнститут Экономики Управления и Права курсовая
Дата22.12.2012
Размер197.54 Kb.
ТипКурсовая
Содержание
 google rambler google rambler
Тезаурус информационно-поисковый одноязычный
Черный ящик
Торговля на вынос
Таблица менделеева
Электрические машины
Информационно-поисковый тезаурус.
Подобные работы:


МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ КУЛЬТУРЫ И ИСКУССТВ
Институт Экономики Управления и Права


Курсовая работа
по Социальной теории информатики

Тема: "Исследование эффективности поиска в Интернете сведений по теме
"Информационно-поисковые тезаурусы"
    Выполнил:
студент 1-го курса
международного факультета
171 группа
Исмаилова Нармина.


Москва
2009г.

Содержание

Введение
1. Общий список выданных сайтов
2. Таблица поиска в исследованных поисковых машинах
3. Список адресов найденных полезных сайтов
4. Обзор содержания сайтов со ссылками в тексте
5. Заключение


Введение
В дискрипторный словарь было веведенно новое отношение-отношение понятий, описываемыз дескрипторами как целое, а сам словарь получил название информационно-поискового тезауруса. Словом "тезаурус" ранее именовали списки слов,охватывающие все лексическое богатство какого либо источника (Библии, Гомера). Само по себе слово "тезаурус" в греческом языке означает "сокровище". А в словаре ключевых слов (дескрипторов) содержались все слова, допущенные для использования при индексировании, т.е всё лексическое сокровище системы.
Информационно-поисковый тезаурус(ИПТ)- это словарь терминов определённой области знания, в котором между терминами зафиксированы путём ссылок смысловые связи понятий, отражающие взаимодействие (отношение) объектов и явлений действительности. Пользуясь философским языком,можно сказать, что тезаурус отражает онтологию предметной области. Поэтому в последнее время распространилось наименование этого понятия термином "онтология" Системы описания документов и запросов с помощью дескрипторов и информационно-поисковых тезаурусов называют информационно-поисковыми языками дескрипторного типа, или дескрипторными ИПЯ.


1. Общий список найденных сайтов
  Google Rambler
1 http://auto-is.ru/auto_t6r4part2.html http://www.glossary.ru/cgi-bin/gl_sch2.cgi?RIt%28uwsg.outtu-vuoxqui:l!ylngzwzx:
2 http://www.cnshb.ru/iz_ipt.shtm http://www.auto-is.ru/auto_t6r4part2.html
3 http://www.gsnti-norms.ru/norms/common/doc.asp?0&/norms/stands/7_24.htm http://stroy.dbases.ru/Data1/52/52298/index.htm
4 http://www.rasl.ru/e_resours/tezaurus/index.htm http://files.skonline.ru/digest/32819.html?page=1
5 http://www.intuit.ru/department/expert/ontoth/9/ http://www.pravokonst.ru/mybase/element2372
6 http://docs.cntd.ru/document/1200004311 http://tehstandart.com/gost/7.25-2001
7 http://www.finam.ru/dictionary/wordf021CE00013/default.asp?n=1 http://www.tsf.ru/gost/gost_7.25-2001/
8 http://www.gsnti-norms.ru/norms/common/doc.asp?0&/norms/stands/7_74.htm http://www.otd-lab.ru/node/8179
9 http://aidossearch.ru/node/77 http://www.skonline.ru/doc/8174.html
10 http://n-t.ru/ri/ch/pi04.htm http://aidossearch.ru/

11 http://window.edu.ru/window_catalog/pdf2txt?p_id=18880 http://www.nauka-shop.com/mod/shop/productID/7287/
12 http://bankrabot.com/work/work_7775.html http://normativstroy.narod.ru/docs/6891.htm
13 http://www.intuit.ru/department/expert/ontoth/9/ http://delpress.ru/items/04197dp.html
14 http://uisrussia.msu.ru/linguist/_A1_2_4_0_semseti.jsp http://www.complexdoc.ru/lib/%D0%93%D0%9E%D0%A1%D0%A2%207.24-2007
15 http://monax.ru/programming/00090882_0.html http://www.lib.grsu.by/cgi-bin/lib.cgi?menu=doc&path=doc&count=1
16 http://window.edu.ru/window/library?p_rid=41722 http://omskkredit.ru/564.htm
17 http://www.intuit.ru/department/expert/ontoth/ http://web1.law.edu.ru/norm/norm.asp?normID=1167274&subID=100060782,100060783
18 http://parlib.duma.gov.ru/ru/search/index.p http://gostbd.ru/c_001.001.140.020-GOST-7.24-90.html
19 http://www.intuit.ru/department/expert/ontoth/9/2.html http://www.kontrolnaja.ru/dir/dokumentovedenie/28768
20 http://www.gpntb.ru/win/inter-events/crimea94/report/prog_63r.html http://wiki.mvtom.ru/index.php/%D0%94%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B

21 http://www.disszakaz.com/catalog/162149.html http://phin.ru/lib-rar/apr-2008-i/337/index.shtml
22 http://www.rasl.ru/e_resours/tezaurus/lat-P.htm http://www.polyset.ru/GOST/kgs/T6x/
23 http://mars.udsu.ru/index.php?mdl=journal_info&id_journal=12945 http://www.adit.ru/adit2000/papers/paper.asp?nomer=35
24 http://www.lib.ua-ru.net/diss/cont/198598.htm http://web-dip.ru/readyi2a1a2.asp?id=23355
25 http://www.oim.ru/reader@nomer=163.asp http://www.naukapro.ru/osn_udk/obsh_otd.htm
26 http://bse.sci-lib.com/article109420.html http://www.raspuch.ru/library/pravo/Aktual%27nye_problemy_informacionnogo_prava.html
27 http://www.edu.ru/modules.php?page_id=6&name=Web_Links&l_op=viewlinkinfo&lid=86632 http://ngonb.ru/section/id/65/page339
28 http://uisrussia.msu.ru/linguist/_A1_2_4_0_semseti.jsp http://www.cnshb.ru/metod.shtm
29 http://www.twirpx.com/file/20892/ http://www.arhive-gostov.ru/?n=7&z=3874
30 http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%B7%D0%B0%D1%83%D1%80%D1%83%D1%81 http://www.lawint.ru/LIA/appendix1.htm

31 http://dic.academic.ru/dic.nsf/ruwiki/19894 http://libconfs.narod.ru/2001/2s/s2_p11.html
32 http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2004/part1/NA http://ns1o.narod.ru/f12/p125641.html
33 http://parlib.duma.gov.ru/ru/projects/thesaurus.php http://ekonomdiplom.rosdiplom.ru/readyi2a1a2.asp?id=23355
34 http://www.finam.ru/dictionary/wordf0108600013/default.asp?n=1 http://norm.steps.ru/d-8174.html
35 http://www.rgost.ru/index.php?option=com_content&task=view&id=797&Itemid=28 http://libt.ru/gost/download/gost-7.25-2001.html
36 http://base1.gostedu.ru/9/9291/ http://helpdiplom.ru/readydetail.aspx?work=23355
37 http://www.ref.by/refs/62/13614/1.html http://www.aiportal.ru/articles/other/thesaurus.html
38 http://snipov.net/c_4698_snip_105198.html http://www.profcomdiplom.ru/readydetail.aspx?work=23355
39 http://www.benran.ru/SEMINAR/SEM/Sb_09/doc_311.html http://1gost.jino.ru/doc-18288.html
40 http://aidossearch.ru/node/77 http://www.helpreferat.ru/ready/readyinfo.aspx?type=3&idn=3&idp=72&work=23355


2. Таблица точности поиска в исследованных
поисковых машинах
                                          Полезные Бесполезные
^  GOOGLE RAMBLER GOOGLE RAMBLER
На 1 странице 20% 10% 5% 10%
На 2 странице 15% 5% 10% 15%
На 3 странице 10,5% 5% 15% 20%
На 4 странице 5% 2,5% 25% 25%
Всего 50,5% 22,5% 55% 60,5%


3. Список адресов найденных полезных сайтов в Google
http://auto-is.ru/auto_t6r4part2.html
Информационно-поисковые тезаурусы.
Тезаурус (с греч. "хранилище", "запас", "сокровищница" в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения cинонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.*
* Строгое определение информационно-поискового тезауруса (нормативный словарь дескрипторного ИПЯ с зафиксированными в нем парадигматическими отношениями лексических единиц) приведено в ГОСТ 7.74-96 СИБИД. Информационно-поисковые языки. М.: Изд-во стандартов, 1997.
В более общем плане в тезаурусе выделяют классификационную схему и алфавитный перечень дескрипторов-ключевых слов. Классификационная схема определяет систематизацию дескрипторов по уровням иерархии исходя из "родо-видовых" или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов.
Внешним отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терминов, им соответствующих.
Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности и автоматизации индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поисковых тезаурусов ПОД представлен набором дескрипторов (ключевых терминов). Однако в процессе индексирования документов учитываются семантические (родо-видовые, ролевые, синонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию ПОД и повышает эффективность поиска документов (по точности, полноте и шуму). Еще одной особенностью тезаурусов является применяемая на практике возможность расширения словарной базы новыми ключевыми терминами, появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане различают базовые и рабочие тезаурусы. Базовые тезаурусы выступают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезаурусы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появления в документах новых или специфичных терминов (так называемые профессионализмы, иногда жаргонные термины и т. д.). В результате возникает еще один специфический компонент эксплуатации соответствующих ИПС, называемый ведением тезауруса.

http://www.intuit.ru/department/expert/ontoth/9/
Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов.
Начало разработки информационно-поисковых тезаурусов для различных предметных областей относится к середине 60-х годов. В то время большинство информационных систем не являлись полнотекстовыми, а хранили достаточно ограниченный набор о документе: библиографические данные, реферат. Добавление списка ключевых слов, характеризующих основное содержание документа, существенно расширяло возможности поиска документов. С начала 70-х годов создаются национальные и международные стандарты разработки информационно-поисковых тезаурусов.
Значимость разработки и использования информационно-поисковых тезаурусов значительно снизилась с появлением полнотекстовых информационно-поисковых систем, а также возможностей поиска по всем словам текста с помощью методов ранжированного информационного поиска, поскольку такие системы обеспечивают возможность поиска информации неподготовленному пользователю в любых предметных областях, без предварительных затрат на разработку тезаурусов.
Потенциально использование тезаурусов в качестве средств для описания основного содержания текста позволяет преодолевать многие проблемы пословного поиска, упомянутые в лекции 3, а также проблему, связанную с избытком приписанных тексту слов, которых оказывается так много, что возникает отдельная задача по определению их значимости для данного текста.
Однако многочисленные исследования по определению эффективности различных методов представления документов при информационном поиске показали, что эффективность пословного индексирования сравнима с эффективностью поиска, использующего ручное индексирование по тезаурусу.
Действительно, применение хорошо разработанного тезауруса при ручном индексировании должно снимать проблемы синонимии, близких понятий, многозначности. Однако при этом могут возникнуть существенные различия между понятиями, используемыми в тезаурусе, и информационной потребностью пользователя, когда пользователю трудно сформулировать описание нужных ему текстов посредством понятий тезауруса или тезаурус действительно не содержит адекватных понятий. В этих случаях пословное индексирование имеет преимущество из-за больших выразительных возможностей.
Кроме того, при ручном индексировании серьезную проблему составляет фактор субъективности, когда приписывание тексту терминов тезауруса зависит от умения и опыта индексаторов, от количества текстов, которые необходимо проиндексировать, и т.п.
Тем не менее и в настоящее время существуют информационные службы, имеющие и разрабатывающие информационно-поисковые тезаурусы, а также имеющие штат профессиональных индексаторов, индексирующих документы на основе тезаурусов. Примерами таких организаций являются Исследовательская служба Конгресса США, индексирующая по тезаурусу LIV (Legislative Indexing Vocabulary); Организация по продовольствию и сельскому хозяйству при ООН (FAO Food and Agriculture Organization), разрабатывающая тезаурус AGROVOC; службы Европейского сообщества, использующие для индексирования Европейского законодательства тезаурус EUROVOC и др. Происходит и процесс обновления стандартов разработки тезаурусов.
За прошедшие годы были разработаны и использовались информационными и терминологическими службами сотни тезаурусов, каждый из которых содержит ценную информацию о своей предметной области. Поэтому многие разработчики автоматических информационных систем исследовали вопросы о применении существующих информационно-поисковых тезаурусов при обработке документов в автоматическом режиме. Однако подавляющее большинство экспериментов окончились неудачей: применение информационно-поисковых тезаурусов в процессе автоматического индексирования увеличивало полноту поиска, но резко снижало его точность.
Более того, международный стандарт по разработке одноязычных тезаурусов (ISO 2788) четко указывает, что стандарт должен применяться в организациях, имеющих людей-индексаторов, которые анализируют содержание документов и описывают основные темы документов с помощью терминов тезауруса. "Применение стандарта не предполагает его применение в тех организациях, которые используют полностью автоматические методы индексирования".
Возникает вопрос: почему существующая парадигма разработки информационно-поисковых тезаурусов не дает возможности использовать созданные ресурсы в автоматических режимах индексирования текста? Можно ли и как именно создавать тезаурусы для автоматического индексирования? Для этого необходимо разобраться, какие особенности существующей парадигмы разработки информационно-поисковых тезаурусов не позволяют их использовать в автоматических режимах.
В дальнейшем тексте информационно-поисковые тезаурусы, создаваемые в соответствии с существующими международными и национальными стандартами, будем называть традиционными информационно-поисковыми тезаурусами.
Назначение информационно-поисковых тезаурусов
В различных стандартах и пособиях приводятся разные определения информационно-поисковых тезаурусов. Объемлющее определение информационно-поискового тезауруса можно сформулировать следующим образом:
Информационно-поисковый тезаурус (ИПТ) это контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска.
Основными целями разработки традиционных ИПТ являются следующие:
  обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;
  обеспечение последовательного использования единиц индексирования;
  описание отношений между терминами;
  использование как поискового средства при поиске документов.

http://aidossearch.ru/node/77

Многоязычный информационно-поисковый тезаурус
С помощью АИДОС для ОС ЕС становится возможным обмен информационными сведениями, подготовленными на магнитных лентах, между различными странами. Обмен осуществляется следующим образом [36]. В соответствии с разделением труда партнеры собирают документальные сведения на национальном языке, затем конвертируют эти сведения в определенный формат обмена и передают их друг другу. Определенный партнер, получив эти сведения, конвертирует их в свой входной формат и загружает в свою систему. Одним из условий эффективного обмена данными является многоязычный информационно-поисковый тезаурус (ИПТ).
АИДОС для ОС ЕС обеспечивает накопление, актуализацию и многоязычную распечатку такого ИПТ. Применение ИПТ позволяет проводить многоязычный поиск и перевод дескрипторов при подготовке иностранных сведений, содержащихся в результатах поиска.
Многоязычный ИПТ представляет собой контролируемый и изменяемый набор лексических единиц, который базируется на лексике двух и более естественных языков, содержит семантические связи между лексическими единицами и предназначен для накопления, поиска, редактирования и вывода информации. Частным случаем ИПТ является национальный тезаурус. Национальные варианты многоязычного ИПТ связаны друг с другом с помощью русского языка. Связь с русским языком установлена с помощью ссылок на русские эквиваленты заглавных дескрипторов в дескрипторной статье.
Обязательными структурными элементами такого ИПТ являются: дескрипторы, синонимы, старшие дескрипторы, младшие дескрипторы, ассоциативные дескрипторы и русские дескриторы, эквивалентные дескрипторам национальных вариантов.
Существенное требование к многоязычному ИПТ составляет соответствие национальных вариантов друг другу, которое заключается в том, что в национальных вариантах ИПТ для одинаковых областей информации должны быть разработаны по возможности одинаковые фонды дескрипторов. Это позволит одинаково формулировать поисковые запросы, а также обеспечит перевод дескрипторов иностранных сведений.
В противоположность тезаурусу для АИДОС/ДОС ИПТ АИДОС для ОС ЕС полииерархический, т. е. от одного младшего дескриптора можно установить связи с несколькими старшими дескрипторами. Вместе с элементами тезауруса могут быть накоплены пояснения, которые выборочно распечатываются при выводе тезауруса.


http://www.intuit.ru/department/expert/ontoth/9/2.html
Единицы традиционных информационно-поисковых тезаурусов
Основной единицей тезаурусов являются термины, которые разделяются на дескрипторы (авторизованные термины) и недескрипторы (аскрипторы).
Большинство версий стандартов по ИПТ указывают на связь терминов с понятиями предметной области. По американскому стандарту термин это слово либо словосочетание, обозначающее понятие. Стандарт ISO подчеркивает, что индексирующий термин это представление понятия предпочтительно в форме существительного или именной группы.
При этом понятие рассматривается как единица мысли, которая формируется мысленно для отражения всех или некоторых свойств конкретного или абстрактного, реально существующего или мысленного объекта. Понятия существуют как абстрактные сущности, независимо от терминов, которые их выражают.
Российский ГОСТ рассматривает понятие как форму мышления, отражающую существенные свойства, связи и отношения предметов и явлений, а термином в определении ГОСТа является слово или словосочетание, являющееся точным обозначением определенного понятия какой-либо области знания.
ГОСТ 7.74-96 определяет единицы тезауруса как лексические единицы информационно-поискового языка то есть обозначения отдельного понятия, принятые в информационно-поисковом языке и неделимые в этой функции.
Стоит отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC определили его как термино-ориентированный (term-oriented), что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить.
Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторами или недескрипторами. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы.
Дескрипторы
Дескрипторы тезауруса должны соответствовать выбранной предметной области тезауруса. Каждый дескриптор, внесенный в тезаурус, должен представлять отдельное понятие данной области. Дескриптор может быть однословным или многословным. Поскольку часто бывает достаточно трудно понять, представляет ли отдельное понятие многословное словосочетание, многие тезаурусы и руководства уделяют особое внимание основным принципам включения в тезаурус в качестве дескрипторов многословных терминов.
Набор дескрипторов должен удовлетворять следующим требованиям:
  посредством выделенных дескрипторов должно быть возможно описать темы абсолютного большинства текстов предметной области;
  для уменьшения субъективности индексирования множество дескрипторов не должно включать совокупности близких дескрипторов; для этого формируются классы условной эквивалентности, когда совокупности близких, но различных понятий сводятся к одному дескриптору;
  дескриптор должен быть сформулирован однозначно, его подразумеваемое в рамках тезауруса значение должно быть понятно пользователю. Если однозначный и ясный дескриптор подобрать не удается, термин, взятый в качестве дескриптора, снабжается релятором (краткой пометкой) или комментарием.
Отношения в информационно-поисковом тезаурусе
ГОСТ 7.25 указывает, что основными типами отношений, обычно отражаемых в ИПТ, являются следующие:
  род вид;
  часть целое;
  причина следствие;
  сырье продукт;
  административная иерархия;
  процесс объект;
  функциональное сходство;
  процесс субъект;
  свойство носитель свойства;
  антонимия.
Такие содержательные типы связей между дескрипторами чаще всего не отражаются в подробном перечне отношений тезауруса, а записываются с помощью небольшого набора отношений, которые обычно разделяются на два типа: иерархические и ассоциативные.
Иерархические отношения
По ГОСТУ 7.25-2001 иерархические отношения обладают свойствами транзитивности и антисимметричности, которые могут быть использованы при избыточном индексировании в интересах повышения эффективности информационного поиска. Предпочтительно указывать связи между дескрипторами как отношения иерархического вида, если они обладают этими свойствами. Применяемые в ИПТ иерархические отношения могут дифференцироваться на отдельные виды.
Основным иерархическим отношением, используемым в ИПТ, является родо-видовое отношение (оно же отношение НИЖЕ-ВЫШЕ). По ГОСТУ 7.25-2001 родо-видовая связь устанавливается между двумя дескрипторами, если объем понятия нижестоящего дескриптора входит в объем понятия вышестоящего дескриптора.
Также в качестве иерархического отношения в ИПТ может устанавливаться отношение ЧАСТЬ-ЦЕЛОЕ.
Многие руководства и стандарты подчеркивают, что иерархические отношения в ИПТ должны устанавливаться в тех случаях, когда отношения истинны независимо от контекста только в таких случаях дескрипторы ИПТ могут быть организованы в иерархии. Эта рекомендация связана с тем, что обычно в информационном поиске очень трудно четко определить контекст употребления термина и понять, применимо ли в данном контексте то или иное отношение.
Так, для мышей можно указать, что они грызуны, поскольку это внутренняя характеристика мышей. В то же время неправильно указывать, что мыши вредители, поскольку имеются лабораторные мыши и домашние мыши, которые вредителями не являются.
Рекомендуется использовать тест "все-некоторые". Например, "все мыши являются грызунами, но некоторые мыши являются вредителями".
Ассоциативные отношения
Основное назначение установления ассоциативных отношений между дескрипторами ИПТ указание на дополнительные дескрипторы, полезные при индексировании или поиске.
Отношение ассоциации является неиерархическим и ассоциативным. Ассоциативное отношение наиболее трудно определить. Российский стандарт на создание ИПТ указывает, что "ассоциативное отношение является объединением отношений, не входящих в иерархические отношения или в отношения синонимии. Допускается включать в ассоциативное отношение все виды отношений, кроме синонимии и отношения РОД-ВИД".
Другие источники стараются изложить более подробные принципы установления ассоциативных отношений, поскольку в противном случае отношение будет проставляться непоследовательно.
Американский стандарт описывает наиболее общее правило установления ассоциативного отношения между дескрипторами таким образом: это отношение стоит устанавливать между двумя дескрипторами, если при употреблении одного термина другой термин как бы подразумевается. Один термин может быть необходимым элементом определения другого термина, например, термин клетка составляет необходимую часть определения термина цитология.
Автоматическое индексирование по традиционным информационно-поисковым тезаурусам
Поскольку основными элементами ИПТ являются термины, описанные как дескрипторы и аскрипторы, может показаться, что достаточно просто осуществить автоматическое индексирование по ИПТ путем простого сопоставления дескрипторов и аскрипторов с документами.
Однако для большинства документов такое автоматическое сопоставление не сможет отразить основное содержание документа:
  важные термины документа могут быть не найдены в тезаурусе, поскольку выражены в нем несколько иначе;
  менее значимые термины найдут прямое отражение в тезаурусе и выйдут на первый план и т.п.
Поэтому исследуются более сложные методы автоматизации индексирования по ИПТ.
Одним из подходов для автоматизации индексирования по традиционным ИПТ является подход, основанный на правилах. Такой подход к автоматическому индексированию был реализован по тезаурусу EUROVOC.
Правила могут быть простыми и сложными. Простые правила не содержат условий. Сложные правила содержат такие условия, как Близость (на расстоянии трех слов по тексту, в одном предложении, в том же самом поле, например, в поле реферата), Местонахождение (в заголовке, в тексте реферата или документа, в начале предложения, в конце предложения), Формат (с большой буквы, все большими буквами). Всего было создано около 40 тысяч правил.
В качестве других подходов автоматизации индексирования используются статистические методы.
При таких подходах процесс автоматического приписывания дескрипторов тезауруса EUROVOC полнотекстовым документам включает две стадии.
1. На первой стадии (этап обучения) на основе документов, вручную проиндексированных индексаторами, устанавливается соответствие между словами, встретившимися в тексте документа, и приписанными дескрипторами тезауруса. Соответствие устанавливается на основе статистических мер (chi-square или log-likelihood). Вес соответствия отдельного слова ключевому слову тем выше, чем выше совместная частотность использования данного слова и данного ключевого слова относительно частотности во всей коллекции.
Например, дескриптору тезауруса FISHERY MANAGEMENT соответствуют следующие слова (в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel и т.д.
На второй стадии (собственно индексирование) для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то слово добавляет к весу дескриптора для данного текста натуральный логарифм веса, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов тезауруса.
2. Например, для Резолюции по правам языковых и культурных меньшинств в Европейском союзе были получены следующие дескрипторы (в порядке убывания веса): Community programme, Young person, Cultural policy, CEEC, European Union и т.д.
Индексаторы Европейского Парламента присваивают документу обычно от 3 до 10 дескрипторов.
Выдачу системы можно ограничить по количеству выдаваемых дескрипторов или по весу. Для текста примера присвоенные индексаторами дескрипторы находились в первой тридцатке дескрипторов, присвоенных автоматически (на позициях 3, 8, 9, 16 и 30).
При этом большинство автоматически присвоенных дескрипторов выглядят весьма релевантными тексту документа и только 3 из 40 присвоенных автоматически явно неправильны (например, Кипр).


4. Список адресов найденных полезных сайтов в Rambler
http://www.tsf.ru/gost/gost_7.25-2001/
^ ТЕЗАУРУС ИНФОРМАЦИОННО-ПОИСКОВЫЙ ОДНОЯЗЫЧНЫЙ
Правила разработки, структура, состав и форма представления.

Правила построения информационно-поискового тезауруса
По своему построению ИПТ подразделяют на два типа:
- тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;
- тезаурусы, все ЛЕ которых являются дескрипторами.
Построение ИПТ включает следующие этапы:
- определение тематического охвата ИПТ;
- сбор массива ЛЕ;
- формирование словника ИПТ;
- построение словарных статей и указателей;
- оформление ИПТ;
- экспертиза и регистрация ИПТ.
Определение тематического охвата ИПТ
Определение тематического охвата ИПТ осуществляется на основе Государственного рубрикатора НТИ по ГОСТ 7.49 или Межгосударственного рубрикатора НТИ по ГОСТ 7.77 путем анализа информационной потребности абонентов (потребителей). При анализе состава имеющегося или проектируемого информационного фонда и информационных потребностей абонентов отмечаются все рубрики нижнего уровня Рубрикатора, по которым осуществляется комплектование фондов или которые соответствуют запросам абонентов.
Сбор массива лексических единиц
До начала работ по сбору массива ЛЕ разработчик должен обратиться в депозитарный фонд с целью определения наличия зарегистрированных тезаурусов по заданной тематике.
При наличии таких тезаурусов проводят оценку возможности внедрения их в данной системе.
Первоначальный сбор лексики осуществляется выделением ЛЕ из представительной коллекции документов и/или запросов.
В полученный массив ЛЕ дополнительно должны быть включены соответствующие тематике ЛЕ, выделенные в соответствии с методикой построения данного тезауруса из следующих источников:
Государственного рубрикатора НТИ (ГОСТ 7.49);
рубрикатора соответствующей системы научно-технической информации;
энциклопедических, толковых и терминологических словарей и справочников;
терминологических стандартов;
классификаторов технико-экономической информации;
таблиц Универсальной десятичной классификации (УДК) и других систем классификации;
нормативных (авторитетных) словарей коммуникативных форматов.
Наименования стран и других географических единиц должны соответствовать требованиям ГОСТ 7.67, наименования языков - требованиям ГОСТ 7.75.
Формирование словника ИПТ
4.4.1 В словник ИПТ могут быть включены следующие типы ЛЕ:
одиночные слова (существительные, прилагательные, глаголы, наречия);
именные словосочетания;
лексически значимые компоненты сложных слов;
сокращения слов и словосочетаний.
4.4.2 Допускается включать словосочетания в словник, если в качестве опорного слова они содержат существительное и если выполнено одно из следующих условий:
- значение словосочетания не выводится из значений его компонентов.
Примеры
^ ЧЕРНЫЙ ЯЩИК,
АБСОЛЮТНО ЧЕРНОЕ ТЕЛО,
ЦАРСКАЯ ВОДКА;
- хотя бы один из компонентов словосочетания не употребляется в составе других сочетаний или употребляется всегда в другом смысле.
Примеры
^ ТОРГОВЛЯ НА ВЫНОС,
ЛЕГКАЯ ПРОМЫШЛЕННОСТЬ;
- для данного словосочетания в словнике ИПТ существуют полные синонимы.
Пример
НАТРИЯ ХЛОРИД = ПОВАРЕННАЯ СОЛЬ;
- данное словосочетание является устойчивым словосочетанием с именем собственным.
Примеры
^ ТАБЛИЦА МЕНДЕЛЕЕВА,
ЗАКОН БОЙЛЯ-МАРИОТТА;
- отдельные слова словосочетания имеют слишком широкое значение.
Пример
слово МАШИНЫ в словосочетаниях:
СТРОИТЕЛЬНЫЕ МАШИНЫ,
^ ЭЛЕКТРИЧЕСКИЕ МАШИНЫ;
- для данного словосочетания в словнике ИПТ существует общепринятая аббревиатура.


http://omskkredit.ru/564.htm
^ ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС.
специально организованный нормативный словарь лексических единиц языка информационно-поискового и естественного языка. Цель И. -п. т.- более совершенное и полное индексирование документов и запросов. И.-п. т. позволяет: однозначно переводить тексты с естественного языка на дескрипторный информационно-поисковый язык; находить нужные дескриптора для адекватного выражения информационной потребности; обеспечивать
возможность избыточного индексирования (дополнения поисковых образов документов и запросов дескрипторами, которые по смыслу связаны с осп. дескрипторами); варьировать поисковые образы запросов. Осн. составные части И.-п. т.: 1) лексико-семантическии список дескрипторов и их вариантов (т. н. алфавитная часть И.-п. т.), совмещающий три разных плана организации тезауруса: словарь, задающий перевод ключевых слов естественного языка на дескрипторный информационно-поисковый язык; список классов условной эквивалентности и указатель парадигматических отношений между дескрипторами; 2) указатель иерархических отношений между дескрипторами, где для каждого родового дескриптора приводится полное иерархическое дерево, отражающее все видовые дескрипторы и степени их подчинения; 3) руководство по переводу ключевых слов и словосочетаний естественного языка па дескрипторный информационно-поисковый язык, включающее правила изменений и пополнения И.-п. т. Осн. этапами построения И.-п. т. являются: определение тематического охвата И.-п. т.; сбор исходного массива ключевых слов и их лексикографическая обработка; построение словарных статей (установление отношения условной эквивалентности и выбор дескрипторов, установление парадигматических отношений на мн-ве дескрипторов); оформление информационно-поискового тезауруса.


Заключение
         Просмотрев результаты исследования можно утверждать, что информационно-поисковая система Google эффективней и качественней Rambler , т.к. количество полезных ссылок в нём несколько больше и в число бесполезных - входит больше повторных ссылок на полезные сайты.
  Помимо этого я пришла к выводу что поиск информации в поисковой системе Rambler отнимает больше времени, так как "поисковик" заполнен сайтами с заблокированными акаунтами, и сомнительными сайтами, что значительно осложняет работу.

Скачать 197.54 Kb.
Поиск по сайту:



База данных защищена авторским правом ©dogend.ru 2014
При копировании материала укажите ссылку
обратиться к администрации
Уроки, справочники, рефераты