Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
Программы анализа и лингвистической обработки текстов
Название | Автор(ы), Организация | Комментарий |
Link Grammar Parser | John Lafferty | Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около 60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс. |
Проекты Cíbola/Oleada | Computing Research Laboratory (CLR) | Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы. Некоторые версии этих компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и Solaris. |
Russian Morphological Dictionary | Sergey Sikorsky | Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. |
Mystem | Илья Сегалович, | Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов. |
Лингвоанализатор | On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. (Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики). Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту. | |
Программные продукты фирмы LingSoft | LingSoft, Финляндия | Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем. |
Система StarLing | СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные DOS и Windows версии системы. Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (DOS, Windows). | |
Морфологический анализатор | On-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус. яз.) и Мюллера (англ. яз.). | |
MonoConc/ParaConc | Michael Barlow | Коммерческие программы построения различных конкордансов, в том числе и мультиязычных. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями. |
WordSmith Tools | Mike Scott | Программа, предназначенная для построения конкордансов и похожая по функциональности на MonoConc. |
TextAnalyst 2.0 | Научно-производственный инновационный центр "МикроСистемы" | Демо-версия очень интересного инструмента анализа символьных текстов. Позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст. Имеется возможность смыслового поиска фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса. Позволяет анализировать текст путем построения иерархического дерева тем/подтем, затрагиваемых в тексте. Также имеется возможность реферирования текста. |
Galaktika-ZOOM | корпорация Галактика, Москва | Автоматизированная система поиска и аналитической обработки информации. Мощный инструмент анализа и обработки текста (Text Mining), позволяющий извлекать необходимые сведения из огромного объема данных. Это коммерческая система, имеющая клиентов в рекламе, органах управления и средствах массовой информации. |
Лингвистические компоненты, словари и библиотеки классов | Андрей Коваленко | Авторская страничка ведущего разработчика компании оваленко, на которой представлены его лингвистические разработки, реализованные в ряде существующих информационно-поисковых систем - Апорт!, Рэмблер, Мета, системе Пропись 4.0 и других. Можно скачать описания и демо-версии компонентов. |
netXtract | Relevant Software Inc. | Замечательная компонента, подключаемая к Microsoft Internet Explorer (версии 5.0 и выше), которая позволяет в мгновение ока получить упорядоченный индекс слов в загруженном HTML документе. Индекс может быть упорядочен по алфавиту или частоте. Для каждого слова в индексе можно исследовать контекст, в котором это слово встречается. Выбранные слова по желанию заносятся в персональную базу знаний, которая позволяет систематизировать найденные документы удобным образом. Можно скачать бесплатную версию. |
Textual Analysis Computing Tools (TACT) | Library Electronic Text Resource Service | Пакет программ обработки ASCII текстов, разработанный группой исследователей из Университета в Торонто. Пакет включает программы для автоматизированной разметки текста; построения упорядоченных списков слов; анализа распределения слов в тексте по длине и частоте; построения конкорданса и другие. К сожалению все программы старые и сделаны для DOS. Однако, имеется on-line версия пакета TACTWeb 1.0 |
Paai's text utilities | Dr. J. J. Paijmans, Нидерланды | Сборник различных утилит и Unix-скриптов для обработки ASCII-текстов. Все программы скомпилированы для использования в Linux. |
WordTabulator v2.2.3 | , 1997-2004 | Программа анализа текстов в среде Windows 9x/NT/2000/XP. Позволяет построить упорядоченные индексы словоформ или словосочетаний заданной размерности для множества входных текстов в ASCII-формате или HTML. Поддерживает основные кириллические кодировки. Возможность поиска с использованием символов маскирования. Имеет встроенный морфологический модуль, позволяюший искать все видоизменения русских слов, заданных базовой формой. Позволяет осушествлять контекстный просмотр результатов, представленных в виде гипертекстового индекса. Возможность анализа двух текстовых корпусов на сходство или различие. Freeware! |
Худломер | Леонид Делицын | Худломер - это метод автоматической классификации функционального стиля текста на основе спектров длин слов. Программа, реализующая классификацию, написана на языке JavaScript (первоначальная версия была на Perl) и доступна on-line. Программа определяет следующие стили: разговорный стиль, стиль художественной литературы, газетно-информационный стиль, научно-деловой стиль. Автор Худломера - президент конкурса русской сетевой литературы ТЕНЕТА-РИНЕТ'2000, Леонид Делицин. |
Свежий взгляд/Fresh Eye | Дмитрий Кирсанов | DOS-утилита, реализующая стилистическую проверку русскоязычных текстов. Программа отыскивает в тексте места, где фонетически и морфологически схожие слова расположены в непосредственной близости, что порождает так называемую паронимию или "нечаянную тавтологию". Программа распространяется без каких-либо ограничений вместе с исходным текстом на C. Есть версия для OS/2. |
URS версия 1.1 | , | Unique Record Set Management utility, Win9x/NT/2000. Утилита для построения и обработки словарных частотных индексов. Позволяет обрабатывать входные документы в форматах обычного текста, HTML и MS Word. Возможности анализа и обработки пар словарных индексов как двух множеств. Экспорт результатов в выходной файл. |
WordStat | , 2001 | Бесплатная утилита подсчета частоты встречаемости различных слов в текстовых или html-файлах. Понимает основные русские кодировки, игнорирует html-разметку. |
Алгоритм сравнения текстов | Владимир Чаплинский | Описан простой алгоритм сравнения двух текстов и даны примеры программ на FoxPro. Автор использует данный алгоритм для поиска дубликатов анектодов в своей личной коллекции. |
АОТ (автоматическая обработка текста) | Алексей Сокирко | Сайт, на котором представлены разработки рабочей группы специалистов в области автоматической обработки текста. Среди предлагаемых продуктов: |
Технологии анализа и поиска текстовой информации | RCO | Сайт, на котором представлены разработки московской компании Russian Context Optimizer (*****@***ru). Cреди представленных технологий: |
Textarc | © W. Bradford Paley, Digital Image Design Inc. 2002 | Революционная программа для визуализации и исследования текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Часто встречающиеся слова светятся ярко, а редкие - вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст) и еще звучат в разной тональности. Программа реализована как Java-апплет для броузера. |
MCR DLL v2.0 | Dim | Морфологический модуль в виде DLL-библиотеки, позволяющий осуществлять лемматизацию и морфорлогический анализ для слов русского языка. Работает с морфологическим словарем, построенным на базе словаря Зализняка. Поддерживает функции создания, обновления и работы с дополнительными пользовательскими словарями. Модуль написан на MS Visual C++ и доступен для загрузки с авторского сайта. Freeware! |
Ngram Statistics Package (NSP) | Ted Pedersen | Пакет NSP позволяет идентифицировать в больших корпусах текстов словесные n-граммы с использованием стандартных статистических критериев, таких как тест Фишера на равенство, отношение логарифма вероятности и тест Пирсона хи-квадрат. Позволяет легко задавать дополнительные критерии проверки. NSP написан на языке Perl. Исходный текст распространяется на условиях GNU Copyleft. |
Лемматизатор Мультитран | Мультитран | Лемматизатор, реализующий возможности морфологического модуля системы Мультитран. Загружаемый архив lemm. zip содержит исходный код проекта для MS Visual C++ и словарную базу системы, содержащую около 300.000 основ и 15.000 окончаний для русского языка. Позволяет искать все базовые формы введенного слова с показом его грамматических характеристик. |
FRQDictW. exe | Александр Челмодеев | Программа построения частотного словаря для заданного текста. Теоретически может работать с любыми файлами, содержащими ASCII-текст в кодировке Win-1251. Работает в ОС Windows 9x/ME/NT/XP как консольное приложение. |
Rhymes | Николай Кецарис | Замечательная программа поиска рифм на основе "Грамматического словаря" . При поиске выполняет фонетическое сравнение слов с учетом ударения. Позволяет находить для заданного слова синонимы и антонимы. Общий размер словарной базы Rhymes составляет 100 тыс. слов и 1.7 млн. словоформ. Версии для Windows и Pocket PC. Freeware! |
Russian Link Grammar Parser | Сергей Протасов | On-line парсер русского языка, использующий при разборе предложений Грамматику Связей (Link Grammar). Результатом работы парсера является граф, в котором слова предложения связаны между собой связями. Эти связи позволяют корректно определить морфологические признаки слов в предложении и разрешить возникающую омонимию. Парсер реализован на C и Perl для Unix. |
Синтаксический анализатор естественного текста на русском языке | Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей. | |
Склонятель | Сергей Слепов | Программа "Склонятель" предназначена для склонения слов и словосочетаний на русском языке. Она может быть использована для автоматизации делопроизводства, например, для склонения наименований должностей, предприятий, изделий, материалов и так далее. Программа реализована в виде модуля (библиотеки) для различных платформ - .NET, Win32, FreeBSD. |
Forson, a sentence generation tool | Alfonso Tarantini | Программа генерации синтаксически корректных предложений. Программа управляется входным файлом правил на основе грамматики Bison, что обеспечивает выборочный илм полный контроль предложений. Программа может использоваться для тестирования компиляторов и парсеров или дидактических целей. Реализована для POSIX (Linux/BSD/UNIX-клоны) и Linux операционных систем. |
Идеограф | Идеограф, СПб | Сайт питерской компании ИДЕОГРАФ, на котором представлены уникальные разработки в области анализа текстов и компьютерной лингвистики. |
LeoBilingua | Леонид Бродский | Бесплатная программа, позволяющая генерировать билингва-текст (текст из двух синхронных половинок на разных языках). |
Инструментальные средства МедиаЛигва | © МедиаЛингва, Москва | Инструментальные средства московской компании МедиаЛингва, предназначенные для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации |


