Unix Man (Справочное руководство)


LEX(1)


LEX(1)

НАЗВАНИЕ


lex - генератор программ простого лексического анализа

СИНТАКСИС

lex [-r] [-c] [-t] [-v] [-n] [файл ...]

ОПИСАНИЕ


Команда lex генерирует программы, которые можно использовать для простого лексического анализа текста.

Входные файлы (по умолчанию - стандартный ввод) содержат цепочки символов и выражения, подлежащие распознаванию, и операторы на языке C, которые выполняются в случае успеха распознавания.

Генерируется программа lex.yy.c. Будучи загруженной вместе с библиотекой, она для каждой распознанной цепочки выполняет соответствующие C-операторы, а остальные фрагменты входного файла копирует в выходной файл без изменений. Распознанная цепочка помещается во внешний символьный массив yytext. Сопоставление цепочек выполняется в том порядке, в котором они указаны в файле. Цепочки символов могут содержать квадратные скобки, которые указывают классы символов (например, [abx-z] означает a, b, x, y и z), и операторы *, + и ?, обозначающие повторение предыдущего символа или класса символов, соответственно, любое неотрицательное число раз, любое положительное число, 0 или один раз. Символ . - это класс всех символов ASCII, кроме перевода строки. В дополнение, поддерживаются скобки (группировка символов) и вертикальная черта (альтернация). Запись r{d,e} в правиле обозначает вхождения регулярного выражения r между d и e. Она имеет больший приоритет, чем |, но меньший, чем *, ?, + и конкатенация. Символ ^ в начале выражения означает, что сопоставление должно начинаться с начала строки, символ $ в конце выражения требует, чтобы следующим символом в сопоставляемой цепочке был символ перевода строки. Символ / в выражении обозначает, что только часть выражения вплоть до наклонной черты помещается в yytext, но оставшаяся часть должна успешно сопоставляться. Символ оператора может использоваться как обычный символ, если он взят в кавычки или если ему предшествует \. Пример: выражение [a-zA-Z]+ успешно сопоставляется с цепочкой букв.

Три подпрограммы определены как макросы: input( ) - прочитать символ; unput(c) - заменить прочитанный символ; output(c) - поместить выходной символ. Все они определены в терминах стандартных потоков, но их описание можно изменить. Генерируемая программа-анализатор называется yylex( ), библиотека содержит программу main( ), которая вызывает анализатор. Действие REJECT в правой части правила обозначает отказ от текущего сопоставления и переход к поиску следующего сопоставления; функция yymore( ) накапливает дополнительные символы в том же массиве yytext; функция yyless(p) выталкивает порцию сопоставленной цепочки символов, начиная с позиции p, которая должна быть между yytext и yytext+yyleng. Макросы input и output используют файлы yyin и yyout для чтения и записи (по умолчанию это файлы stdin и stdout соответственно).

Строки, начинающиеся с пробела, считаются текстом на языке C и копируются в файл lex.yy.c; если они предшествуют строке %%, копирование выполняется в область внешних определений файла lex.yy.c. Все правила, как и в YACC, должны стоять после %%. Строки, стоящие до %% и начинающиеся не с пробела, определяют стоящую слева цепочку символов как остаток строки; данное определение затем можно использовать, указав эту цепочку в фигурных скобках { }. Отметим, что после подстановки скобки исчезнут.

ПРИМЕР




Начало  Назад  Вперед