Язык С (Керниган, Ричи). Язык сиБ. В. Керниган, Д. М. Ричи
Скачать 1.46 Mb.
|
19.2. Область действия внешних идентификаторов Если функция ссылается на идентификатор, описанный как EXTERN, то где-то среди файлов или библиотек, образующих полную программу, должно содержаться внешнее определение этого идентификатора. Все функции данной программы, которые ссылаются на один и тот же внешний идентификатор, ссылаются на один и тот же объект, так что следует позаботиться, чтобы специфицированные в этом определении тип и размер были совместимы с типом и размером, указываемыми в каждой функции, которая ссылается на эти данные. Появление ключевого слова EBTERN во внешнем определении указывает на то, что память для описанных в нем идентификаторов будет выделена в другом файле. Следовательно, в состоящей из многих файлов программе внешнее определение идентификатора, не содержащее спецификатора EXTERN, должно появляться ровно в одном из этих файлов. любые другие файлы, которые желают дать внешнее определение этого идентификатора, должны включать в это определение слово EXTERN. Идентификатор может быть инициализирован только в том описании, которое приводит к выделению памяти. Идентификаторы, внешнее определение которых начинается со слова STATIC, недоступны из других файлов. Функции могут быть описаны как STATIC. 20. Строки управления компилятором Компилятор языка “C” содержит препроцессор, который позволяет осуществлять макроподстановки, условную компиляцию и включение именованных файлов. Строки, начинающиеся с #, общаются с этим препроцессором. Синтаксис этих строк не связан с остальным языком; они могут появляться в любом месте и их влияние распространяется (независимо от области действия) до конца исходного программного файла. 20.1. Замена лексем Управляющая компилятором строка вида #DEFINE идентификатор строка-лексем (Обратите внимание на отсутствие в конце точки с запятой) приводит к тому, что препроцессор заменяет последующие вхождения этого идентификатора на указанную строку лексем. Строка вида #DEFINE идентификатор (идентификатор,...,идентификатор)строка лексем где между первым идентификатором и открывающейся скобкой ( нет пробела, представляет собой макроопределение с аргументами. Последую- 218 «Язык С» Б.В. Керниган, Д.М. Ричи щее вхождение первого идентификатора, за которым следует открывающая скобка ‘(‘, последовательность разделенных запятыми лексем и закрывающая скобка ‘)’, заменяются строкой лексем из определения. каждое вхождение идентификатора, упомянутого в списке формальных параметров в опреде- лении , заменяется соответствующей строкой лексем из обращения. Факти- ческими аргументами в обращении являются строки лексем, разделенные запятыми; однако запятые, входящие в закавыченные строки или заклю- ченные в круглые скобки, не разделяют аргументов. Количество формальных и фактических параметров должно совпадать. Текст внутри строки или символьной константы не подлежит замене. В обоих случаях замененная строка просматривается снова с целью обнаружения других определенных идентификаторов. В обоих случаях слишком длинная строка определения может быть продолжена на другой строке, если поместить в конце продолжаемой строки обратную косую черту \ . Описываемая возможность особенно полезна для определения “объявляемых констант”, как, например, #DEFINE TABSIZE 100 INT TABLE[TABSIZE]; Управляющая строка вида #UNDEF идентификатор приводит к отмене препроцессорного определения данного иден- тификатора. 20.2. Включение файлов Строка управления компилятором вида #INCLUDE “FILENAME” приводит к замене этой строки на все содержимое файла с именем FILENAME. Файл с этим именем сначала ищется в справочнике начального исходного файла, а затем в последовательности стандартных мест. В отличие от этого управляющая строка вида #INCLUDE ищет файл только в стандартных местах и не просматривает справочник исходного файла. Строки #INCLUDE могут быть вложенными. 20.3. Условная компиляция Строка управления компилятором вида «Язык С» Б.В. Керниган, Д.М. Ричи 219 #IF константное выражение проверяет, отлично ли от нуля значение константного выражения (см. П. 15). Управляющая строка вида #IF DEF идентификатор проверяет, определен ли этот идентификатор в настоящий момент в препроцессоре, т.е. Определен ли этот идентификатор с помощью управляющей строки #DEFINE. 21. Неявные описания Не всегда является необходимым специфицировать и класс памяти и тип идентификатора в описании. Во внешних определениях и описаниях формальных параметров и членов структур класс памяти определяется по контексту. Если в находящемся внутри функции описании не указан тип, а только класс памяти, то предполагается, что идентификатор имеет тип INT; если не указан класс памяти, а только тип, то идентификатор предполагается описанным как AUTO. Исключение из последнего правила дается для функций, потому что спецификатор AUTO для функций является бессмысленным (язык “C” не в состоянии компилировать программу в стек); если идентификатор имеет тип “функция, возвращающая ...”, то он предполагается неявно описанным как EXTERN. Входящий в выражение и неописанный ранее идентификатор, за которым следует скобка ( , считается описанным по контексту как “функция, возвращающая INT”. 22. Снова о типах В этом разделе обобщаются сведения об операциях, которые можно применять только к объектам определенных типов. 22.1. Структуры и объединения Только две вещи можно сделать со структурой или объединением: назвать один из их членов (с помощью операции) или извлечь их адрес ( с помощью унарной операции &). Другие операции, такие как присваивание им или из них и передача их в качестве параметров, приводят к сообщению об ошибке. В будущем ожидается, что эти операции, но не обязательно какие-либо другие, будут разрешены. В п. 15.1 Говорится, что при прямой или косвенной ссылке на структуру (с помощью . Или ->) имя справа должно быть членом структуры, названной или указанной выражением слева. Это ограничение не навязывается строго компилятором, чтобы дать возможность обойти правила типов. В действи- тельности перед ‘.’ допускается любое L-значение и затем предполагается, что это L-значение имеет форму структуры, для которой стоящее справа имя 220 «Язык С» Б.В. Керниган, Д.М. Ричи является членом. Таким же образом, от выражения, стоящего перед ‘->’, требуется только быть указателем или целым. В случае указателя предполага- ется, что он указывает на структуру, для которой стоящее справа имя явля- ется членом. В случае целого оно рассматривается как абсолютный адрес соответствующей структуры, заданный в единицах машинной памяти. Такие структуры не являются переносимыми. 22.2. Функции Только две вещи можно сделать с функцией: вызвать ее или извлечь ее адрес. Если имя функции входит в выражение не в позиции имени функции, соответствующей обращению к ней, то генерируется указатель на эту функцию. Следовательно, чтобы передать одну функцию другой, можно написать INT F(); G(F); Тогда определение функции G могло бы выглядеть так: G(FUNCP) INT(*FUNCP)(); \( (*FUNCP)(); \) Обратите внимание, что в вызывающей процедуре функция F должна быть описана явно, потому что за ее появлением в G(F) не следует скобка ( . 22.3. Массивы, указатели и индексация Каждый раз, когда идентификатор, имеющий тип массива, появляется в выражении, он преобразуется в указатель на первый член этого массива. Из- за этого преобразования массивы не являются L-значениями. По определению операция индексация [] интерпретируется таким образом, что E1[E2] считается идентичным выражению *((е1)+(е2)). Согласно правилам преоб- разований, применяемым при операции +, если E1 - массив, а е2 - целое, то е1[е2] ссылается на е2-й член массива е1. Поэтому несмотря на несимметричный вид операция индексации является коммутативной. В случае многомерных массивов применяется последовательное правило. Если е является N-мерным массивом размера I*J*...*K, то при появлении в выражении е преобразуется в указатель на (N-1)-мерный массив размера J*...*K. Если операция * либо явно, либо неявно, как результат индексации, «Язык С» Б.В. Керниган, Д.М. Ричи 221 применяется к этому указателю, то результатом операции будет указанный (N-1)-мерный массив, который сам немедленно преобразуется в указатель. Рассмотрим, например, описание INT X[3][5]; Здесь X массив целых размера 3*5. При появлении в выражении X преобразуется в указатель на первый из трех массивов из 5 целых. В выражении X[I], которое эквивалентно *(X+I), сначала X преобразуется в указатель так, как описано выше; затем I преобразуется к типу X, что вызывает умножение I на длину объекта, на который указывает указатель, а именно на 5 целых объектов. Результаты складываются, и применение косвенной адресации дает массив (из 5 целых), который в свою очередь преобразуется в указатель на первое из этих целых. Если в выражение входит и другой индекс, то таже самая аргументация применяется снова; результатом на этот раз будет целое. Из всего этого следует, что массивы в языке “C” хранятся построчно ( последний индекс изменяется быстрее всего) и что первый индекс в описании помогает определить общее количество памяти, требуемое для хранения массива, но не играет никакой другой роли в вычислениях, связанных с индексацией. 22.4. Явные преобразования указателей Разрешаются определенные преобразования, с использованием указателей , но они имеют некоторые зависящие от конкретной реализации аспекты. Все эти преобразования задаются с помощью операции явного преобразо- вания типа; см. П. 15.2 и 16.7. Указатель может быть преобразован в любой из целочисленных типов, достаточно большой для его хранения. Требуется ли при этом INT или LONG, зависит от конкретной машины. Преобразующая функция также является машинно-зависимой, но она будет вполне естественной для тех, кто знает структуру адресации в машине. Детали для некоторых конкретных машин приводятся ниже. Объект целочисленного типа может быть явным образом преобразован в указатель. такое преобразование всегда переводит преобразованное из указателя целое в тот же самый указатель, но в других случаях оно будет машинно-зависимым. Указатель на один тип может быть преобразован в указатель на другой тип. Если преобразуемый указатель не указывает на объекты, которые подходящим образом выравнены в памяти, то результирующий указатель может при использовании вызывать ошибки адресации. Гарантируется, что указатель на объект заданного размера может быть преобразован в указатель на объект меньшего размера и снова обратно, не претерпев при этом изменения. Например, процедура распределения памяти могла бы принимать запрос на размер выделяемого объекта в байтах, а возвращать указатель на символы; 222 «Язык С» Б.В. Керниган, Д.М. Ричи это можно было бы использовать следующим образом. EXTERN CHAR *ALLOC(); DOUBLE *DP; DP=(DOUBLE*) ALLOC(SIZEOF(DOUBLE)); *DP=22.0/7.0; Функция ALLOC должна обеспечивать (машинно-зависимым способом), что возвращаемое ею значение будет подходящим для преобразования в указатель на DOUBLE; в таком случае использование этой функции будет переносимым. Представление указателя на PDP-11 соответствует 16-битовому целому и измеряется в байтах. Объекты типа CHAR не имеют никаких ограничений на выравнивание; все остальные объекты должны иметь четные адреса. На HONEYWELL 6000 указатель соответствует 36-битовому целому; слову соответствует 18 левых битов и два непосредственно примыкающих к ним справа бита, которые выделяют символ в слове. Таким образом, указатели на символы измеряются в единицах 2 в степени 16 байтов; все остальное измеряется в единицах 2 в степени 18 машинных слов. Величины типа DOUBLE и содержащие их агрегаты должны выравниваться по четным ад- ресам слов (0 по модулю 2 в степени 19). Эвм IBM 370 и INTERDATA 8/32 сходны между собой. На обеих машинах адреса измеряются в байтах; элементарные объекты должны быть выровнены по границе, равной их длине, так что указатели на SHORT должны быть кратны двум, на INT и FLOAT - четырем и на DOUBLE - восьми. Агрегаты выравниваются по самой строгой границе, требуемой каким-либо из их элементов. 23. Константные выражения В нескольких местах в языке “C” требуются выражения, которые после вычисления становятся константами: после вариантного префикса CASE, в качестве границ массивов и в инициализаторах. В первых двух случаях выражение может содержать только целые константы, символьные константы и выражения SIZEOF, возможно связанные либо бинарными операциями + - * / . % & \! Ч << >> == 1= <> <= >= либо унарными операциями - \^ либо тернарной операцией ?: Круглые скобки могут использоваться для группировки, но не для обращения к функциям. В случае инициализаторов допускается большая (ударение на букву о) свобода; кроме перечисленных выше константных выражений можно также «Язык С» Б.В. Керниган, Д.М. Ричи 223 применять унарную операцию & к внешним или статическим объектам и к внешним или статическим массивам, имеющим в качестве индексов константное выражение. Унарная операция & может быть также применена неявно, в результате появления неиндексированных массивов и функций. Ос- новное правило заключается в том, что после вычисления инициализатор должен становится либо константой, либо адресом ранее описанного внешнего или статического объекта плюс или минус константа. 24. Соображения о переносимости Некоторые части языка “C” по своей сути машинно-зависимы. Следующие ниже перечисление потенциальных трудностей хотя и не являются всеобъем- лющими, но выделяет основные из них. Как показала практика, вопросы, целиком связанные с аппаратным оборудованием, такие как размер слова, свойства плавающей арифметики и целого деления, не представляют особенных затруднений. Другие аспекты аппаратных средств находят свое отражение в различных реализациях. Неко- торые из них, в частности, знаковое расширение (преобразующее отрица- тельный символ в отрицательное целое) и порядок, в котором помещаются байты в слове, представляют собой неприятность, которая должна тщательно отслеживаться. Большинство из остальных проблем этого типа не вызывает сколько-нибудь значительных затруднений. Число переменных типа REGISTER, которое фактически может быть помещено в регистры, меняется от машины к машине, также как и набор допустимых для них типов. Тем не менее все компиляторы на своих машинах работают надлежащим образом; лишние или недопустимые регистровые описания игнорируются. Некоторые трудности возникают только при использовании сомнительной практики программирования. Писать программы, которые зависят от каких- либо этих свойств, является чрезвычайно неразумным. Языком не указывается порядок вычисления аргументов функций; они вычисляются справа налево на PDP-11 и VAX-11 и слева направо на осталь- ных машинах. порядок, в котором происходят побочные эффекты, также не специфицируется. Так как символьные константы в действительности являются объектами типа INT, допускается использование символьных констант, состоящих из нескольких символов. Однако, поскольку порядок, в котором символы приписываются к слову, меняется от машины к машине, конкретная реализа- ция оказывается весьма машинно-зависимой. Присваивание полей к словам и символов к целым осуществляется справо налево на PDP-11 и VAX-11 и слева направо на других машинах. эти различия незаметны для изолированных программ, в которых не разрешено смешивать типы (преобразуя, например, указатель на INT в указатель на CHAR и затем проверяя указываемую память), но должны учитываться при согласовании с 224 «Язык С» Б.В. Керниган, Д.М. Ричи накладываемыми извне схемами памяти. Язык, принятый на различных компиляторах, отличается только незначи- тельными деталями. Самое заметное отличие состоит в том, что используемый в настоящее время компилятор на PDP-11 не инициализирует структуры, которые содержат поля битов, и не допускает некоторые операции присваивания в оп- ределенных контекстах, связанных с использованием значения присваивания. 25. Анахронизмы Так как язык “C” является развивающимся языком, в старых программах можно встретить некоторые устаревшие конструкции. Хотя большинство версий компилятора поддерживает такие анахронизмы, они в конце концов исчезнут, оставив за собой только проблемы переносимости. В ранних версиях “C” для проблем присваивания использовалась форма =ON, а не ON=, приводя к двусмысленностям, типичным примером которых является X = -1 где X фактически уменьшается, поскольку операции = и - примыкают друг к другу, но что вполне могло рассматриваться и как присваивание -1 к X. Синтаксис инициализаторов изменился: раньше знак равенства, с которого начинается инициализатор, отсутствовал, так что вместо INT X = 1; использовалось INT X 1; изменение было внесено из-за инициализации INT F (1+2) которая достаточно сильно напоминает определение функции, чтобы смутить компиляторы. 26. Сводка синтаксических правил Эта сводка синтаксиса языка “C” предназначена скорее для облегчения понимания и не является точной формулировкой языка. 26.1. Выражения Основными выражениями являются следующие: выражение: первичное-выражение * выражение & выражение «Язык С» Б.В. Керниган, Д.М. Ричи 225 - выражение ! Выражение \^ выражение ++ L-значение — L-значение L-значение ++ L-значение — SIZEOF выражение (имя типа) выражение выражение бинарная-операция выражение выражение ? Выражение : выражение L-значение операция-присваивания выражение выражение , выражение первичное выражение: идентификатор константа строка (выражение) первичное-выражение (список выражений необ) первичное-выражение [выражение] L-значение . Идентификатор первичное выражение -> идентификатор L-значение: идентификатор первичное-выражение [выражение] L- значение . Идентификатор первичное-выражение -> идентификатор * выражение (L-значение) Операции первичных выражений () [] . -> имеют самый высокий приоритет и группируются слева направо. Унарные операции * & - ! \^ ++ — SIZEOF(Имя типа) имеют более низкий приоритет, чем операции первичных выражений, но более высокий, чем приоритет любой бинарной операции. Эти операции группируются справа налево. Все бинарные операции и условная операция (прим. Перевод.: условная операция группируется справа налево; это изменение внесено в язык в 1978 г.) группируются слева направо и их приоритет убывает в следующем порядке: Бинарные операции: * / % + - >> << < > <= >= 226 «Язык С» Б.В. Керниган, Д.М. Ричи == != & \^ \! && \!\! ?: Все операции присваивания имеют одинаковый приоритет и груп- пируются справа налево. Операции присваивания: = += -= *= ?= %= >>= <<= &= \^= \!= Операция запятая имеет самый низкий приоритет и группируется слева направо. |