ээдд. Прохоренок_Н_А__Дронов_В_А_Python_3_и_PyQt_5_Разработка_приложен. Николай Прохоренок Владимир Дронов
Скачать 7.92 Mb.
|
>>> bytes("string\uFFFD", "cp1251", "replace") b'string?' >>> bytes("string\uFFFD", "cp1251", "ignore") b'string' с помощью строкового метода encode([encoding="utf-8"][, errors="strict"]) . Если кодировка не указана, строка преобразуется в последовательность байтов в кодировке UTF-8. В параметре errors могут быть указаны значения "strict" (значение по умолча- нию), "replace" , "ignore" , "xmlcharrefreplace" или "backslashreplace" : >>> "строка".encode() b'\xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0' >>> "строка".encode(encoding="cp1251") b'\xf1\xf2\xf0\xee\xea\xe0' >>> "строка\uFFFD".encode(encoding="cp1251", errors="xmlcharrefreplace") b'\xf1\xf2\xf0\xee\xea\xe0�' >>> "строка\uFFFD".encode(encoding="cp1251", errors="backslashreplace") b'\xf1\xf2\xf0\xee\xea\xe0\\ufffd' Глава 6. Строки и двоичные данные 113 указав букву b (регистр не имеет значения) перед строкой в апострофах, кавычках, трой- ных апострофах или тройных кавычках. Обратите внимание на то, что в строке могут быть только символы с кодами, входящими в кодировку ASCII. Все остальные символы должны быть представлены специальными последовательностями: >>> b"string", b'string', b"""string""", b'''string''' (b'string', b'string', b'string', b'string') >>> b"строка" SyntaxError: bytes can only contain ASCII literal characters. >>> b"\xf1\xf2\xf0\xee\xea\xe0" b'\xf1\xf2\xf0\xee\xea\xe0' с помощью функции bytes(<Последовательность>) , которая преобразует последователь- ность целых чисел от 0 до 255 в объект типа bytes . Если число не попадает в диапазон, возбуждается исключение ValueError : >>> b = bytes([225, 226, 224, 174, 170, 160]) >>> b b'\xe1\xe2\xe0\xae\xaa\xa0' >>> str(b, "cp866") 'строка' с помощью функции bytes(<Число>) , которая задает количество элементов в последова- тельности. Каждый элемент будет содержать нулевой символ: >>> bytes(10) b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00' с помощью метода bytes.fromhex(<Строка>) . Строка в этом случае должна содержать шестнадцатеричные значения символов: >>> b = bytes.fromhex(" e1 e2e0ae aaa0 ") >>> b b'\xe1\xe2\xe0\xae\xaa\xa0' >>> str(b, "cp866") 'строка' Объекты типа bytes относятся к последовательностям. Каждый элемент такой последова- тельности может хранить целое число от 0 до 255 , которое обозначает код символа. Как и все последовательности, объекты поддерживают обращение к элементу по индексу, полу- чение среза, конкатенацию, повторение и проверку на вхождение: >>> b = bytes("string", "cp1251") >>> b b'string' >>> b[0] # Обращение по индексу 115 >>> b[1:3] # Получение среза b'tr' >>> b + b"123" # Конкатенация b'string123' >>> b * 3 # Повторение b'stringstringstring' >>> 115 in b, b"tr" in b, b"as" in b (True, True, False) 114 Часть I. Основы языка Python Как видно из примера, при выводе объекта целиком, а также при извлечении среза, произ- водится попытка отображения символов. Однако доступ по индексу возвращает целое чис- ло, а не символ. Если преобразовать объект в список, то мы получим последовательность целых чисел: >>> list(bytes("string", "cp1251")) [115, 116, 114, 105, 110, 103] Тип bytes относится к неизменяемым типам. Это означает, что можно получить значение по индексу, но изменить его нельзя: >>> b = bytes("string", "cp1251") >>> b[0] = 168 Traceback (most recent call last): File " ", line 1, in TypeError: 'bytes' object does not support item assignment Объекты типа bytes поддерживают большинство строковых методов, которые мы рассмат- ривали в предыдущих разделах. Однако некоторые из этих методов могут некорректно ра- ботать с русскими буквами — в этих случаях следует использовать тип str , а не тип bytes Не поддерживаются объектами типа bytes строковые методы encode() , isidentifier() , isprintable() , isnumeric() , isdecimal() , format_map() и format() , а также операция фор- матирования. При использовании методов следует учитывать, что в параметрах нужно указывать объекты типа bytes , а не строки: >>> b = bytes("string", "cp1251") >>> b.replace(b"s", b"S") b'String' Необходимо также помнить, что смешивать строки и объекты типа bytes в выражениях нельзя. Предварительно необходимо явно преобразовать объекты к одному типу, а лишь затем производить операцию: >>> b"string" + "string" Traceback (most recent call last): File " ", line 1, in TypeError: can't concat bytes to str >>> b"string" + "string".encode("ascii") b'stringstring' Объект типа bytes может содержать как однобайтовые, так и многобайтовые символы. При использовании многобайтовых символов некоторые функции могут работать не так, как предполагалось, — например, функция len() вернет количество байтов, а не символов: >>> len("строка") 6 >>> len(bytes("строка", "cp1251")) 6 >>> len(bytes("строка", "utf-8")) 12 Глава 6. Строки и двоичные данные 115 Преобразовать объект типа bytes в строку позволяет метод decode() . Метод имеет следую- щий формат: decode([encoding="utf-8"][, errors="strict"]) Параметр encoding задает кодировку символов (по умолчанию UTF-8) в объекте bytes , а параметр errors — способ обработки ошибок при преобразовании. В параметре errors можно указать значения "strict" (значение по умолчанию), "replace" или "ignore" . При- мер преобразования: >>> b = bytes("строка", "cp1251") >>> b.decode(encoding="cp1251"), b.decode("cp1251") ('строка', 'строка') Для преобразования можно также воспользоваться функцией str() : >>> b = bytes("строка", "cp1251") >>> str(b, "cp1251") 'строка' Чтобы изменить кодировку данных, следует сначала преобразовать тип bytes в строку, а затем произвести обратное преобразование, указав нужную кодировку. Преобразуем дан- ные из кодировки Windows-1251 в кодировку KOI8-R, а затем обратно: >>> w = bytes("Строка", "cp1251") # Данные в кодировке windows-1251 >>> k = w.decode("cp1251").encode("koi8-r") >>> k, str(k, "koi8-r") # Данные в кодировке KOI8-R (b'\xf3\xd4\xd2\xcf\xcb\xc1', 'Строка') >>> w = k.decode("koi8-r").encode("cp1251") >>> w, str(w, "cp1251") # Данные в кодировке windows-1251 (b'\xd1\xf2\xf0\xee\xea\xe0', 'Строка') В Python 3.5 появились два полезных инструмента для работы с типом данных bytes . Во- первых, теперь можно форматировать такие данные с применением описанного в разд. 6.4 оператора % : >>> b"%i - %i - %f" % (10, 20, 30) b'10 - 20 - 30.000000' Однако здесь нужно помнить, что тип преобразования s (т. е. вывод в виде Unicode-строки) в этом случае не поддерживается, и его использование приведет к возбуждению исключе- ния TypeError : >>> b"%s - %s - %s" % (10, 20, 30) Traceback (most recent call last): File " ", line 1, in TypeError: %b requires a bytes-like object, or an object that implements __bytes__, not 'int' Во-вторых, тип bytes получил поддержку метода hex() , который возвращает строку с шест- надцатеричным представлением значения: >>> b"string".hex() '737472696e67' 116 Часть I. Основы языка Python 6.13. Тип данных bytearray Тип данных bytearray является разновидностью типа bytes и поддерживает те же самые методы и операции (включая оператор форматирования % и метод hex() , описанные ранее). В отличие от типа bytes , тип bytearray допускает возможность непосредственного измене- ния объекта и содержит дополнительные методы, позволяющие выполнять эти изменения. Создать объект типа bytearray можно следующими способами: с помощью функции bytearray([<Строка>, <Кодировка>[, <Обработка ошибок>]]) . Если параметры не указаны, то возвращается пустой объект. Чтобы преобразовать строку в объект типа bytearray , необходимо передать минимум два первых параметра. Если строка указана только в первом параметре, то возбуждается исключение TypeError : >>> bytearray() bytearray(b'') >>> bytearray("строка", "cp1251") bytearray(b'\xf1\xf2\xf0\xee\xea\xe0') >>> bytearray("строка") Traceback (most recent call last): File " ", line 1, in TypeError: string argument without an encoding В третьем параметре могут быть указаны значения "strict" (при ошибке возбуждается исключение UnicodeEncodeError — значение по умолчанию), "replace" (неизвестный символ заменяется символом вопроса) или "ignore" (неизвестные символы игнорируются): >>> bytearray("string\uFFFD", "cp1251", "strict") Traceback (most recent call last): File " ", line 1, in File "C:\Python36\lib\encodings\cp1251.py", line 12, in encode return codecs.charmap_encode(input,errors,encoding_table) UnicodeEncodeError: 'charmap' codec can't encode character '\ufffd' in position 6: character maps to >>> bytearray("string\uFFFD", "cp1251", "replace") bytearray(b'string?') >>> bytearray("string\uFFFD", "cp1251", "ignore") bytearray(b'string') с помощью функции bytearray(<Последовательность>) , которая преобразует последова- тельность целых чисел от 0 до 255 в объект типа bytearray . Если число не попадает в диапазон, возбуждается исключение ValueError : >>> b = bytearray([225, 226, 224, 174, 170, 160]) >>> b bytearray(b'\xe1\xe2\xe0\xae\xaa\xa0') >>> bytearray(b'\xe1\xe2\xe0\xae\xaa\xa0') bytearray(b'\xe1\xe2\xe0\xae\xaa\xa0') >>> str(b, "cp866") 'строка' с помощью функции bytearray(<Число>) , которая задает количество элементов в после- довательности. Каждый элемент будет содержать нулевой символ: Глава 6. Строки и двоичные данные 117 >>> bytearray(5) bytearray(b'\x00\x00\x00\x00\x00') с помощью метода bytearray.fromhex(<Строка>) . Строка в этом случае должна содер- жать шестнадцатеричные значения символов: >>> b = bytearray.fromhex(" e1 e2e0ae aaa0 ") >>> b bytearray(b'\xe1\xe2\xe0\xae\xaa\xa0') >>> str(b, "cp866") 'строка' Тип bytearray относится к изменяемым типам. Поэтому можно не только получить значе- ние по индексу, но и изменить его (что не свойственно строкам): >>> b = bytearray("Python", "ascii") >>> b[0] # Можем получить значение 80 >>> b[0] = b"J"[0] # Можем изменить значение >>> b bytearray(b'Jython') При изменении значения важно помнить, что присваиваемое значение должно быть целым числом в диапазоне от 0 до 255 . Чтобы получить число в предыдущем примере, мы создали объект типа bytes , а затем присвоили значение, расположенное по индексу 0 ( b[0] = b"J"[0] ). Можно, конечно, сразу указать код символа, но ведь держать все коды символов в памяти свойственно компьютеру, а не человеку. Для изменения объекта можно также использовать следующие методы: append(<Число>) — добавляет один элемент в конец объекта. Метод изменяет текущий объект и ничего не возвращает: >>> b = bytearray("string", "ascii") >>> b.append(b"1"[0]); b bytearray(b'string1') extend(<Последовательность>) — добавляет элементы последовательности в конец объекта. Метод изменяет текущий объект и ничего не возвращает: >>> b = bytearray("string", "ascii") >>> b.extend(b"123"); b bytearray(b'string123') Добавить несколько элементов можно с помощью операторов + и += : >>> b = bytearray("string", "ascii") >>> b + b"123" # Возвращает новый объект bytearray(b'string123') >>> b += b"456"; b # Изменяет текущий объект bytearray(b'string456') Кроме того, можно воспользоваться операцией присваивания значения срезу: >>> b = bytearray("string", "ascii") >>> b[len(b):] = b"123" # Добавляем элементы в последовательность >>> b bytearray(b'string123') 118 Часть I. Основы языка Python insert(<Индекс>, <Число>) — добавляет один элемент в указанную позицию. Осталь- ные элементы смещаются. Метод изменяет текущий объект и ничего не возвращает. До- бавим элемент в начало объекта: >>> b = bytearray("string", "ascii") >>> b.insert(0, b"1"[0]); b bytearray(b'1string') Метод insert() позволяет добавить только один элемент. Чтобы добавить несколько элементов, можно воспользоваться операцией присваивания значения срезу. Добавим несколько элементов в начало объекта: >>> b = bytearray("string", "ascii") >>> b[:0] = b"123"; b bytearray(b'123string') pop([<Индекс>]) — удаляет элемент, расположенный по указанному индексу, и воз- вращает его. Если индекс не указан, удаляет и возвращает последний элемент: >>> b = bytearray("string", "ascii") >>> b.pop() # Удаляем последний элемент 103 >>> b bytearray(b'strin') >>> b.pop(0) # Удаляем первый элемент 115 >>> b bytearray(b'trin') Удалить элемент списка позволяет также оператор del : >>> b = bytearray("string", "ascii") >>> del b[5] # Удаляем последний элемент >>> b bytearray(b'strin') >>> del b[:2] # Удаляем первый и второй элементы >>> b bytearray(b'rin') remove(<Число>) — удаляет первый элемент, содержащий указанное значение. Если элемент не найден, возбуждается исключение ValueError . Метод изменяет текущий объ- ект и ничего не возвращает: >>> b = bytearray("strstr", "ascii") >>> b.remove(b"s"[0]) # Удаляет только первый элемент >>> b bytearray(b'trstr') reverse() — изменяет порядок следования элементов на противоположный. Метод изменяет текущий объект и ничего не возвращает: >>> b = bytearray("string", "ascii") >>> b.reverse(); b bytearray(b'gnirts') Преобразовать объект типа bytearray в строку позволяет метод decode() . Метод имеет сле- дующий формат: decode([encoding="utf-8"][, errors="strict"]) Глава 6. Строки и двоичные данные 119 Параметр encoding задает кодировку символов (по умолчанию UTF-8) в объекте bytearray , а параметр errors — способ обработки ошибок при преобразовании. В параметре errors можно указать значения "strict" (значение по умолчанию), " replace" или "ignore" . При- мер преобразования: >>> b = bytearray("строка", "cp1251") >>> b.decode(encoding="cp1251"), b.decode("cp1251") ('строка', 'строка') Для преобразования можно также воспользоваться функцией str() : >>> b = bytearray("строка", "cp1251") >>> str(b, "cp1251") 'строка' 6.14. Преобразование объекта в последовательность байтов Преобразовать объект в последовательность байтов (выполнить его сериализацию), а затем восстановить (десериализовать) объект позволяет модуль pickle . Прежде чем использовать функции из этого модуля, необходимо подключить модуль с помощью инструкции: import pickle Для преобразования предназначены две функции: dumps(<Объект>[, protocol=None][, fix_imports=True]) — производит сериализацию объекта и возвращает последовательность байтов специального формата. Формат зави- сит от указанного во втором параметре протокола, который задается в виде числа от 0 до значения константы pickle.HIGHEST_PROTOCOL . Если второй параметр не указан, будет использован протокол 3 (константа pickle.DEFAULT_PROTOCOL ). Пример преобразования списка и кортежа: >>> import pickle >>> obj1 = [1, 2, 3, 4, 5] # Список >>> obj2 = (6, 7, 8, 9, 10) # Кортеж >>> pickle.dumps(obj1) b'\x80\x03]q\x00(K\x01K\x02K\x03K\x04K\x05e.' >>> pickle.dumps(obj2) b'\x80\x03(K\x06K\x07K\x08K\tK\ntq\x00.' loads(<Последовательность байтов>[, fix_imports=True][, encoding="ASCII"][, errors="strict"]) — преобразует последовательность байтов специального формата обратно в объект, выполняя его десериализацию. Пример восстановления списка и кор- тежа: >>> pickle.loads(b'\x80\x03]q\x00(K\x01K\x02K\x03K\x04K\x05e.') [1, 2, 3, 4, 5] >>> pickle.loads(b'\x80\x03(K\x06K\x07K\x08K\tK\ntq\x00.') (6, 7, 8, 9, 10) 120 Часть I. Основы языка Python 6.15. Шифрование строк Для шифрования строк предназначен модуль hashlib . Прежде чем использовать функции из этого модуля, необходимо подключить модуль с помощью инструкции: import hashlib Модуль предоставляет следующие функции: md5() , sha1() , sha224() , sha256() , sha384() , sha512() , в Python 3.6 появилась поддержка функций sha3_224() , sha3_256() , sha3_384() , sha3_512() , shake_128() и shake_256(). В качестве необязательного параметра функциям можно передать шифруемую последовательность байтов: >>> import hashlib >>> h = hashlib.sha1(b"password") Передать последовательность байтов можно также с помощью метода update() . В этом случае объект присоединяется к предыдущему значению: >>> h = hashlib.sha1() >>> h.update(b"password") Получить зашифрованную последовательность байтов и строку позволяют два метода: digest() и hexdigest() . Первый метод возвращает значение, относящееся к типу bytes , а второй — строку, содержащую шестнадцатеричные цифры: >>> h = hashlib.sha1(b"password") >>> h.digest() b'[\xaaa\xe4\xc9\xb9??\x06\x82%\x0bl\xf83\x1b\xe6\x8f\xd8' >>> h.hexdigest() '5baa61e4c9b93f3f0682250b6cf8331b7ee68fd8' Наиболее часто применяемой является функция md5() , которая шифрует строку с помощью алгоритма MD5. Эта функция используется для шифрования паролей, т. к. не существует алгоритма для дешифровки зашифрованных ей значений. Для сравнения введенного поль- зователем пароля с сохраненным в базе необходимо зашифровать введенный пароль, а за- тем произвести сравнение: >>> import hashlib >>> h = hashlib.md5(b"password") >>> p = h.hexdigest() >>> p # Пароль, сохраненный в базе '5f4dcc3b5aa765d61d8327deb882cf99' >>> h2 = hashlib.md5(b"password") # Пароль, введенный пользователем >>> if p == h2.hexdigest(): print("Пароль правильный") Пароль правильный Свойство digest_size хранит размер значения, генерируемого описанными ранее функция- ми шифрования, в байтах: >>> h = hashlib.sha512(b"password") >>> h.digest_size 64 Поддерживается еще несколько функций, выполняющих устойчивое к взлому шифрование паролей: Глава 6. Строки и двоичные данные 121 pbkdf2_hmac(<Основной алгоритм шифрования>, <Шифруемый пароль>, <"Соль">, <Коли- чество проходов шифрования>, dklen=None) . В качестве основного алгоритма шифрова- ния следует указать строку с наименованием этого алгоритма: "md5" , "sha1" , "sha224" , "sha256" , "sha384" и "sha512" . Шифруемый пароль указывается в виде значения типа bytes "Соль" — это особая величина типа bytes , выступающая в качестве ключа шиф- рования, — ее длина не должна быть менее 16 символов. Количество проходов шифро- вания следует указать достаточно большим (так, при использовании алгоритма SHA512 оно должно составлять 100 000). Последним параметром функции pbkdf2_hmac() можно указать длину результирующего закодированного значения в байтах — если она не за- дана или равна None , будет создано значение стандартной для выбранного алгоритма длины (64 байта для алгоритма SHA512). Закодированный пароль возвращается в виде величины типа bytes : >>> import hashlib >>> dk = hashlib.pbkdf2_hmac('sha512', b'1234567', b'saltsaltsaltsalt', 100000) >>> dk b"Sb\x85tc-\xcb@\xc5\x97\x19\x90\x94@\x9f\xde\x07\xa4p-\x83\x94\xf4\x94\x99\x07\ xec\xfa\xf3\xcd\xc3\x88jv\xd1\xe5\x9a\x119\x15/\xa4\xc2\xd3N\xaba\x02\xc0s\xc1\ xd1\x0b\x86xj(\x8c>Mr'@\xbb" П РИМЕЧАНИЕ Кодирование данных с применением функции pbkdf2_hmac() отнимает очень много сис- темных ресурсов и может занять значительное время, особенно на маломощных компью- терах. Поддержка двух следующих функций появилась в Python 3.6: blake2s([<Шифруемый пароль>][, digest_size=32], [salt=b””]) — шифрует пароль по алгоритму BLAKE2s, оптимизированному для 32-разрядных систем. Второй параметр задает размер значения в виде числа от 1 до 32, третий — «соль» в виде величины типа bytes , которая может иметь в длину не более 8 байтов. Возвращает объект, хранящий закодированный пароль: >>> h = hashlib.blake2s(b"string", digest_size=16, salt=b"saltsalt") >>> h.digest() b'\x96l\xe0\xfa\xb4\xe7Bw\x11\xf7D\xc2\xa4\xcf\x06\xf7' blake2b([<Шифруемый пароль>][, digest_size=64], [salt=b””]) — шифрует пароль по алгоритму BLAKE2b, оптимизированному для 64-разрядных систем. Второй параметр задает размер значения в виде числа от 1 до 64, третий — «соль» в виде величины типа bytes , которая может иметь в длину не более 16 байтов. Возвращает объект, хранящий закодированный пароль: >>> h = hashlib.blake2b(b"string", digest_size=48, salt=b"saltsaltsalt") >>> h.digest() b'\x0e\xcf\xb9\xc8G;q\xbaV\xbdV\x16\xd4@/J\x97W\x0c\xc4\xc5{\xd4\xb6\x12\x01z\ x9f\xdd\xf6\xf1\x03o\x97&v\xfd\xa6\x90\x81\xc4T\xb8z\xaf\xc3\x9a\xd9' П РИМЕЧАНИЕ Функции blake2b() и blake2s() поддерживают большое количество параметров, которые применяются только в специфических случаях. Полное описание этих функций можно най- ти в документации по Python. ГЛ А В А 7 Регулярные выражения Регулярные выражения предназначены для выполнения в строке сложного поиска или за- мены. В языке Python использовать регулярные выражения позволяет модуль re . Прежде чем задействовать функции из этого модуля, необходимо подключить модуль с помощью инструкции: import re 7.1. Синтаксис регулярных выражений Создать откомпилированный шаблон регулярного выражения позволяет функция compile() . Функция имеет следующий формат: <Шаблон> = re.compile(<Регулярное выражение>[, <Модификатор>]) В параметре <Модификатор> могут быть указаны следующие флаги (или их комбинация через оператор | ): I или IGNORECASE — поиск без учета регистра: >>> import re >>> p = re.compile(r"^[а-яе]+$", re.I | re.U) >>> print("Найдено" if p.search("АБВГДЕЕ") else "Нет") Найдено >>> p = re.compile(r"^[а-яе]+$", re.U) >>> print("Найдено" if p.search("АБВГДЕЕ") else "Нет") Нет M или MULTILINE — поиск в строке, состоящей из нескольких подстрок, разделенных символом новой строки ( "\n" ). Символ ^ соответствует привязке к началу каждой под- строки, а символ $ — позиции перед символом перевода строки; S или DOTALL — метасимвол «точка» по умолчанию соответствует любому символу, кро- ме символа перевода строки ( \n ). Символу перевода строки метасимвол «точка» будет соответствовать в присутствии дополнительного модификатора. Символ ^ соответствует привязке к началу всей строки, а символ $ — привязке к концу всей строки: >>> p = re.compile(r"^.$") >>> print("Найдено" if p.search("\n") else "Нет") Нет >>> p = re.compile(r"^.$", re.M) Глава 7. Регулярные выражения 123 >>> print("Найдено" if p.search("\n") else "Нет") Нет >>> p = re.compile(r"^.$", re.S) >>> print("Найдено" if p.search("\n") else "Нет") Найдено X или VERBOSE — если флаг указан, то пробелы и символы перевода строки будут проиг- норированы. Внутри регулярного выражения можно использовать и комментарии: >>> p = re.compile(r"""^ # Привязка к началу строки [0-9]+ # Строка должна содержать одну цифру (или более) $ # Привязка к концу строки """, re.X | re.S) >>> print("Найдено" if p.search("1234567890") else "Нет") Найдено >>> print("Найдено" if p.search("abcd123") else "Нет") Нет A или ASCII — классы \w , \W , \b , \B , \d , \D , \s и \S будут соответствовать символам в ко- дировке ASCII (по умолчанию указанные классы соответствуют Unicode-символам); П РИМЕЧАНИЕ Флаги U и UNICODE, включающие режим соответствия Unicode-символам классов \w, \W, \b, \B , \d, \D, \s и \S, сохранены в Python 3 лишь для совместимости с ранними версиями это- го языка и никакого влияния на обработку регулярных выражений не оказывают. L или LOCALE — учитываются настройки текущей локали. Начиная с Python 3.6, могут быть использованы только в том случае, когда регулярное выражение задается в виде значения типов bytes или bytearray Как видно из примеров, перед всеми строками, содержащими регулярные выражения, указан модификатор r . Иными словами, мы используем неформатированные строки. Если модификатор не указать, то все слэши необходимо экранировать. Например, строку: p = re.compile(r"^\w+$") нужно было бы записать так: p = re.compile("^\\w+$") Внутри регулярного выражения символы , ^ , $ , * , + , ? , { , [ , ] , \ , | , ( и ) имеют специальное значение. Если эти символы должны трактоваться как есть, их следует экранировать с по- мощью слэша. Некоторые специальные символы теряют свое особое значение, если их раз- местить внутри квадратных скобок, — в этом случае экранировать их не нужно. Например, как уже было отмечено ранее, метасимвол «точка» по умолчанию соответствует любому символу, кроме символа перевода строки. Если необходимо найти именно точку, то перед точкой нужно указать символ \ или разместить точку внутри квадратных скобок: [.] . Про- демонстрируем это на примере проверки правильности введенной даты (листинг 7.1). Листинг 7.1. Проверка правильности ввода даты # -*- coding: utf-8 -*- import re # Подключаем модуль d = "29,12.2009" # Вместо точки указана запятая p = re.compile(r"^[0-3][0-9].[01][0-9].[12][09][0-9][0-9]$") 124 Часть I. Основы языка Python # Символ "\" не указан перед точкой if p.search(d): print("Дата введена правильно") else: print("Дата введена неправильно") # Так как точка означает любой символ, # выведет: Дата введена правильно p = re.compile(r"^[0-3][0-9]\.[01][0-9]\.[12][09][0-9][0-9]$") # Символ "\" указан перед точкой if p.search(d): print("Дата введена правильно") else: print("Дата введена неправильно") # Так как перед точкой указан символ "\", # выведет: Дата введена неправильно p = re.compile(r"^[0-3][0-9][.][01][0-9][.][12][09][0-9][0-9]$") # Точка внутри квадратных скобок if p.search(d): print("Дата введена правильно") else: print("Дата введена неправильно") # Выведет: Дата введена неправильно input() В этом примере мы осуществляли привязку к началу и концу строки с помощью следующих метасимволов: ^ — привязка к началу строки или подстроки. Она зависит от флагов M (или MULTILINE ) и S (или DOTALL ); $ — привязка к концу строки или подстроки. Она зависит от флагов M (или MULTILINE ) и S (или DOTALL ); \A — привязка к началу строки (не зависит от модификатора); \Z — привязка к концу строки (не зависит от модификатора). Если в параметре <Модификатор> указан флаг M (или MULTILINE ), то поиск производится в строке, состоящей из нескольких подстрок, разделенных символом новой строки ( \n ). В этом случае символ ^ соответствует привязке к началу каждой подстроки, а символ $ — позиции перед символом перевода строки: >>> p = re.compile(r"^.+$") # Точка не соответствует \n >>> p.findall("str1\nstr2\nstr3") # Ничего не найдено [] >>> p = re.compile(r"^.+$", re.S) # Теперь точка соответствует \n >>> p.findall("str1\nstr2\nstr3") # Строка полностью соответствует ['str1\nstr2\nstr3'] >>> p = re.compile(r"^.+$", re.M) # Многострочный режим >>> p.findall("str1\nstr2\nstr3") # Получили каждую подстроку ['str1', 'str2', 'str3'] Глава 7. Регулярные выражения 125 Привязку к началу и концу строки следует использовать, если строка должна полностью соответствовать регулярному выражению. Например, для проверки, содержит ли строка число (листинг 7.2). Листинг 7.2. Проверка наличия целого числа в строке # -*- coding: utf-8 -*- import re # Подключаем модуль p = re.compile(r"^[0-9]+$", re.S) if p.search("245"): print("Число") # Выведет: Число else: print("Не число") if p.search("Строка245"): print("Число") else: print("Не число") # Выведет: Не число input() Если убрать привязку к началу и концу строки, то любая строка, содержащая хотя бы одну цифру, будет распознана как Число (листинг 7.3). Листинг 7.3. Отсутствие привязки к началу или концу строки # -*- coding: utf-8 -*- import re # Подключаем модуль p = re.compile(r"[0-9]+", re.S) if p.search("Строка245"): print("Число") # Выведет: Число else: print("Не число") input() Кроме того, можно указать привязку только к началу или только к концу строки (листинг 7.4). Листинг 7.4. Привязка к началу и концу строки # -*- coding: utf-8 -*- import re # Подключаем модуль p = re.compile(r"[0-9]+$", re.S) if p.search("Строка245"): print("Есть число в конце строки") else: print("Нет числа в конце строки") # Выведет: Есть число в конце строки p = re.compile(r"^[0-9]+", re.S) if p.search("Строка245"): print("Есть число в начале строки") else: print("Нет числа в начале строки") # Выведет: Нет числа в начале строки input() 126 Часть I. Основы языка Python Также поддерживаются два метасимвола, позволяющие указать привязку к началу или кон- цу слова: \b — привязка к началу слова (началом слова считается пробел или любой символ, не являющийся буквой, цифрой или знаком подчеркивания); \B — привязка к позиции, не являющейся началом слова. Рассмотрим несколько примеров: >>> p = re.compile(r"\bpython\b") >>> print("Найдено" if p.search("python") else "Нет") Найдено >>> print("Найдено" if p.search("pythonware") else "Нет") Нет >>> p = re.compile(r"\Bth\B") >>> print("Найдено" if p.search("python") else "Нет") Найдено >>> print("Найдено" if p.search("this") else "Нет") Нет В квадратных скобках [] можно указать символы, которые могут встречаться на этом месте в строке. Разрешается записать символы подряд или указать диапазон через дефис: [09] — соответствует числу 0 или 9; [0-9] — соответствует любому числу от 0 до 9; [абв] — соответствует буквам «а», «б» и «в»; [а-г] — соответствует буквам «а», «б», «в» и «г»; [а-яё] — соответствует любой букве от «а» до «я»; [АБВ] — соответствует буквам «А», «Б» и «В»; [А-ЯЁ] — соответствует любой букве от «А» до «Я»; [а-яА-ЯёЁ] — соответствует любой русской букве в любом регистре; [0-9а-яА-ЯёЁa-zA-Z] — любая цифра и любая буква независимо от регистра и языка. В НИМАНИЕ ! Буква «ё» не входит в диапазон [а-я], а буква «Ё» — в диапазон [А-Я]. Значение в скобках инвертируется, если после первой скобки вставить символ ^ . Таким образом можно указать символы, которых не должно быть на этом месте в строке: [^09] — не цифра 0 или 9; [^0-9] — не цифра от 0 до 9; [^а-яА-ЯёЁa-zA-Z] — не буква. Как вы уже знаете, точка теряет свое специальное значение, если ее заключить в квадрат- ные скобки. Кроме того, внутри квадратных скобок могут встретиться символы, которые имеют специальное значение (например, ^ и - ). Символ ^ теряет свое специальное значение, если он не расположен сразу после открывающей квадратной скобки. Чтобы отменить спе- циальное значение символа - , его необходимо указать после всех символов, перед закры- вающей квадратной скобкой или сразу после открывающей квадратной скобки. Все специ- альные символы можно сделать обычными, если перед ними указать символ \ Глава 7. Регулярные выражения 127 Метасимвол | позволяет сделать выбор между альтернативными значениями. Выражение n|m соответствует одному из символов: n или m : >>> p = re.compile(r"красн((ая)|(ое))") >>> print("Найдено" if p.search("красная") else "Нет") Найдено >>> print("Найдено" if p.search("красное") else "Нет") Найдено >>> print("Найдено" if p.search("красный") else "Нет") Нет Вместо указания символов можно использовать стандартные классы: \d — соответствует любой цифре. При указании флага A ( ASCII ) эквивалентно [0-9] ; \w — соответствует любой букве, цифре или символу подчеркивания. При указании фла- га A ( ASCII ) эквивалентно [a-zA-Z0-9_] ; \s — любой пробельный символ. При указании флага A ( ASCII ) эквивалентно [\t\n\r\f\v] ; \D — не цифра. При указании флага A ( ASCII ) эквивалентно [^0-9] ; \W — не буква, не цифра и не символ подчеркивания. При указании флага A ( ASCII ) экви- валентно [^a-zA-Z0-9_] ; \S — не пробельный символ. При указании флага A ( ASCII ) эквивалентно [^\t\n\r\f\v] П РИМЕЧАНИЕ В Python 3 поддержка Unicode в регулярных выражениях установлена по умолчанию. При этом все классы трактуются гораздо шире. Так, класс \d соответствует не только десятич- ным цифрам, но и другим цифрам из кодировки Unicode, — например, дробям, класс \w включает не только латинские буквы, но и любые другие, а класс \s охватывает также не- разрывные пробелы. Поэтому на практике лучше явно указывать символы внутри квадрат- ных скобок, а не использовать классы. Количество вхождений символа в строку задается с помощью квантификаторов: {n} — n вхождений символа в строку. Например, шаблон r"^[0-9]{2}$" соответствует двум вхождениям любой цифры; {n,} — n или более вхождений символа в строку. Например, шаблон r"^[0-9]{2,}$" соответствует двум и более вхождениям любой цифры; {n,m} — не менее n и не более m вхождений символа в строку. Числа указываются через запятую без пробела. Например, шаблон r"^[0-9]{2,4}$" соответствует от двух до четырех вхождений любой цифры; * — ноль или большее число вхождений символа в строку. Эквивалентно комбинации {0,} ; + — одно или большее число вхождений символа в строку. Эквивалентно комбинации {1,} ; ? — ни одного или одно вхождение символа в строку. Эквивалентно комбинации {0,1} Все квантификаторы являются «жадными». При поиске соответствия ищется самая длинная подстрока, соответствующая шаблону, и не учитываются более короткие соответствия. Рас- смотрим это на примере и получим содержимое всех тегов вместе с тегами: >>> s = "Text1Text2Text3" >>> p = re.compile(r".*", re.S) 128 Часть I. Основы языка Python >>> p.findall(s) ['Text1Text2Text3'] Вместо желаемого результата мы получили полностью строку. Чтобы ограничить «жад- ность», необходимо после квантификатора указать символ ? : >>> s = "Text1Text2Text3" >>> p = re.compile(r".*?", re.S) >>> p.findall(s) ['Text1', 'Text3'] Этот код вывел то, что мы искали. Если необходимо получить содержимое без тегов, то нужный фрагмент внутри шаблона следует разместить внутри круглых скобок: >>> s = "Text1Text2Text3" >>> p = re.compile(r"(.*?)", re.S) >>> p.findall(s) ['Text1', 'Text3'] Круглые скобки часто используются для группировки фрагментов внутри шаблона. В этом случае не требуется, чтобы фрагмент запоминался и был доступен в результатах поиска. Чтобы избежать захвата фрагмента, следует после открывающей круглой скобки разместить символы ?: (вопросительный знак и двоеточие): >>> s = "test text" >>> p = re.compile(r"([a-z]+((st)|(xt)))", re.S) >>> p.findall(s) [('test', 'st', 'st', ''), ('text', 'xt', '', 'xt')] >>> p = re.compile(r"([a-z]+(?:(?:st)|(?:xt)))", re.S) >>> p.findall(s) ['test', 'text'] В первом примере мы получили список с двумя элементами. Каждый элемент списка явля- ется кортежем, содержащим четыре элемента. Все эти элементы соответствуют фрагмен- там, заключенным в шаблоне в круглые скобки. Первый элемент кортежа содержит фраг- мент, расположенный в первых круглых скобках, второй — во вторых круглых скобках и т. д. Три последних элемента кортежа являются лишними. Чтобы они не выводились в результатах, мы добавили символы ?: после каждой открывающей круглой скобки. В ре- зультате список состоит только из фрагментов, полностью соответствующих регулярному выражению. К найденному фрагменту в круглых скобках внутри шаблона можно обратиться с помощью механизма обратных ссылок. Для этого порядковый номер круглых скобок в шаблоне ука- зывается после слэша, например, так: \1 . Нумерация скобок внутри шаблона начинается с 1 Для примера получим текст между одинаковыми парными тегами: >>> s = "Text1Text2Text3Text4" >>> p = re.compile(r"<([a-z]+)>(.*?)\1>", re.S | re.I) >>> p.findall(s) [('b', 'Text1'), ('I', 'Text3'), ('b', 'Text4')] Фрагментам внутри круглых скобок можно дать имена, создав тем самым именованные фрагменты. Для этого после открывающей круглой скобки следует указать комбинацию символов ?P . В качестве примера разберем e-mail на составные части: |