Анализ тегов Твиттера. Формат ввода
Скачать 16.43 Kb.
|
Анализ тегов Твиттера В текстовом файле находится выгрузка постов из Твиттера, за некоторый период, в которых встречаются теги. Выясните, какие теги являлись более популярными, а какие менее, подсчитав количество употреблений каждого. ФОРМАТ ВВОДА Текстовый файл tweets.txt, в котором записана подборка постов из Твиттера, размеченных тегами. Тегом считается любое слово, начинающееся с символа '#'. Гарантируется, что все теги записаны маленькими буквами, и в них не встречаются знаки препинания. ФОРМАТ ВЫВОДА Текстовый файл tags.txt в кодировке utf-8, где каждый твит, использованный в файле tweets.txt, записан в формате "тег: <тег>, упоминаний: <кол-во упоминаний>". Каждый тег должен быть записан на отдельной строке, теги нужно отсортировать по количеству упоминаний от самого большого к самому маленькому В открытом тесте используются файлы tags.txt и tweets.txt. Вы можете скачать их и проверить свое решение локально. В примере в первой колонке отображается номер теста (0 — открытый тест), считывать это число или использовать его в вашем решении не нужно. КЛИКНИТЕ, ЧТОБЫ ПОКАЗАТЬ/СКРЫТЬ ПОДСКАЗКУ Для примера:
COD: dictionary= {} #def fun(dictionary): # return dictionary[0] with open('tweets.txt') as infile: for line in infile: for word in line: word = line.strip().split(' ') if word[0][0] == '#' and word[0] not in dictionary: dictionary[word[0]] = 1 if word[0][0] == '#' and word[0] in dictionary: dictionary[word[0]] += 1 with open('tags.txt', 'w', encoding='UTF-8') as outfile: for word in dictionary: key= print(f"тег: {word[0]}, упоминаний: {word[:0]}") |