Если вы используете CSV, Excel или Markdown таблицы, вы можете столкнуться с дублирующимися строками. Это может произойти, если вы вручную ввели одинаковые данные или импортировали дубликаты из других источников. Какова бы ни была причина, удаление дублирующихся строк — важная часть очистки данных. В этой статье мы расскажем о нескольких способах быстрого удаления дублирующих строк из CSV, Excel и Markdown таблиц.
1. Онлайн-инструмент для таблиц (рекомендуется)
Вы можете использовать онлайн-инструмент под названием «TableConvert» для удаления дублирующих строк. С помощью этого инструмента вы легко сможете проверить и удалить дублирующиеся строки в ваших CSV, Excel и Markdown таблицах. Просто откройте браузер и перейдите по ссылке https://tableconvert.com/excel-to-excel, вставьте или загрузите ваши данные и нажмите кнопку «Deduplicate» в редакторе таблиц. Это быстро и легко. Посмотрите на изображение ниже:
2. Удаление дублирующихся строк в Excel
Удаление дублирующихся строк в Excel очень просто. Сначала откройте файл Excel и выберите столбец, в котором хотите проверить дублирующиеся строки. Затем нажмите на меню «Данные» и выберите «Удалить дубликаты». Excel покажет диалоговое окно, в котором вам нужно выбрать столбцы для удаления дубликатов. Нажмите «ОК», и Excel удалит все дублирующиеся строки.
3. Удаление дублирующихся строк в CSV с помощью Python
Если ваши данные сохранены в файле CSV, вы можете использовать Python для удаления дублирующихся строк. Сначала установите библиотеку pandas
. Затем используйте следующий код для чтения файла CSV, удаления дублирующихся строк и сохранения чистых данных обратно в файл:
import pandas as pd data = pd.read_csv("your_file.csv") data = data.drop_duplicates() data.to_csv("your_file.csv", index=False)
Этот код читает файл CSV, удаляет дублирующиеся строки и записывает чистые данные обратно в исходный файл.
ссылка на оригинал статьи https://habr.com/ru/articles/834044/
Добавить комментарий