Pandas. Работаем с .csv и .xls/.xlsx файлами
Очень часто бывает необходимо работать с данными сохранёнными в формате Microsoft Excel — .xls, .xlsx, xlsm, xltx и в табличном формате — .csv — (comma-separated values). Для работы с этими форматами данных, в python имеются различные библиотеки.
Читать и редактировать файлы .xlsx, xlsm, xltx и xltm — вам поможет библиотека openpyxl. Так же читать файлы Excel можно с помощью xlrd и xlwt.
Но если мы имеем дело с большим объёмом данных, то хорошим выбором будет Pandas — популярный пакет Python для анализа и работы с данными. И сегодня применим эту мощную библиотеку и её инструмент — DataFrames — наборы или структуры данных. Нашу работу разобьём на несколько этапов.
- Получение и анализ данных.
- Подготовка данных.
- Постановка задачи и возможные варианты решений.
- Поиск и обработка данных.
- Визуализация и составление отчёта.