Pandas. Работаем с .csv и .xls/.xlsx файлами

Pandas. Работаем с .csv и .xls/.xlsx файлами

Очень часто бывает необходимо работать с данными сохранёнными в формате Microsoft Excel — .xls, .xlsx, xlsm, xltx и в табличном формате — .csv — (comma-separated values). Для работы с этими форматами данных, в python имеются различные библиотеки.

Читать и редактировать файлы .xlsx, xlsm, xltx и xltm — вам поможет библиотека openpyxl. Так же читать файлы Excel можно с помощью xlrd и xlwt.

Но если мы имеем дело с большим объёмом данных, то хорошим выбором будет Pandas — популярный пакет Python для анализа и работы с данными. И сегодня применим эту мощную библиотеку и её инструмент  — DataFrames — наборы или структуры данных. Нашу работу разобьём на несколько этапов.

  1. Получение и анализ данных.
  2. Подготовка данных.
  3. Постановка задачи и возможные варианты решений.
  4. Поиск и обработка данных.
  5. Визуализация и составление отчёта.