Download XML phụ đề YouTube sử dụng Pytube trong Python

Pytube là một thư viện Python nhẹ có thể tải xuống các video YouTube. Có nhiều API khác nhau để lấy thông tin siêu dữ liệu từ YouTube. Trong bài viết này, chúng ta sẽ xem cách tải xuống XML của phụ đề public trên YouTube bằng Python.

Trước khi bắt đầu, chúng ta cần cài đặt mô-đun này: pip install pytube

Tiếp cận:

  • Import pytube : from pytube import YouTube.
  • Khởi tạo đối tượng sử dụng hàm YouTube() lấy liên kết video youtube làm tham số.
  • Để lấy phụ đề trong một ngôn ngữ cụ thể, ta sử dụng get_by_language_code (‘en’) với en là viết tắt của tiếng Anh như thể hiện trong đoạn mã bên dưới.
  • Theo mặc định, phụ đề chỉ được tải xuống ở định dạng XML. Để chuyển đổi nó thành kiểu dữ liệu chuỗi một cách rõ ràng, ta sử dụng ‘create_srt_captions ()‘ như được hiển thị trong đoạn mã bên dưới.