Site Loader

(1)スライド50まで

以下の10月5日19時~知財DX推進勉強会で使うプログラムコードのサイト中のコードをご利用ください。

10月5日19時~知財DX推進勉強会で使うプログラムコード

(2)スライド50以降(WEBから必要な情報が書かれたページを取得)

!pip install selenium
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
import requests
from bs4 import BeautifulSoup 

# 解析するWebページのURL
url = "https://www.yahoo.co.jp/"

# HTML文書を取得
html = requests.get(url)

# 取得したHTML文書をBeautifulSoupでパース
soup = BeautifulSoup(html.content, "html.parser")

# HTMLからリンクを抽出
elements = soup.select("a")

# リンク先を入れるリストを準備
got_urls = []

# リンクのurlのみを取得し、リストに追加
for element in elements:
  got_urls.append(element.attrs["href"])

print(got_urls)

# リンク先のテキストを取得し、特定の語があればリンクを表示する(AND検索やOR検索も可能)
for i in got_urls:
  html = requests.get(i)
  soup = BeautifulSoup(html.content, "html.parser")
  text=soup.get_text()
  if "首相" in text:
    print(i)

Post Author: tsubakipat