(1)スライド50まで
以下の10月5日19時~知財DX推進勉強会で使うプログラムコードのサイト中のコードをご利用ください。
10月5日19時~知財DX推進勉強会で使うプログラムコード
(2)スライド50以降(WEBから必要な情報が書かれたページを取得)
!pip install selenium
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
import requests
from bs4 import BeautifulSoup
# 解析するWebページのURL
url = "https://www.yahoo.co.jp/"
# HTML文書を取得
html = requests.get(url)
# 取得したHTML文書をBeautifulSoupでパース
soup = BeautifulSoup(html.content, "html.parser")
# HTMLからリンクを抽出
elements = soup.select("a")
# リンク先を入れるリストを準備
got_urls = []
# リンクのurlのみを取得し、リストに追加
for element in elements:
got_urls.append(element.attrs["href"])
print(got_urls)
# リンク先のテキストを取得し、特定の語があればリンクを表示する(AND検索やOR検索も可能)
for i in got_urls:
html = requests.get(i)
soup = BeautifulSoup(html.content, "html.parser")
text=soup.get_text()
if "首相" in text:
print(i)