Python網路資料擷取班(網路爬蟲)
開課日期 | | 2025-05-20 |
課程費用 | | 5200 |
開課地點 | | 線上課程 |
開課日期
2025-05-20
學習時程
12小時
上課時間
週二
上課時段
晚上
1.想要成為資料科學家、資料工程師必備技能之一。
2.具有Python基礎程式設計能力,想要知道Python的應用。
3.想要可以自己上網擷取相關資料者。
4.想要增值自己職場價值者。
豐富的網路資訊以及政府開放多元的公開資訊(Open Data),往往可以成為企業有價值的參考資訊來源,所以網路擷取/網路爬蟲的技能,儼然已經成為時下人人必備的技能。
本課程從最基本的數據資料技術(包括XML/HTML/JSON)開始介紹,讓學員瞭解不同數據資料技術的結構,方便後續擷取資料時可以靈活運用,並且透過網路側錄方式來了解request/response之間的運作原理。
本班屬於Python的進階課程,規劃四週精華內容,期許每位學員在每周新單元可以非常有感的實作出不同單元的學習。
第一週:透過XPATH、CSS Selector擷取XML與HTML內的資料。
第二週:直接上網擷取網路新聞,包括新聞標題、新聞連結、新聞內容,並且透過簡單的Python技巧處理擷取回來的資料,並匯出至Excel檔案。
第三週:深入了解網站資料『翻頁』的不同技巧,以及session的使用方法與時機。
第四週:Python與Selenium的各種模式,以及操控Chrome瀏覽器的方法。
【課程大綱】
堂次 |
日期 |
課程大綱 |
一 |
5/20 |
熟悉數據資料技術(XML 、 HTML 、 JSON) |
二 |
5/27 | 熟悉網路client/server 架構與 request/response 瞭解request 的運作模式 擷取網路新聞、資料整理、匯出檔案 |
三 |
6/3 | 深入了解網站資料『翻頁』的不同技巧,以及session的使用方法與時機 介紹Python 與 Selenium 的幾種運作模式 |
四 |
6/10 |
Python與Selenium的各種模式,
以及操控Chrome瀏覽器的方法
|
【本校保留視實際情形適當調整課程、時間及改變教學方式之權利】
*報名資格:高中以上,且必項兼具以下能力
1.必須具備Python程式設計基本能力。
2.會使用Jupyter Notebook編寫Python程式者。
3.熟練 Windows作業系統的基本操作。
★學員需自備暢通網路、電腦設備(配置 Windows 10系統,具備可安裝軟體權限),隨身碟或是雲端空間的資料儲存空間至少10GB。
【師資介紹】-- 陳祥輝老師
*現職:國立臺北大學統計學系兼任助理教授
*學歷:臺北大學統計系碩士(畢)/元智大學資訊工程博士候選人(肄)
文化大學資訊管理學系碩士(畢)/文化大學應用數學系學士(畢)
*經歷:
★教學經歷23年
★業界經歷30年
*專長:
資料庫程式設計
Python程式設計 / 網路爬蟲
Java程式設計
商業智慧分析(BI, Business Intelligence)
機器學習(ML, Machine Learning)
Big Data (Python + Spark + Hadoop)
Python + GIS + PostGIS (PostgreSQL空間資料庫)
網路通訊協定(TCP/IP)
*證照:
AZ-900 : Microsoft Azure Fundamentals
DP-100 : Designing and Implementing a Data Science Solution on Azure
*課程日期:114.05.20~114.06.10。
*課程時間:每週二晚上19:00~22:00。
*課程時數:12小時(每堂課程3小時,共計4堂課)。
*課程費用:報名費 200元,學費 5,000元。
課程網頁:https://user123717.pse.is/64y65x