Python網路資料擷取班(網路爬蟲)

開課日期 | 2025-05-20
課程費用 | 5200
開課地點 | 線上課程
分享
收藏
課程資訊
適用對象
課程特色
詳細內容
師資介紹

課程資訊

開課日期

2025-05-20

學習時程

12小時

上課時間

週二

上課時段

晚上

適用對象

1.想要成為資料科學家、資料工程師必備技能之一。
2.具有Python基礎程式設計能力,想要知道Python的應用。
3.想要可以自己上網擷取相關資料者。
4.想要增值自己職場價值者。

課程特色

 豐富的網路資訊以及政府開放多元的公開資訊(Open Data),往往可以成為企業有價值的參考資訊來源,所以網路擷取/網路爬蟲的技能,儼然已經成為時下人人必備的技能。
本課程從最基本的數據資料技術(包括XML/HTML/JSON)開始介紹,讓學員瞭解不同數據資料技術的結構,方便後續擷取資料時可以靈活運用,並且透過網路側錄方式來了解request/response之間的運作原理。

詳細內容

本班屬於Python的進階課程,規劃四週精華內容,期許每位學員在每周新單元可以非常有感的實作出不同單元的學習。

第一週:透過XPATH、CSS Selector擷取XML與HTML內的資料。
第二週:直接上網擷取網路新聞,包括新聞標題、新聞連結、新聞內容,並且透過簡單的Python技巧處理擷取回來的資料,並匯出至Excel檔案。

第三週:深入了解網站資料『翻頁』的不同技巧,以及session的使用方法與時機。
第四週:Python與Selenium的各種模式,以及操控Chrome瀏覽器的方法。

【課程大綱】

堂次

日期

課程大綱

5/20

熟悉數據資料技術(XML 、 HTML 、 JSON)
認識XPath CSS Selector
透過本機擷取不同格式內的資料

5/27 熟悉網路client/server 架構與 request/response
瞭解request 的運作模式
擷取網路新聞、資料整理、匯出檔案

6/3 深入了解網站資料『翻頁』的不同技巧,以及session的使用方法與時機
介紹Python 與 Selenium 的幾種運作模式

6/10

Python與Selenium的各種模式,
以及操控Chrome瀏覽器的方法

【本校保留視實際情形適當調整課程、時間及改變教學方式之權利】

 

*報名資格:高中以上且必項兼具以下能力

1.必須具備Python程式設計基本能力。

2.會使用Jupyter Notebook編寫Python程式者。

3.熟練 Windows作業系統的基本操作。

 

★學員需自備暢通網路、電腦設備(配置 Windows 10系統,具備可安裝軟體權限),隨身碟或是雲端空間的資料儲存空間至少10GB。

 

 

師資介紹

【師資介紹】-- 陳祥輝老師

*現職:國立臺北大學統計學系兼任助理教授

*學歷:臺北大學統計系碩士(畢)/元智大學資訊工程博士候選人(肄)

文化大學資訊管理學系碩士(畢)/文化大學應用數學系學士(畢)

*經歷:

★教學經歷23年 

★業界經歷30年

*專長

資料庫程式設計

Python程式設計 / 網路爬蟲

Java程式設計

商業智慧分析(BI, Business Intelligence)

機器學習(ML, Machine Learning)

Big Data (Python + Spark + Hadoop)

Python + GIS + PostGIS (PostgreSQL空間資料庫)

網路通訊協定(TCP/IP)

*證照:

AZ-900 : Microsoft Azure Fundamentals

DP-100 : Designing and Implementing a Data Science Solution on Azure

備註

*課程日期:114.05.20~114.06.10。
*課程時間:每週二晚上19:00~22:00。
*課程時數:12小時(每堂課程3小時,共計4堂課)。
*課程費用:報名費 200元,學費 5,000元。
課程網頁:https://user123717.pse.is/64y65x

與我諮詢 / 報名

若您有進修網會員帳號,建議您登入進修網,省去填表部份欄位的填寫!
尚進_水號1263_回函右上280
聯成電腦_水號1251_回函右下280
聯成_ai_全區495