課程介紹:
網路爬蟲,也叫網路蜘蛛,原意是指一種用來自動瀏覽全球資訊網的網路機器人。隨著大數據時代來臨,網頁資料擷取的需求急遽增長,因網頁資料擷取與網路爬蟲的技術許多重疊,因此經常通稱為爬蟲。藉著爬蟲技術,短時間內取得最新的輿情資訊已是業界掌握市場脈動的必備手段之一。
課程目標:
本課程將帶領學員從零開始,透過資料科學領域最夯同時也是最通用的Python語言開啟網頁資料擷取的大門,雖然短短兩天的時間,但保證讓你能獨立完成爬網的任務。
適合對象:
※具基礎Python程式語言能力者。
※資料科學家、資料工程師。
※公司各部門與各階層決策人員。
※對於此議題有興趣者。
課程時間及優惠:
課程天數:2天;上午9:00至下午5:00
原價10,800元整 (含上課講義、16小時研習證明與午餐)
早鳥(4月10日前)/舊生:7,000元/人
二人以上團體:6,500元/人
四人以上團體:6,000元/人
講師介紹:
AsiaAnalytics特聘專業講師:湯明軒 Andrew
經歷:
專攻領域:
●資料科學、網頁爬蟲、Python、R語言、機器學習
教學經驗:
●TQC Python證照輔導班 課程講師
●資策會課程講師
●金融研訓院課程講師
課程大綱:
課程主題 | 詳細內容 | 時數 |
爬蟲必備Python基礎 | ●List與Dict資料結構 ●流程控制與迴圈 ●資料匯出 | 3 |
基礎爬蟲技巧 | ●GET/POST傳送請求 ●開發人員工具之監聽應用 ●Python擷取網頁原始碼 ●UrlEncode與UrlDecode | 2 |
爬蟲資料處理 | ●HTML與JSON資料結構 ●CSSSelector網頁原始碼解析 ●開發人員工具HTML解析應用 ●網頁資料萃取及表格化 | 2 |
實戰演練(一) | ●批踢踢推文擷取 ●中央社及蘋果日報擷取 | 2 |
進階爬蟲技巧 | ●Headers及Cookie偽裝 ●Selenium 模擬瀏覽器行為 ●Javascript控制網頁元件 | 2 |
實戰演練(二) | ●會員(自動)登入案例實作 ●批踢踢多頁面擷取案例實作 ●Instagram照片下載 ●Facebook文章擷取 | 3 |
注意事項:
近期熱門活動...
|