Course Information
- Mar 2026
(95 折後只需 $931)
Course Overview
世界各大公司已紛紛利用大數據 (Big Data) 協助作出重要的商業策略,例如在網上討論區大規模地收集網民的意見,分析出產品在市場上的反應,從而改變銷售策略等等。除此之外,收集及整理大數據更可以成為一門非常賺錢的生意,例如世界知名的搜索器Google和全球求職網站Indeed,便是整合大數據的表表者。
問題是,那裡可以收集到大數據呢?我又如何去收集及整理資料呢?
建立自己的網路爬蟲 (Web Crawler) 是收集大數據的第一步,當中包括自動到訪目標網站,快速抓取資料及初部的資料清理功能。日後,你進而可以使用其他分析軟件,對數據進行研究分析、整理及發掘出數據的隱藏價值!
本課程主要集中討論收集結構式數據 (Structured data) 及 非結構式數據 (Unstructured Data) 的方法,教授製作一個簡單實用的網路爬蟲,以便讓電腦自動幫你收集資料。此外,也會示範 2 種抽取資料 (Data Extraction) 的方法:Data Object Model (DOM) 及 自然語言分析 (Natural Language Processing)。並且會示範透過 API 取得「資料一線通」Data.gov.hk 的實用資料。
課程完結後,學員會明白到如何在網上收集龐大的數據,可以作研究、分析及製作比較網站之用。之後,建議學員可以參加大數據分析及機器學習等相關課程。
What You’ll Learn
- 甚麼是大數據?
- 如何收集大數據?
- 利用 PHP Library 製作網路爬蟲 (Web Crawler)
- Structured Data VS Unstructured Data
- 收集資料時要注意事項
Structured Data
- 示範:收集世界各大股票的股價
- 示範:收集 Amazon 上貨品的資料及相片
- 示範:透過 API 取得「資料一線通」Data.gov.hk 的實用資料
Unstructured Data
- 示範 DOM
- 如何使用 Web Crawler 收集最新的手機資料?
- 示範 自然語言分析
- 如何收集香港僱主要求的 IT 技能?