數(shù)據(jù)集(三)
菲利信研究院
數(shù)據(jù)采集是從不同數(shù)據(jù)源收集、獲取原始數(shù)據(jù)的過程,是數(shù)據(jù)分析、挖掘和應(yīng)用的基礎(chǔ),也是數(shù)據(jù)集建設(shè)的根基所在。
根據(jù)數(shù)據(jù)來源、技術(shù)手段和應(yīng)用場景的不同,數(shù)據(jù)采集有多種類型,以下是常見的數(shù)據(jù)采集方式及其核心特點:
基于物理世界的感知采集:傳感器與物聯(lián)網(wǎng)
通過物理傳感器或物聯(lián)網(wǎng)設(shè)備直接采集現(xiàn)實世界中的環(huán)境、設(shè)備、物體狀態(tài)的數(shù)據(jù),適用于從工業(yè)、農(nóng)業(yè)、環(huán)境、空間等場景中獲取一手、適時、動態(tài)的數(shù)據(jù)。
涉及的核心技術(shù):傳感器(如溫度、濕度、壓力、加速度、圖像、聲音傳感器)、物聯(lián)網(wǎng)(IoT)設(shè)備、RFID(射頻識別)、GPS/北斗定位等。
應(yīng)用場景包括很多現(xiàn)實空間:工業(yè)領(lǐng)域的設(shè)備運行狀態(tài)(振動、溫度)、生產(chǎn)線良品率監(jiān)控等;農(nóng)業(yè)領(lǐng)域的土壤墑情、作物生長環(huán)境、氣象數(shù)據(jù)等;環(huán)境監(jiān)測領(lǐng)域的空氣質(zhì)量(PM2.5、CO?)、水質(zhì)參數(shù)(pH 值、溶解氧)等;生活領(lǐng)域C端的智能手表的心率、步數(shù)、智能家居的設(shè)備狀態(tài)等。
其特點是:實時性強,可直接獲取物理世界的動態(tài)數(shù)據(jù);但必須依賴硬件部署,需考慮設(shè)備投入、維護的成本和數(shù)據(jù)傳輸?shù)姆€(wěn)定性。
互聯(lián)網(wǎng)公開數(shù)據(jù)采集:網(wǎng)絡(luò)爬蟲
使用爬蟲工具(如 Python 的 Scrapy 框架)自動抓取互聯(lián)網(wǎng)公開頁面或接口的數(shù)據(jù)。適用于無 API 接口、但數(shù)據(jù)公開的場景,用于市場調(diào)研、競品分析、輿情監(jiān)控等。
核心技術(shù)包括:HTTP 請求(GET/POST)、HTML 解析(如 BeautifulSoup、XPath)、反爬對抗(模擬瀏覽器、代理 IP、驗證碼識別)、分布式爬蟲(Scrapy、PySpider)。
應(yīng)用場景至少有:電商領(lǐng)域的商品價格、評論、銷量數(shù)據(jù);輿情方面的社交媒體、新聞網(wǎng)站的用戶觀點;學(xué)術(shù)研究的論文數(shù)據(jù)庫、開放數(shù)據(jù)平臺的公開研究數(shù)據(jù)。
其特點:遵守目標(biāo)網(wǎng)站的 robots.txt 協(xié)議,避免過度請求影響服務(wù)器;部分?jǐn)?shù)據(jù)涉及隱私或版權(quán),需確保合法性(如 GDPR、《網(wǎng)絡(luò)安全法》)。
系統(tǒng)與設(shè)備日志采集
從服務(wù)器、數(shù)據(jù)庫、應(yīng)用程序、網(wǎng)絡(luò)設(shè)備中收集運行過程中生成的日志文件,包含系統(tǒng)報錯、訪問記錄、資源消耗等信息,用于監(jiān)控、故障排查或用戶行為分析。
核心技術(shù)大致有:日志收集工具(如 Flink、Logstash、Filebeat)、日志協(xié)議(Syslog、HTTP)、集中式日志平臺(ELK Stack:Elasticsearch+Logstash+Kibana)。
應(yīng)用場景包括:互聯(lián)網(wǎng)服務(wù)的服務(wù)器訪問日志(用戶 IP、請求路徑)、應(yīng)用錯誤日志;運維監(jiān)控的網(wǎng)絡(luò)設(shè)備的流量、連接狀態(tài)日志;安全審計領(lǐng)域的記錄用戶操作行為(如登錄、數(shù)據(jù)修改)。
特點:數(shù)據(jù)真實性高,反映系統(tǒng)真實運行狀態(tài);但日志格式多樣(文本、JSON、二進制),需清洗和標(biāo)準(zhǔn)化處理。
數(shù)據(jù)庫與業(yè)務(wù)系統(tǒng)直接抽取
從組織內(nèi)部的已有數(shù)據(jù)庫或業(yè)務(wù)系統(tǒng)中直接提取數(shù)據(jù),通常用于內(nèi)部數(shù)據(jù)整合或數(shù)據(jù)分析。
涉及到的核心技術(shù)有:在結(jié)構(gòu)化數(shù)據(jù)方面——通過 SQL 查詢(如 MySQL 的SELECT、Oracle 的 PL/SQL)或 ETL 工具(Apache NiFi、Talend)抽?。辉诜墙Y(jié)構(gòu)化數(shù)據(jù)領(lǐng)域——從文檔管理系統(tǒng)(如 SharePoint)、文件存儲(如 HDFS、AWS S3)中讀取。
應(yīng)用場景包括:企業(yè)數(shù)據(jù)倉庫(DW)構(gòu)建——從企業(yè)內(nèi)部運營系統(tǒng)中直接導(dǎo)出數(shù)據(jù),如 CRM(客戶關(guān)系管理系統(tǒng))的客戶信息、ERP(企業(yè)資源計劃系統(tǒng))的生產(chǎn)與財務(wù)數(shù)據(jù)、SCM(供應(yīng)鏈管理系統(tǒng))的物流數(shù)據(jù)等,并整合 ERP、CRM、OA 系統(tǒng)的客戶、訂單、交易數(shù)據(jù);數(shù)據(jù)備份與遷移——從舊系統(tǒng)抽取數(shù)據(jù)到新平臺。
特點有:數(shù)據(jù)質(zhì)量高(已結(jié)構(gòu)化),可直接對接分析工具;但需權(quán)限控制(避免敏感數(shù)據(jù)泄露),依賴數(shù)據(jù)庫開放接口。
用戶主動提交:人工輸入與交互采集
用戶通過需求而主動提供的數(shù)據(jù),適用于需要主觀信息或個性化數(shù)據(jù)的場景。
常見形式諸如,表單填寫——注冊信息、問卷調(diào)研(如 Google Forms、騰訊問卷);文件上傳——用戶上傳圖片、文檔(如醫(yī)療影像、設(shè)計圖紙);交互行為——語音輸入(如 Siri、微信語音)、手寫輸入(如平板簽名)。
特點:數(shù)據(jù)直接反映用戶意圖,靈活性高;但依賴用戶的高度配合,可能存在數(shù)據(jù)缺失或填寫錯誤等主觀數(shù)據(jù)。
埋點與客戶端行為采集
在應(yīng)用(Web、App、小程序)中嵌入代碼(如埋點),自動記錄用戶行為軌跡、操作數(shù)據(jù),包括點擊路徑、停留時間、功能使用頻率、頁面跳轉(zhuǎn)等,以用于產(chǎn)品優(yōu)化或精準(zhǔn)營銷。
有三種類型:前端埋點——記錄頁面訪問(PV/UV)、點擊(按鈕、鏈接)、滾動深度(如 Google Analytics、神策分析);后端埋點——記錄接口調(diào)用、交易流程(如支付成功率、接口響應(yīng)時間);全埋點——自動采集所有用戶行為(無需手動標(biāo)記,適合快速初始化)。
應(yīng)用場景:比如說,產(chǎn)品設(shè)計中的分析用戶轉(zhuǎn)化漏斗(如注冊→下單流失點);精準(zhǔn)營銷領(lǐng)域的根據(jù)用戶瀏覽行為推送個性化的廣告。
特點:細(xì)粒度捕捉用戶行為,支持?jǐn)?shù)據(jù)驅(qū)動決策;但埋點設(shè)計復(fù)雜(需定義事件、參數(shù)),過量采集可能影響性能。
API 接口采集
通過調(diào)用第三方平臺開放的 API 接口或內(nèi)部 API(應(yīng)用程序編程接口)獲取標(biāo)準(zhǔn)化數(shù)據(jù),適用于需要實時或結(jié)構(gòu)化數(shù)據(jù)的場景。如調(diào)用電商平臺 API 獲取商品價格、調(diào)用社交平臺 API 獲取用戶動態(tài)、調(diào)用天氣 API 獲取氣象數(shù)據(jù),需遵守接口使用規(guī)范和權(quán)限要求。
常見類型:不外乎開放 API:如天氣、地圖、金融等方面的數(shù)據(jù);內(nèi)部 API:企業(yè)微系統(tǒng)之間的數(shù)據(jù)接口(如通過 RESTful API 或 gRPC 傳輸)。
應(yīng)用場景很多,比如說金融科技的獲取股票行情、匯率數(shù)據(jù);物流系統(tǒng)的調(diào)用快遞公司 API 獲取包裹狀態(tài)。
特點:數(shù)據(jù)格式規(guī)范(JSON/XML),獲取效率高;但高度依賴第三方服務(wù)的穩(wěn)定性,且可能需要訂閱、定制化的費用(如付費 API 調(diào)用次數(shù)限制)。
邊緣計算與實時流采集
在靠近數(shù)據(jù)源的邊緣節(jié)點(如設(shè)備、網(wǎng)關(guān))實時處理和采集數(shù)據(jù),減少延遲,適用于實時性要求高的場景。
核心技術(shù):大體有邊緣計算框架(如華為 EdgeX Foundry、阿里云 Link Edge)、流處理引擎(Apache Kafka、Flink)。
應(yīng)用場景諸如,智能制造領(lǐng)域的產(chǎn)線傳感器的毫秒級數(shù)據(jù)采集與異常檢測;自動駕駛領(lǐng)域的車載攝像頭、雷達的實時環(huán)境數(shù)據(jù)處理。
特點:低延遲,減少網(wǎng)絡(luò)帶寬壓力;但邊緣節(jié)點計算能力有限,需平衡本地處理與云端存儲之間的協(xié)同。
調(diào)研與訪談采集
通過設(shè)計問卷、開展用戶訪談、組織焦點小組等方式,主動收集一手?jǐn)?shù)據(jù)。
涉及到的技術(shù)包括:問卷星(線上發(fā)放)、Nvivo(訪談數(shù)據(jù)整理)、SPSS(數(shù)據(jù)統(tǒng)計)等。
應(yīng)用常見于獲取用戶需求、態(tài)度偏好、市場反饋等主觀信息等場景。
特點就是便捷、有針對性;卻缺少動態(tài)更新、實時對齊。
往期推薦

