# 實驗三:美國航班資料分析 ### 主講人:黃夙賢 --- ## 美國航班資料分析 - 美國運輸部(DOT)轄下之運輸統計局(BTS)提供1987年至2008,美國各航班進場、離場、延遲等各項航班數據的資料集。請根據美國航班飛行數據,進行大數據資料分析 --- ## 資料來源 - [http://www2.stat.duke.edu/~oma9/ datafest/df2018/data/2008.csv]() --- ## 請回答下列問題 - Q1: 共有幾筆資料? - Q2: 2008年的平均航班延遲時間為何? - Q3: 哪些機場出發的飛機,會延遲兩倍平均航班延遲時間以上? --- ## flight2008資料檔 - wget [http://www2.stat.duke.edu/~oma9/ datafest/df2018/data/2008.csv](http://www2.stat.duke.edu/~oma9/datafest/df2018/data/2008.csv) - 或者 - wget https://github.com/shhuangmust /bigdata/raw/main/flight2008.sh - chmod 777 flight2008.sh - ./flight2008.sh - hadoop fs –put 2008.csv /user/mapr --- # 新增資料表 ```sql= create table flight2008 (Year INT, Month INT, DayofMonth INT, DayOfWeek INT, DepTime INT, CRSDepTime INT, ArrTime INT, CRSArrTime INT, UniqueCarrier STRING, FlightNum STRING, TailNum STRING, ActualElapsedTime INT, CRSElapsedTime INT, AirTime INT,ArrDelay INT, DepDelay INT,Origin STRING,Dest STRING, Distance INT,TaxiIn INT,TaxiOut INT,Cancelled INT, CancellationCode INT,Diverted INT, CarrierDelay INT, WeatherDelay INT, NASDelay INT,SecurityDelay INT, LateAircraftDelay INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' tblproperties("skip.header.line.count"="1"); ``` --- ## 讀入資料 - LOAD DATA INPATH '/user/mapr/2008.csv' OVERWRITE INTO TABLE flight2008; --- ## Q1:共有幾筆資料 - select count(*) from flight2008 ; - Ans: 7009728筆資料 ![](https://i.imgur.com/QZznnNN.png) --- ## Q2:2008年的平均航班延遲時間為何 - select avg(depdelay) from flight2008; - Ans: 平均延遲9.97分鐘 ![](https://i.imgur.com/9Ap2RTQ.png) --- ## Q3:哪些機場出發的飛機,會延遲兩倍平均航班延遲時間以上 - select origin, avg(depdelay) as delay from flight2008 group by origin having avg(depdelay) > 19.94; - Ans: SPI、ACK、CEC、LMT、PIR、AKN、OTH、PUB --- ![](https://i.imgur.com/pRvGLu3.png)
{"metaMigratedAt":"2023-06-17T10:55:49.724Z","metaMigratedFrom":"YAML","title":"實驗三:美國航班資料分析","breaks":true,"contributors":"[{\"id\":\"ef0225b9-6c2a-4012-82c9-fa1031d2c4db\",\"add\":1966,\"del\":85}]"}
    294 views