資料預覽
選擇分析方法
異常偵測 (Outlier Detection):用來找出資料中的離群值,常用於品質監控、異常交易偵測與資料清洗。
選擇偵測方法
預設 3 (嚴格), 2.5 (寬鬆)
預設 1.5 (標準), 3 (極端)
找出造成問題的關鍵原因 (80/20法則)。
比較不同組別之間,數值資料的平均值是否存在顯著差異。
卡方檢定(Chi-Square Test):檢定兩個類別變數之間是否存在顯著關聯性。適用於問卷調查、市場研究等情境。
📊 使用情境
- • 性別與產品偏好是否相關?
- • 教育程度與職業類型是否獨立?
- • 地區與購買行為是否有關聯?
探討兩個數值變數之間的關聯性,包含完整統計推論。
探討多個自變數對應變數的影響,適合實務應用。
💡 按住 Ctrl (Win) 或 Cmd (Mac) 選擇多個
視覺化所有數值變數之間的相關性,快速找出高度正相關或負相關的變數配對。
文字雲 (Wordcloud):用於快速觀察文字欄位中常出現的關鍵字與主題。
建議選擇備註、客服紀錄、意見欄位等文字型欄位。
文字雲結果
使用 Holt-Winters 方法進行時間序列預測。
進階選項
使用「趨勢 + 季節分解」模型(Decomposition Forecast, Trend + Seasonality)進行時間序列預測,適合具有明顯趨勢與季節性的資料。
例如:月資料多為 12、週資料可設 52。
使用 ARIMA 模型(差分 + 自迴歸 AR + 移動平均 MA)進行時間序列預測,適合平穩或經差分後平穩的資料。 本工具實作 ARIMA(p, d, q),在純 JavaScript 環境中,採用 Hannan–Rissanen 兩階段迴歸法,以 OLS 估計 AR (φ) 與 MA (θ) 係數。
建議先從 p = 1 或 2 開始。
d = 0 表示直接建模原始序列;d = 1 表示一階差分後再建模。
q = 0 退化為純 AR(p);q > 0 會同時估計 MA(θ) 係數。
使用 Croston 方法處理間歇性需求(多為 0,偶爾出現正需求),適合備品、慢料等需求預測教學。 Croston 模型對未來各期提供相同的預測水準。
控制「每次需求大小」的平滑速度,α 越大,對最新需求反應越敏感;建議 0.1~0.3 作為起點。
控制「需求到達間隔」的平滑速度;建議與 α 相近作為起點。
建立模型以預測二元結果 (例如:是/否、成功/失敗)。
此選單只會顯示資料中剛好有兩種值的類別欄位。
按住 Ctrl (或 Mac 上的 Command) 可複選。
建立迴歸決策樹模型,預測數值結果並找出關鍵因子。
主成分分析:降維、特徵提取、變數縮減,找出解釋最多變異的主要成分。
💡 按住 Ctrl (Win) 或 Cmd (Mac) 選擇多個變數
因素分析:找出潛在因子,解釋變數間的共同變異,適合量表編製和結構探索。
💡 按住 Ctrl (Win) 或 Cmd (Mac) 選擇多個變數
K-Means 集群分析:將資料點依相似性分成 K 個群組,適用於客戶分群、市場區隔、異常偵測等應用。
🎯 應用場景
- • 客戶分群(RFM分析)
- • 產品定位與市場區隔
- • 庫存管理優化
- • 異常值偵測
💡 按住 Ctrl (Win) 或 Cmd (Mac) 選擇多個變數
建議先用Elbow法找最佳K值
階層式集群 (Hierarchical Clustering):適用於 < 1000 筆樣本 的分群分析,支援數值 / 類別 / 混合資料。 可用於客戶分群、問卷分群、產品組合分析等情境。
📐 功能重點
- • 支援數值、類別與混合型資料 (Gower 距離)
- • 多種連結方法:Ward、Complete、Single、Average、Centroid
- • 互動式樹狀圖 + 動態切割線 (拖曳群集數)
- • 集群著色熱圖 + 輪廓係數 (Silhouette) 評估圖
💡 建議 2–6 個變數,樣本 < 1000 筆,以維持瀏覽器流暢度。
🔎 若混合數值 + 類別,系統會自動改用 Gower 距離。
預設 p = 3。p=2 相當於 Euclidean,p=1 為 Manhattan。
⚠️ Ward / Centroid 僅在「全部為數值變數且距離為 Euclidean」時啟用,否則自動改為 Average。
系統會依 K 值在樹狀圖上畫出切割線,同時更新熱圖與輪廓係數圖。
🌳 互動式樹狀圖 (Dendrogram)
🔥 集群著色熱圖
📈 輪廓係數 (Silhouette) 評估圖
關聯規則挖掘 (Apriori Algorithm):發現交易資料中商品之間的關聯性,適用於購物籃分析、交叉銷售策略。
🛒 經典案例
- • 啤酒 🍺 → 尿布 👶 (週五晚上購物關聯)
- • 筆記型電腦 💻 → 滑鼠 🖱️ + 滑鼠墊
- • 麵包 🍞 → 牛奶 🥛 + 果醬
📊 資料格式要求
Excel需包含以下欄位結構:
| 交易ID | 商品名稱 | 其他欄位(可選) |
| T001 | 啤酒 | ... |
| T001 | 尿布 | ... |
| T002 | 牛奶 | ... |
| T002 | 麵包 | ... |
💡 一筆交易可以有多列(每個商品一列)
用於區分不同交易
商品或項目名稱
預設 0.01 (1%)
預設 0.3 (30%)
預設 1.0
❓ 參數說明
Support (支持度): 項目組合在所有交易中出現的比例
Confidence (信賴度): 買了A之後買B的條件機率
Lift (提升度): 關聯強度,>1表示正相關,=1表示獨立,<1表示負相關< /p>
隨機森林 (Random Forest):強大的整體學習方法,透過組合多棵決策樹提升預測準確度。 支援分類和迴歸兩種任務,並提供變數重要性排名。
🌲 核心優勢
- • 高準確度:多棵樹投票,降低過擬合風險
- • 變數重要性:識別關鍵影響因子(適合 DOE 分析)
- • 穩健性:對雜訊和缺失值有較強容忍度
- • 無需特徵縮放:直接處理不同尺度的變數
預測連續數值結果(如:銷售額、產品硬度、良率)。系統將建立多棵迴歸樹並平均預測值。
💡 按住 Ctrl (Win) 或 Cmd (Mac) 多選,建議 5-50 個變數
⚙️ 模型參數設定
預設 100(50-200 推薦)
預設 10(避免過擬合)
預設 5
每棵樹隨機選取的特徵數
預測類別結果(如:良品/不良品、高/中/低風險)。系統將建立多棵分類樹並透過投票決定最終類別。
自動偵測類別變數(2-10 個類別)
💡 支援數值和類別變數混合
⚙️ 模型參數設定
神經網絡 (Neural Network):適合處理非線性關係的分類與迴歸問題,常用於影像辨識、文字分類、異常偵測等情境。
🧠 使用建議
- • 當「線性迴歸」或「決策樹」效果不足時,可嘗試神經網絡。
- • 資料筆數越多、特徵越多,神經網絡的優勢越明顯。
- • 需注意過擬合,建議搭配驗證集、正規化與早停策略。
Y 可為連續數值(迴歸)或類別變數(分類);系統會自動判斷任務型型。
建議優先選擇數值型特徵;類別變數需先做 One-Hot Encoding 或數值化處理。
可先從 8~32 嘗試,再視效能調整。
示範用途建議 100~300;實務應視資料量調整。
此版本將在瀏覽器端使用 TensorFlow.js 訓練簡單的 MLP 模型,並計算 Permutation Importance,搭配 Plotly 長條圖展示特徵重要度。