Skip to content

Data Analysis: core concept, logic, deep insight

Core

Trích "certainty" guide business từ data hỗn loạn thế nào? Web app sinh data behavior cực lớn mỗi giây. Chỉ xem total (vd total visit) thường che sự thật. Chương này từ basic stats đến advanced business analysis.


0. Overview: bản chất data analysis

Nhiều người nghĩ liếc report = analysis. Không hiểu transformation "data → information → insight" sẽ kẹt trong detail. Mục tiêu cuối không phải report, mà decision.

Data analysis không phải "report tổng hợp", mà dimension reduction + feature extraction.

  • Raw Data: record rời rạc (vd: user A click button B 10:01)
  • Information: data processed (vd: 30% user click B hôm nay)
  • Insight: phát hiện rule (vd: button B click rate mobile cao hơn PC → mobile user dựa nhiều vào tính năng này)

Goal: framework "observe → decompose → locate → decide" closed-loop drive business growth.


1. Descriptive stats: 1 câu tóm bức tranh

10k row data không xem từng row được. Cần information compression, vài indicator capture pulse. Không hiểu trap mean vs median → bị extreme value dẫn dắt sai (vd "average consumption per user").

📊描述性统计演示输入数据,实时计算统计指标
面对大量数据时,我们需要用少数 代表性指标 来概括全貌。输入一组数字,观察均值、中位数、标准差等指标如何描述数据的 集中趋势离散程度
样本数
10
数据点总数
均值
51.50
所有数值的平均值
中位数
50.50
排序后中间位置的值
众数
出现次数最多的值
标准差
27.39
数据离散程度
数据分布(升序排列)
12
21
23
34
45
56
67
78
89
90

1.1 Mean — baseline

Tổng / count. Hại: bị outlier dẫn. Vd 9 nhân viên 5k, sếp 100k → mean 14.5k, không đại diện majority.

1.2 Median + Mode

  • Median: sort, lấy giữa. Chống outlier, true "middle layer".
  • Mode: value xuất hiện nhiều nhất. Phân tích "product user thích nhất", "error code thường gặp".

1.3 Standard Deviation: rộng-hẹp distribution

Mức độ data dao động quanh mean.

  • Low STD: data tập trung, mean đại diện tốt (vd zero defect production line)
  • High STD: data tản, cá thể khác nhiều
  • Use: monitoring perf, high STD → system instability, có nhiều "long-tail slow request"

2. Data aggregation: khai thác micro rule

"Mọi user conversion 5% trung bình" thường true vô nghĩa. Phải cắt data, phát hiện khác biệt khu vực, channel, device. Aggregation xuyên "đồng phục average".

Individual behavior chance, group behavior có statistical rule. Data Aggregation core: "slice" theo dimension.

🧮数据聚合演示拆分-计算-组合
"所有用户平均转化率 5%" 往往毫无意义。通过 分组聚合 把数据"切开",才能发现不同用户之间的真实差异。点击下方操作,观察同一份原始数据如何产生不同的 聚合视角
用户 ID订单号金额(元)日期
U001ORD0011002024-01-01
U001ORD0022002024-01-02
U002ORD0031502024-01-01
U002ORD0043002024-01-03
U003ORD0052502024-01-02
U001ORD0061802024-01-04
用户 ID订单数总金额
U0013480
U0022450
U0031250
SQL 示例
SELECT user_id, COUNT(*) as order_count, SUM(amount) as total
FROM orders GROUP BY user_id;

2.1 Core logic: Split-Apply-Combine

  1. Split: theo attribute (city, channel, new/old user)
  2. Apply: aggregate function: COUNT, SUM, AVG
  3. Combine: compare group, tìm diff

2.2 Sao phải Group By?

Aggregated data che vấn đề. Vd: overall conversion tăng, nhưng split ra thấy "Hà Nội" spike kéo, các vùng khác đều rớt. Aggregation định vị chính xác.


3. Funnel model: định vị "bleed point" của value chain

Đổ resource lớn pull user, kết quả conversion ít, tiền phí hả? Funnel cho biết user vấp ở step nào. Học section này = từ "guess" sang "precise R&D".

User từ entry → final goal (paid) = lọc dần. Funnel không chỉ xem conversion cuối, mà xem mất người ở đâu.

🔻漏斗分析演示定位转化链的"出血点"
用户从进入到完成目标是一个层层筛选的过程。漏斗模型不只看最终转化率,更要找到 在哪里丢了人 ——在最窄的地方投入优化,收益通常最大。
访问商品页10,000 人
总转化 100.0%
加入购物车6,000 人
总转化 60.0% 步骤转化 60.0%
进入结算页4,000 人
总转化 40.0% 步骤转化 66.7%
完成支付2,500 人
总转化 25.0% 步骤转化 62.5%
洞察
最低转化步骤: 加入购物车 (60.0%)
整体转化率:25.0%
建议:优先优化 加入购物车 环节,减少体验摩擦

3.1 Core conversion metric

  • Overall conversion: finish endpoint / start total
  • Step conversion: current step / previous step
  • Drop rate: 1 - step conversion

3.2 Deep analysis

Step có drop rate bất thường → có experience friction. Vd:

  • Drop ở register page → form phức tạp, OTP không nhận
  • Drop ở chọn payment → payment method ít, jump chậm

Optimize chỗ funnel nhất → ROI cao nhất.


4. Retention analysis: "core" health check

Retention là gold standard #1. Pull user = đổ nước vào thùng, retention = check thùng có rò không. Chỉ biết total visit (traffic) không biết retention = không judge product growth healthy hay number game.

User growth không = success, giữ user mới là core value. Retention = % user revisit sau time.

📈留存分析演示产品的"硬核"体检
拉新是给桶加水,留存是看桶漏不漏。留存曲线若 趋于平稳,说明产品已获得 PMF;若 持续跌落至零,说明核心价值未被验证。
注册日期注册人数次日留存7日留存30日留存
2024-01-01100045%32%18%
2024-01-02120042%28%15%
2024-01-0395040%25%12%
2024-01-04110038%30%14%
2024-01-05105041%33%16%
2024-01-06130043%29%13%
2024-01-07115040%31%15%
100%50%0D1D2D3D4D5D6D7
次日留存
7日留存
30日留存

4.1 Time window core

  • D1 retention: "first impression". 24h sau lần đầu, user cảm core value chưa?
  • D7 retention: "habit formation". Tuần đầu form habit dùng?
  • D30 retention: "long-term stickiness". Quyết product survival ceiling.

4.2 Retention curve shape: judge PMF

  • Drop tới 0: product không giải pain, hoặc target sai
  • Flatten (long tail): đã có PMF (Product-Market Fit), có loyal user, base scale lên được

5. Kết: build scientific data intuition

Analyst tốt có critical thinking, không bị bề ngoài lừa:

  1. Xem distribution, không chỉ mean: nghĩ về diff + outlier
  2. Xem local, không chỉ total: multi-dim aggregate restore real scenario
  3. Xem trend, không chỉ point: retention curve xem long-term health
  4. Tìm break, không blind optimize: funnel locate real bottleneck

Goal không phải report đẹp, mà giảm uncertainty về tối thiểu, decide based on fact.

2026 cho VN dev

  • Tool: PostHog, Amplitude, Mixpanel, Heap (product analytics)
  • SQL skill: must, ngay cả product manager
  • Data viz: Metabase (open-source), Superset, Tableau
  • VN context: Shopee, Tiki dùng Amplitude/Mixpanel; bank dùng Tableau/PowerBI
  • AI analytics: ChatGPT/Claude phân tích CSV, gen SQL query, draft chart
  • Future: text-to-SQL tool (vendor specific), AI agent analyze data tự động