要解决的问题

市场整机更换,从更换到返厂拆检确认问题原因,平均历时2个多月,重大问题不能早预警、早分析、早解决。

解决思路

整机更换时,维修服务人员会填写维修过程信息,包括故障现象、可能原因、维修方案、协调内容、费用明细等,在数据库中保存在一个字段里。与此同时,返厂拆检确认的原因分类,也已保存至数据库中。通过建立维修过程信息和拆检原因分类的模型,对未拆检的更换原因进行预测,提升响应速度。

数据管道

graph LR
subgraph 数据抽取与转换
   direction LR
   a((市场换机数据)) -.-> e[LLM关键信息提取] -.-> c[数据抽取与处理]
   a --> c
   b((拆检数据)) --> c
   c --> d((分析用结果表))
end
subgraph 模型训练
   direction LR
   d --> f[文本向量化]
   f -- X --> g[模型训练]
   d -- y --> g
end
subgraph 结果应用与存储
   direction LR
   g --> h((结果存储))
end

模型规划及测试

  1. 原始文本处理: 选项一:直接使用原始信息;
    选项二:从原始信息提取有效信息。使用deepseek-r1,通过结构化提示词,提取故障现象、原因分析、处理措施、责任归属,以json形式返回。

  2. 文本向量化: 选项一:统计模型。jieba分词,使用scikit-learn TfIdfVectorizer;
    选项二:语义模型。使用bge-large-zh-v1.5。

  3. 分类模型: 选项一:使用scikit-learn svm.SVC; 选项二:使用lightgbm LGBMClassifier。

  4. 测试及选择:

序号 方案 参数设置 准确度
1 原始信息 + TfIdfVectorizer + SVC TfIdfVectorizer max_features=1000, SVC kernel=’linear’ 65%
2 抽取信息 + TfIdfVectorizer + SVC deepseek-r1 temperature=0.7, TfIdfVectorizer max_features=1000, SVC kernel=’linear’ 65%
3 抽取信息 + TfIdfVectorizer + LGBMClassifier deepseek-r1 temperature=0.7, TfIdfVectorizer max_features=1000 18%
4 抽取信息+ bge-large-zh-v1.5 + LGBMClassifier deepseek-r1 temperature=0.7 16%

基于成本和效率考量,选择方案1。

模型表现差异原因分析

业务识别:原因预测是对维修过程信息进行符号处理,需要精确区分。

模型表现差异的原因:

  1. TF-IDF与bge-large-zh-v1.5向量化的差异:
    • TF-IDF:生成高维、稀疏、正交向量,符号区分度高;
    • bge-large-zh-v1.5:高维、稠密、旋转向量,近似语义区分度低。
  2. SVC与LightGBM的差异:
    • SVC:几何,基于支持向量,寻找空间中的最佳分割面,适合小样本,适用于高维、稀疏、同质化特征;
    • LightGBM:逻辑,基于树,通过一系列If-Then规则的组合来逼近答案,样本越大越好。适用于语义解耦、稠密的结构化特征(表格数据)。
  3. 降低deepseek-r1 temperature=0.3后,使用TF-IDF + SVC,模型准确度反而下降10%左右,看来模型抽取损失了一些信息。