AI Coding 从入门到精通-数据分析+AI特性

阅读时间：35分钟

难度等级：⭐⭐⭐⭐ 进阶

你将收获：机器学习、LLM 集成、报告生成

智能化升级

之前完成：

✅ 实战01-07：完整平台
   - CLI 工具
   - Web API
   - MCP 集成
   - 前端界面
   - 用户系统
   - 团队协作

当前能力：

✅ 代码统计（基础）
   - 文件数量
   - 代码行数
   - 语言分布

❌ 缺少智能分析
   - 代码质量评分
   - 智能建议
   - 趋势预测

AI 增强目标：

✅ 机器学习模型
   - 代码质量评分
   - 异常检测
   - 趋势预测

✅ LLM 集成
   - 智能分析报告
   - 改进建议
   - 代码摘要

✅ 报告生成
   - PDF 导出
   - Excel 导出
   - HTML 报告

本篇目标：

添加 AI 分析能力

内容：
✅ 机器学习模型训练
✅ 代码质量评分
✅ LLM 智能建议
✅ 报告生成
✅ 数据导出

学习要点：

✅ 机器学习基础
✅ scikit-learn 使用
✅ LLMAPI 集成
✅ 报告生成工具
✅ 数据可视化

一、代码质量评分

1.1特征工程

python# app/ml/feature_extraction.py
from typing importDict,List
import numpy as np

classFeatureExtractor:
"""特征提取器"""

defextract_features(self,stats:Dict)->np.ndarray:
"""
        提取代码质量特征

        特征：
        1. 平均函数长度
        2. 注释比例
        3. 测试覆盖率
        4. 圈复杂度
        5. 代码重复率
        6. 文件大小分布
        """
features=[
stats.get('avg_function_length',0),
stats.get('comment_ratio',0),
stats.get('test_coverage',0),
stats.get('cyclomatic_complexity',0),
stats.get('duplication_rate',0),
stats.get('avg_file_size',0),
stats.get('file_size_std',0),
stats.get('total_files',0),
stats.get('code_files_ratio',0),
]

returnnp.array(features)

defcalculate_derived_stats(self,project_stats:Dict)->Dict:
"""计算派生统计"""
total_lines=project_stats.get('total_lines',1)

return{
'comment_ratio':project_stats.get('comment_lines',0)/total_lines,
'code_files_ratio':project_stats.get('code_files',0)/max(project_stats.get('total_files',1),1),
'avg_file_size':total_lines/max(project_stats.get('total_files',1),1),
# 其他派生统计...
}

1.2训练模型

python# app/ml/quality_model.py
from sklearn.ensemble importRandomForestClassifier
from sklearn.model_selection importtrain_test_split
from sklearn.metrics importaccuracy_score,classification_report
import joblib

classQualityScorer:
"""代码质量评分器"""

def__init__(self):
self.model=RandomForestClassifier(
n_estimators=100,
max_depth=10,
random_state=42
)
self.feature_extractor=FeatureExtractor()

deftrain(self,X,y):
"""
        训练模型

        Args:
            X: 特征矩阵
            y: 标签 (1-5 星评分)
        """
X_train,X_test,y_train,y_test=train_test_split(
X,y,test_size=0.2,random_state=42
)

self.model.fit(X_train,y_train)

# 评估
y_pred=self.model.predict(X_test)
accuracy=accuracy_score(y_test,y_pred)

print(f"模型准确率: {accuracy:.2f}")
print(classification_report(y_test,y_pred))

# 保存模型
joblib.dump(self.model,'models/quality_scorer.pkl')

defpredict(self,project_stats:Dict)->int:
"""
        预测代码质量评分

        Returns:
            1-5 星评分
        """
features=self.feature_extractor.extract_features(project_stats)
features=features.reshape(1,-1)

score=self.model.predict(features)[0]
returnint(score)

defpredict_proba(self,project_stats:Dict)->Dict[int,float]:
"""
        预测各评分的概率

        Returns:
            {1: 0.1, 2: 0.2, 3: 0.3, 4: 0.25, 5: 0.15}
        """
features=self.feature_extractor.extract_features(project_stats)
features=features.reshape(1,-1)

proba=self.model.predict_proba(features)[0]
return{i+1:float(p)fori,pinenumerate(proba)}

二、LLM 智能建议

2.1LLM 集成

python# app/ai/llm_client.py
from openai importOpenAI
from typing importDict,List
import os

classLLMClient:
"""LLM 客户端"""

def__init__(self):
self.client=OpenAI(
api_key=os.getenv("OPENAI_API_KEY"),
base_url=os.getenv("OPENAI_BASE_URL","https://api.openai.com/v1")
)
self.model=os.getenv("LLM_MODEL","gpt-4")

asyncdefanalyze_project(self,stats:Dict)->Dict:
"""
        分析项目并生成建议

        Args:
            stats: 项目统计数据

        Returns:
            {
                "summary": "项目概要",
                "strengths": ["优点1", "优点2"],
                "improvements": ["改进建议1", "建议2"],
                "score": 4
            }
        """
prompt=f"""
你是一个代码质量分析师。请分析以下项目的统计数据，并提供专业建议。

项目统计：
- 总文件数: {stats['total_files']}
- 代码文件: {stats['code_files']}
- 总代码行数: {stats['total_lines']}
- 代码行: {stats['code_lines']} ({stats['code_lines']/stats['total_lines']*100:.1f}%)
- 注释行: {stats['comment_lines']} ({stats['comment_lines']/stats['total_lines']*100:.1f}%)
- 语言分布: {stats['language_stats']}

请以 JSON 格式返回：
{{
  "summary": "1-2句话的项目概要",
  "strengths": ["优点1", "优点2", "优点3"],
  "improvements": ["改进建议1", "建议2", "建议3"],
  "score": 1-5的评分
}}
"""

response=self.client.chat.completions.create(
model=self.model,
messages=[
{"role":"system","content":"你是专业的代码质量分析师"},
{"role":"user","content":prompt}
],
temperature=0.7,
response_format={"type":"json_object"}
)

import json
returnjson.loads(response.choices[0].message.content)

asyncdefgenerate_report(self,project:Dict)->str:
"""生成 Markdown 报告"""
analysis=awaitself.analyze_project(project['stats'])

report=f"""
# {project['name']} - 代码质量报告

## 项目概要

{analysis['summary']}

## 统计数据

| 指标 | 数值 |
|------|------|
| 总文件数 | {project['stats']['total_files']} |
| 代码行数 | {project['stats']['code_lines']:,} |
| 注释比例 | {project['stats']['comment_lines']/project['stats']['total_lines']*100:.1f}% |

## 优点

{chr(10).join(f'- {s}'for s in analysis['strengths'])}

## 改进建议

{chr(10).join(f'{i+1}. {s}'for i, s in enumerate(analysis['improvements']))}

## 评分

{'⭐'* analysis['score']} ({analysis['score']}/5)

---
生成时间: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
"""
returnreport

三、报告生成

3.1PDF 报告

python# app/reports/pdf_generator.py
from reportlab importpdfgen
from reportlab.lib.pagesizes importA4
from reportlab.lib.styles importgetSampleStyleSheet
from reportlab.platypus importSimpleDocTemplate,Paragraph,Spacer,Table,Image
import matplotlib.pyplot as plt

classPDFReportGenerator:
"""PDF 报告生成器"""

def__init__(self):
self.styles=getSampleStyleSheet()

defgenerate(self,project:Dict,output_path:str):
"""生成 PDF 报告"""
doc=SimpleDocTemplate(output_path,pagesize=A4)
story=[]

# 标题
title=Paragraph(
f"<h1>{project['name']} - 代码质量报告</h1>",
self.styles['Heading1']
)
story.append(title)
story.append(Spacer(1,12))

# 基本信息
info_table=Table([
['总文件数',str(project['stats']['total_files'])],
['代码行数',f"{project['stats']['code_lines']:,}"],
['注释比例',f"{project['stats']['comment_lines']/project['stats']['total_lines']*100:.1f}%"],
])
story.append(info_table)
story.append(Spacer(1,12))

# 语言分布图
pie_chart=self._create_language_pie(project['stats']['language_stats'])
story.append(Image(pie_chart,width=400,height=300))

# 趋势图
trend_chart=self._create_trend_chart(project['history'])
story.append(Image(trend_chart,width=500,height=250))

# 生成 PDF
doc.build(story)

def_create_language_pie(self,language_stats:Dict)->str:
"""创建语言分布饼图"""
plt.figure(figsize=(6,4.5))

labels=list(language_stats.keys())
sizes=[s['code']forsinlanguage_stats.values()]

plt.pie(sizes,labels=labels,autopct='%1.1f%%')
plt.title('语言分布')

chart_path='/tmp/language_pie.png'
plt.savefig(chart_path,dpi=100,bbox_inches='tight')
plt.close()

returnchart_path

def_create_trend_chart(self,history:List)->str:
"""创建趋势折线图"""
plt.figure(figsize=(7,3.5))

dates=[h['analyzed_at'][:10]forhinhistory]
values=[h['code_lines']forhinhistory]

plt.plot(dates,values,marker='o')
plt.title('代码行数趋势')
plt.xlabel('日期')
plt.ylabel('代码行数')
plt.xticks(rotation=45)

chart_path='/tmp/trend.png'
plt.savefig(chart_path,dpi=100,bbox_inches='tight')
plt.close()

returnchart_path

3.2Excel 导出

python# app/reports/excel_generator.py
import openpyxl
from openpyxl.styles importFont,PatternFill
from openpyxl.chart importPieChart,LineChart

classExcelReportGenerator:
"""Excel 报告生成器"""

defgenerate(self,project:Dict,output_path:str):
"""生成 Excel 报告"""
wb=openpyxl.Workbook()

# 概览页
ws=wb.active
ws.title="概览"

ws['A1']=f"{project['name']} - 代码质量报告"
ws['A1'].font=Font(size=16,bold=True)

ws['A3']="总文件数"
ws['B3']=project['stats']['total_files']

ws['A4']="代码行数"
ws['B4']=project['stats']['code_lines']

# 语言分布页
ws_lang=wb.create_sheet("语言分布")

row=1
forlang,statsinproject['stats']['language_stats'].items():
ws_lang[f'A{row}']=lang
ws_lang[f'B{row}']=stats['code']
row+=1

# 保存
wb.save(output_path)

四、API 集成

4.1分析 API

python# app/api/analysis.py
from fastapi importAPIRouter,Depends
from ..ml.quality_model importQualityScorer
from ..ai.llm_client importLLMClient
from ..reports.pdf_generator importPDFReportGenerator
from ..reports.excel_generator importExcelReportGenerator

router=APIRouter(prefix="/analysis",tags=["Analysis"])

quality_scorer=QualityScorer()
llm_client=LLMClient()

@router.post("/{project_id}/score")
asyncdefget_quality_score(project_id:int):
"""获取代码质量评分"""
project=db.query(Project).filter(Project.id==project_id).first()

score=quality_scorer.predict(project.stats)
proba=quality_scorer.predict_proba(project.stats)

return{
"project_id":project_id,
"score":score,
"probability":proba
}

@router.post("/{project_id}/suggestions")
asyncdefget_ai_suggestions(project_id:int):
"""获取 AI 建议"""
project=db.query(Project).filter(Project.id==project_id).first()

analysis=awaitllm_client.analyze_project(project.stats)

returnanalysis

@router.post("/{project_id}/report/pdf")
asyncdefgenerate_pdf_report(project_id:int):
"""生成 PDF 报告"""
project=db.query(Project).filter(Project.id==project_id).first()

generator=PDFReportGenerator()
output_path=f"/tmp/project_{project_id}_report.pdf"

generator.generate(project,output_path)

returnFileResponse(
output_path,
media_type="application/pdf",
filename=f"{project.name}_report.pdf"
)

@router.post("/{project_id}/report/excel")
asyncdefgenerate_excel_report(project_id:int):
"""生成 Excel 报告"""
project=db.query(Project).filter(Project.id==project_id).first()

generator=ExcelReportGenerator()
output_path=f"/tmp/project_{project_id}_report.xlsx"

generator.generate(project,output_path)

returnFileResponse(
output_path,
media_type="application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
filename=f"{project.name}_report.xlsx"
)

五、总结

5.1完成的功能

机器学习：

✅ 特征提取
✅ 模型训练
✅ 质量评分
✅ 概率预测

LLM 集成：

✅ 项目分析
✅ 智能建议
✅ 报告生成
✅ 代码摘要

报告导出：

✅ PDF 报告
✅ Excel 报告
✅ Markdown 报告
✅ 图表嵌入

5.2技术栈总结

机器学习：scikit-learn, numpy
LLM：OpenAI API, LangChain
图表：matplotlib, seaborn
PDF：ReportLab
Excel：openpyxl

5.3系列总结

从实战01到实战08：

✅ 实战01：CLI 工具
✅ 实战02：Web API
✅ 实战03：MCP 集成
✅ 实战04：打包发布
✅ 实战05：架构设计
✅ 实战06：后端 + Skills
✅ 实战07：前端界面
✅ 实战08：AI 特性

项目规模：

代码量：~15,000 行
技术栈：15+ 个技术
功能：30+ 个功能点
时间：8 篇教程

核心收获：

✅ 从 CLI 到平台
✅ 从单机到协作
✅ 从基础到智能
✅ 从开发到生产

系列导航

本文是《AI Coding 从入门到精通》系列第23篇

用 AI 赋能，让数据说话！ 🤖