阅读时间:35分钟
难度等级:⭐⭐⭐⭐ 进阶
你将收获:机器学习、LLM 集成、报告生成
智能化升级
之前完成:
✅ 实战01-07:完整平台
- CLI 工具
- Web API
- MCP 集成
- 前端界面
- 用户系统
- 团队协作当前能力:
✅ 代码统计(基础)
- 文件数量
- 代码行数
- 语言分布
❌ 缺少智能分析
- 代码质量评分
- 智能建议
- 趋势预测AI 增强目标:
✅ 机器学习模型
- 代码质量评分
- 异常检测
- 趋势预测
✅ LLM 集成
- 智能分析报告
- 改进建议
- 代码摘要
✅ 报告生成
- PDF 导出
- Excel 导出
- HTML 报告本篇目标:
添加 AI 分析能力
内容:
✅ 机器学习模型训练
✅ 代码质量评分
✅ LLM 智能建议
✅ 报告生成
✅ 数据导出学习要点:
✅ 机器学习基础 ✅ scikit-learn 使用 ✅ LLMAPI 集成 ✅ 报告生成工具 ✅ 数据可视化
一、代码质量评分
1.1特征工程
python# app/ml/feature_extraction.py
from typing importDict,List
import numpy as np
classFeatureExtractor:
"""特征提取器"""
defextract_features(self,stats:Dict)->np.ndarray:
"""
提取代码质量特征
特征:
1. 平均函数长度
2. 注释比例
3. 测试覆盖率
4. 圈复杂度
5. 代码重复率
6. 文件大小分布
"""
features=[
stats.get('avg_function_length',0),
stats.get('comment_ratio',0),
stats.get('test_coverage',0),
stats.get('cyclomatic_complexity',0),
stats.get('duplication_rate',0),
stats.get('avg_file_size',0),
stats.get('file_size_std',0),
stats.get('total_files',0),
stats.get('code_files_ratio',0),
]
returnnp.array(features)
defcalculate_derived_stats(self,project_stats:Dict)->Dict:
"""计算派生统计"""
total_lines=project_stats.get('total_lines',1)
return{
'comment_ratio':project_stats.get('comment_lines',0)/total_lines,
'code_files_ratio':project_stats.get('code_files',0)/max(project_stats.get('total_files',1),1),
'avg_file_size':total_lines/max(project_stats.get('total_files',1),1),
# 其他派生统计...
}
1.2训练模型
python# app/ml/quality_model.py
from sklearn.ensemble importRandomForestClassifier
from sklearn.model_selection importtrain_test_split
from sklearn.metrics importaccuracy_score,classification_report
import joblib
classQualityScorer:
"""代码质量评分器"""
def__init__(self):
self.model=RandomForestClassifier(
n_estimators=100,
max_depth=10,
random_state=42
)
self.feature_extractor=FeatureExtractor()
deftrain(self,X,y):
"""
训练模型
Args:
X: 特征矩阵
y: 标签 (1-5 星评分)
"""
X_train,X_test,y_train,y_test=train_test_split(
X,y,test_size=0.2,random_state=42
)
self.model.fit(X_train,y_train)
# 评估
y_pred=self.model.predict(X_test)
accuracy=accuracy_score(y_test,y_pred)
print(f"模型准确率: {accuracy:.2f}")
print(classification_report(y_test,y_pred))
# 保存模型
joblib.dump(self.model,'models/quality_scorer.pkl')
defpredict(self,project_stats:Dict)->int:
"""
预测代码质量评分
Returns:
1-5 星评分
"""
features=self.feature_extractor.extract_features(project_stats)
features=features.reshape(1,-1)
score=self.model.predict(features)[0]
returnint(score)
defpredict_proba(self,project_stats:Dict)->Dict[int,float]:
"""
预测各评分的概率
Returns:
{1: 0.1, 2: 0.2, 3: 0.3, 4: 0.25, 5: 0.15}
"""
features=self.feature_extractor.extract_features(project_stats)
features=features.reshape(1,-1)
proba=self.model.predict_proba(features)[0]
return{i+1:float(p)fori,pinenumerate(proba)}
二、LLM 智能建议
2.1LLM 集成
python# app/ai/llm_client.py
from openai importOpenAI
from typing importDict,List
import os
classLLMClient:
"""LLM 客户端"""
def__init__(self):
self.client=OpenAI(
api_key=os.getenv("OPENAI_API_KEY"),
base_url=os.getenv("OPENAI_BASE_URL","https://api.openai.com/v1")
)
self.model=os.getenv("LLM_MODEL","gpt-4")
asyncdefanalyze_project(self,stats:Dict)->Dict:
"""
分析项目并生成建议
Args:
stats: 项目统计数据
Returns:
{
"summary": "项目概要",
"strengths": ["优点1", "优点2"],
"improvements": ["改进建议1", "建议2"],
"score": 4
}
"""
prompt=f"""
你是一个代码质量分析师。请分析以下项目的统计数据,并提供专业建议。
项目统计:
- 总文件数: {stats['total_files']}
- 代码文件: {stats['code_files']}
- 总代码行数: {stats['total_lines']}
- 代码行: {stats['code_lines']} ({stats['code_lines']/stats['total_lines']*100:.1f}%)
- 注释行: {stats['comment_lines']} ({stats['comment_lines']/stats['total_lines']*100:.1f}%)
- 语言分布: {stats['language_stats']}
请以 JSON 格式返回:
{{
"summary": "1-2句话的项目概要",
"strengths": ["优点1", "优点2", "优点3"],
"improvements": ["改进建议1", "建议2", "建议3"],
"score": 1-5的评分
}}
"""
response=self.client.chat.completions.create(
model=self.model,
messages=[
{"role":"system","content":"你是专业的代码质量分析师"},
{"role":"user","content":prompt}
],
temperature=0.7,
response_format={"type":"json_object"}
)
import json
returnjson.loads(response.choices[0].message.content)
asyncdefgenerate_report(self,project:Dict)->str:
"""生成 Markdown 报告"""
analysis=awaitself.analyze_project(project['stats'])
report=f"""
# {project['name']} - 代码质量报告
## 项目概要
{analysis['summary']}
## 统计数据
| 指标 | 数值 |
|------|------|
| 总文件数 | {project['stats']['total_files']} |
| 代码行数 | {project['stats']['code_lines']:,} |
| 注释比例 | {project['stats']['comment_lines']/project['stats']['total_lines']*100:.1f}% |
## 优点
{chr(10).join(f'- {s}'for s in analysis['strengths'])}
## 改进建议
{chr(10).join(f'{i+1}. {s}'for i, s in enumerate(analysis['improvements']))}
## 评分
{'⭐'* analysis['score']} ({analysis['score']}/5)
---
生成时间: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
"""
returnreport
三、报告生成
3.1PDF 报告
python# app/reports/pdf_generator.py
from reportlab importpdfgen
from reportlab.lib.pagesizes importA4
from reportlab.lib.styles importgetSampleStyleSheet
from reportlab.platypus importSimpleDocTemplate,Paragraph,Spacer,Table,Image
import matplotlib.pyplot as plt
classPDFReportGenerator:
"""PDF 报告生成器"""
def__init__(self):
self.styles=getSampleStyleSheet()
defgenerate(self,project:Dict,output_path:str):
"""生成 PDF 报告"""
doc=SimpleDocTemplate(output_path,pagesize=A4)
story=[]
# 标题
title=Paragraph(
f"<h1>{project['name']} - 代码质量报告</h1>",
self.styles['Heading1']
)
story.append(title)
story.append(Spacer(1,12))
# 基本信息
info_table=Table([
['总文件数',str(project['stats']['total_files'])],
['代码行数',f"{project['stats']['code_lines']:,}"],
['注释比例',f"{project['stats']['comment_lines']/project['stats']['total_lines']*100:.1f}%"],
])
story.append(info_table)
story.append(Spacer(1,12))
# 语言分布图
pie_chart=self._create_language_pie(project['stats']['language_stats'])
story.append(Image(pie_chart,width=400,height=300))
# 趋势图
trend_chart=self._create_trend_chart(project['history'])
story.append(Image(trend_chart,width=500,height=250))
# 生成 PDF
doc.build(story)
def_create_language_pie(self,language_stats:Dict)->str:
"""创建语言分布饼图"""
plt.figure(figsize=(6,4.5))
labels=list(language_stats.keys())
sizes=[s['code']forsinlanguage_stats.values()]
plt.pie(sizes,labels=labels,autopct='%1.1f%%')
plt.title('语言分布')
chart_path='/tmp/language_pie.png'
plt.savefig(chart_path,dpi=100,bbox_inches='tight')
plt.close()
returnchart_path
def_create_trend_chart(self,history:List)->str:
"""创建趋势折线图"""
plt.figure(figsize=(7,3.5))
dates=[h['analyzed_at'][:10]forhinhistory]
values=[h['code_lines']forhinhistory]
plt.plot(dates,values,marker='o')
plt.title('代码行数趋势')
plt.xlabel('日期')
plt.ylabel('代码行数')
plt.xticks(rotation=45)
chart_path='/tmp/trend.png'
plt.savefig(chart_path,dpi=100,bbox_inches='tight')
plt.close()
returnchart_path
3.2Excel 导出
python# app/reports/excel_generator.py
import openpyxl
from openpyxl.styles importFont,PatternFill
from openpyxl.chart importPieChart,LineChart
classExcelReportGenerator:
"""Excel 报告生成器"""
defgenerate(self,project:Dict,output_path:str):
"""生成 Excel 报告"""
wb=openpyxl.Workbook()
# 概览页
ws=wb.active
ws.title="概览"
ws['A1']=f"{project['name']} - 代码质量报告"
ws['A1'].font=Font(size=16,bold=True)
ws['A3']="总文件数"
ws['B3']=project['stats']['total_files']
ws['A4']="代码行数"
ws['B4']=project['stats']['code_lines']
# 语言分布页
ws_lang=wb.create_sheet("语言分布")
row=1
forlang,statsinproject['stats']['language_stats'].items():
ws_lang[f'A{row}']=lang
ws_lang[f'B{row}']=stats['code']
row+=1
# 保存
wb.save(output_path)
四、API 集成
4.1分析 API
python# app/api/analysis.py
from fastapi importAPIRouter,Depends
from ..ml.quality_model importQualityScorer
from ..ai.llm_client importLLMClient
from ..reports.pdf_generator importPDFReportGenerator
from ..reports.excel_generator importExcelReportGenerator
router=APIRouter(prefix="/analysis",tags=["Analysis"])
quality_scorer=QualityScorer()
llm_client=LLMClient()
@router.post("/{project_id}/score")
asyncdefget_quality_score(project_id:int):
"""获取代码质量评分"""
project=db.query(Project).filter(Project.id==project_id).first()
score=quality_scorer.predict(project.stats)
proba=quality_scorer.predict_proba(project.stats)
return{
"project_id":project_id,
"score":score,
"probability":proba
}
@router.post("/{project_id}/suggestions")
asyncdefget_ai_suggestions(project_id:int):
"""获取 AI 建议"""
project=db.query(Project).filter(Project.id==project_id).first()
analysis=awaitllm_client.analyze_project(project.stats)
returnanalysis
@router.post("/{project_id}/report/pdf")
asyncdefgenerate_pdf_report(project_id:int):
"""生成 PDF 报告"""
project=db.query(Project).filter(Project.id==project_id).first()
generator=PDFReportGenerator()
output_path=f"/tmp/project_{project_id}_report.pdf"
generator.generate(project,output_path)
returnFileResponse(
output_path,
media_type="application/pdf",
filename=f"{project.name}_report.pdf"
)
@router.post("/{project_id}/report/excel")
asyncdefgenerate_excel_report(project_id:int):
"""生成 Excel 报告"""
project=db.query(Project).filter(Project.id==project_id).first()
generator=ExcelReportGenerator()
output_path=f"/tmp/project_{project_id}_report.xlsx"
generator.generate(project,output_path)
returnFileResponse(
output_path,
media_type="application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
filename=f"{project.name}_report.xlsx"
)
五、总结
5.1完成的功能
机器学习:
✅ 特征提取
✅ 模型训练
✅ 质量评分
✅ 概率预测LLM 集成:
✅ 项目分析
✅ 智能建议
✅ 报告生成
✅ 代码摘要报告导出:
✅ PDF 报告
✅ Excel 报告
✅ Markdown 报告
✅ 图表嵌入5.2技术栈总结
机器学习:scikit-learn, numpy
LLM:OpenAI API, LangChain
图表:matplotlib, seaborn
PDF:ReportLab
Excel:openpyxl5.3系列总结
从实战01到实战08:
✅ 实战01:CLI 工具
✅ 实战02:Web API
✅ 实战03:MCP 集成
✅ 实战04:打包发布
✅ 实战05:架构设计
✅ 实战06:后端 + Skills
✅ 实战07:前端界面
✅ 实战08:AI 特性项目规模:
代码量:~15,000 行
技术栈:15+ 个技术
功能:30+ 个功能点
时间:8 篇教程核心收获:
✅ 从 CLI 到平台
✅ 从单机到协作
✅ 从基础到智能
✅ 从开发到生产系列导航
上一篇:实战07:前端界面 下一篇:专题篇:多语言开发
本文是《AI Coding 从入门到精通》系列第23篇
用 AI 赋能,让数据说话! 🤖
夜雨聆风