SkyDeck.ai Docs

CtrlK

註冊管理員登入聯絡我們

LLM 評估報告

模型

日期

總回應時間 (秒)

通過測試數

平均 CodeBLEU (0-1)

平均有用性評分 (0-4)

平均功能正確性評分 (0-4)

claude-opus-4-20250514

2025-05-27

682.341

45

0.373498

3.68902

3.71951

claude-sonnet-4-20250514

2025-05-27

685.546

112

0.317174

3.7378

3.65854

claude-3-7-sonnet-20250219

2025-05-27

746.497

108

0.319258

3.65244

3.65244

claude-3-5-sonnet-20241022

2025-05-27

445.549

114

0.332094

3.65244

3.72561

gpt-4.1

2025-05-27

340.45

114

0.345565

3.71951

3.79878

o4-mini

2025-05-27

1380.26

128

0.322408

3.70122

3.7439

o3

2025-05-27

1592.45

141

0.314449

3.71341

3.85366

gpt-4o

2025-05-27

254.478

123

0.305002

3.70732

3.7378

gemini_gemini-2.0-flash

2025-05-27

428.324

102

0.304022

3.65244

3.60976

gemini_gemini-2.5-pro-preview-05-06

2025-05-27

1317.42

71

0.319577

2.45732

2.67683

gemini_gemini-2.5-flash-preview-05-20

2025-05-27

1042.03

108

0.32728

3.39024

3.46341

總回應時間 (秒)： 模型生成所有輸出的總時間。

通過測試數： 模型在評估期間通過的單元測試數量，總共 164 個測試。

平均 CodeBLEU：平均 CodeBLEU 分數，評估基於語法和語義正確性的代碼生成質量的指標。

平均 有用性評分：模型輸出有用性的平均評分，由 LLM 模型評定。

0：片段完全無幫助，與問題無關。
1：片段稍微有幫助，包含與問題相關的信息，但從頭開始寫解決方案更容易。
2：片段有些有幫助，需要進行重大更改（與片段的大小相比），但仍然有用。
3：片段有幫助，但需要稍微改變以解決問題。
4：片段非常有幫助，解決了問題。

平均 功能正確性評分：模型輸出功能正確性的平均分數，評估輸出滿足功能需求的程度，由 LLM 模型評定。

0（未通過所有可能的測試）： 代碼片段完全不正確且毫無意義。
4（通過所有可能的測試）： 代碼片段完全正確，能處理所有情況。

PreviousAI 文檔 NextSkyDeck.ai LLM 準備文檔

Last updated 1 month ago