4.0 KiB
4.0 KiB
Markdown解析器byte_offset计算修复报告
问题描述
根据promptx/tauri-desktop-app-expert开发规范的要求,检查了markdown解析逻辑中byte_offset的计算是否正确。发现了以下关键问题:
1. 原始问题
问题1:错误的偏移量计算方式
- 原代码在解析过程中手动累加
current_offset,这种方式不准确 - 没有正确处理pulldown-cmark解析器的事件顺序和内容映射关系
- 对于UTF-8字符的字节长度计算不准确
问题2:缺乏UTF-8支持验证
- 缺少针对UTF-8字符的byte_offset计算测试
- 没有验证字符偏移和字节偏移之间的转换正确性
修复方案
1. 使用pulldown-cmark的offset_iter
修复前:
let parser = CmarkParser::new(text);
let mut events = Vec::new();
let mut current_offset = 0;
for event in parser {
events.push((event.clone(), current_offset));
// 手动计算偏移量(不准确)
match &event {
Event::Text(text) => current_offset += text.len(),
// ...
}
}
修复后:
let parser = CmarkParser::new_with_broken_link_callback(
text,
pulldown_cmark::Options::all(),
None
);
let mut events = Vec::new();
// 使用pulldown-cmark提供的正确偏移量信息
for (event, range) in parser.into_offset_iter() {
events.push((event, range.start));
}
2. 正确的字节偏移计算
修复前:
// 使用不准确的字符串长度
end: self.calculate_position(source_text, current_offset + text.len())
修复后:
// 使用正确的字节长度
end: self.calculate_position_from_byte_offset(source_text, *byte_offset + text.as_bytes().len())
3. 增强的位置计算方法
添加了专门的方法来处理字节偏移和字符偏移之间的转换:
/// 根据字节偏移计算位置信息
fn calculate_position_from_byte_offset(&self, text: &str, byte_offset: usize) -> Position
/// 根据字符偏移计算位置信息
fn calculate_position_from_char_offset(&self, text: &str, char_offset: usize) -> Position
测试验证
1. ASCII字符测试
#[test]
fn test_byte_offset_calculation_ascii() {
let text = "Hello\nWorld";
// 验证各个位置的字节偏移计算正确性
}
2. UTF-8字符测试
#[test]
fn test_byte_offset_calculation_utf8() {
let text = "你好\n世界"; // UTF-8字符测试
// 验证中文字符的字节偏移计算正确性
}
3. 字符偏移转换测试
#[test]
fn test_char_offset_to_byte_offset_conversion() {
// 验证字符偏移和字节偏移之间的双向转换
}
4. 复杂markdown测试
#[test]
fn test_complex_markdown_byte_offsets() {
let markdown = "# 标题\n\n这是**粗体**和*斜体*文本。\n\n```rust\nfn main() {\n println!(\"你好\");\n}\n```";
// 验证复杂markdown结构的偏移量计算
}
修复结果
测试通过情况
- ✅ ASCII字符byte_offset计算正确
- ✅ UTF-8字符byte_offset计算正确
- ✅ 字符偏移与字节偏移转换正确
- ✅ 复杂markdown结构解析正确
- ✅ 位置一致性验证通过
- ✅ 所有原有测试继续通过
性能影响
- 使用pulldown-cmark的内置offset_iter,性能更优
- 减少了手动计算的开销
- 提高了解析准确性
符合开发规范
根据promptx/tauri-desktop-app-expert规范要求:
- 类型安全:✅ 使用Rust的类型系统确保偏移量计算的安全性
- 性能优先:✅ 使用高效的pulldown-cmark内置方法
- 代码质量:✅ 添加了全面的单元测试
- 错误处理:✅ 完善的边界检查和错误处理
- 文档完整:✅ 详细的代码注释和测试文档
总结
通过这次修复,markdown解析器的byte_offset计算现在完全正确,特别是对UTF-8字符的支持。修复遵循了Tauri开发规范,确保了代码质量、性能和可维护性。所有测试都通过,证明修复是成功的且没有破坏现有功能。