WangChao 576d2b2218 [feat] publaynet 数据集处理 | 1 місяць тому | |
---|---|---|
Data_Copy | 1 рік тому | |
Images_rename | 6 місяців тому | |
Labelme_LabelStudio | 3 місяців тому | |
PythonSDK_Auto_Label | 1 рік тому | |
TextRecognitionDataGenerator @ 173d457219 | 1 рік тому | |
classification_dataset_generate | 1 рік тому | |
correct_imgs_rotation | 1 рік тому | |
data_collection | 1 місяць тому | |
delete_anno_by_label | 5 місяців тому | |
dictionary_generate | 1 рік тому | |
divide_and_convert_to_coco_single_fold | 1 рік тому | |
fonts_images_generate | 1 рік тому | |
get_name_by_spider | 1 рік тому | |
idcardgenerator | 1 рік тому | |
img_augmentation | 1 рік тому | |
merge_and_divide_to_coco_multi_folds | 1 рік тому | |
model_convert | 1 рік тому | |
ocr_func_test | 1 рік тому | |
pdf_rename_to_images | 6 місяців тому | |
screenshot_save_by_label | 1 рік тому | |
semi_auto_labeling | 1 рік тому | |
text_image_orientation_dataset_generate | 1 рік тому | |
readme.md | 1 рік тому | |
requirements.txt | 1 рік тому |
更新时间:2023-05-17
在当前目录下,需要安装依赖包 运行命令 pip install -r requirements.txt
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--img_dir | str | ' ' | 待矫正图片文件夹路径 |
--img_path | str | ' ' | 待矫正图片的路径 |
--save_dir | str | ./corrected_imgs | 矫正后图片保存路径 |
对应项目--correct_imgs_rotation
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--img_dir | str | ./images | 需要转pdf的图片文件夹路径 |
--save_dir | str | ./pdf_file | 生成pdf文件的保存路径 |
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--pdf_dir | str | ' ' | 需要转图片的pdf文件夹路径 |
--pdf_path | str | ' ' | 需要转图片的单个pdf文件路径 |
--save_dir | str | ./pdf_images | 生成图片的保存路径 |
对应项目--pdf_rename_to_images
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--img_dir | str | ./images | 待重命名图片文件夹所在路径 |
--save_dir | str | ./images_result | 重命名后图片的保存路径 |
命名规范:kdan_year-month-day_index[0:8]_uuid[0:4].jpg 对应项目--Images_rename
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--input_dirs | [str,str] | ./fold1 ./fold2 | 待处理的多个文件夹(图片以及json)路径,每条路径之间用空格隔开 |
--label | str | Table | 截取图片的标签名[Table,Figure] |
--save_dir | str | ./images | 截取图片的保存路径 |
--size | int | 0 | 等比缩放短边需达到的尺寸(如不设置此参数,则按原尺寸保存) |
对应项目--screenshot_save_by_label
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--anno_dirs | [str,str] | ./fold1 ./fold2 | 待复制图片和json文件夹 |
--data_dir | str | ./fold3 | 目标文件夹 |
对应项目--Data_Copy
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--anno_dirs | [str,str] | ./fold1 ./fold2 | 待复制图片和json文件夹 |
--train_ratio | float | 0.9 | 划分比例 |
--train_dir | str | ./fold3 | 训练目标文件夹 |
--val_dir | str | ./fold4 | 验证目标文件夹 |
对应项目--Data_Copy
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--model_path | str | ./onnx_file/picodet_l_416_lp_0826.onnx | 本次使用onnx文件的路径 |
--class_file | str | ./lp_label.txt | label文件(所有label以及对应id)路径 |
--conf_Threshold | float | 0.5 | 类别置信分数,大于此分数的预测目标才会被保留 |
--img_dir | str | ./imgs | 需进行的标注的图片文件夹路径 |
--result_dir | str | ./result | 可视化的图片结果过图片保存路径 |
对应项目--semi_auto_labeling
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--mode | str | ~.model | SDK模型的路径 |
--model_licence | str | ~.txt | SDK模型的licence |
--score | float | 0.5 | 类别置信分数,大于此分数的预测目标才会被保留 |
--image_dir | str | ./images | 需进行的标注的图片文件夹路径 |
--view_result_dir | str | ./result | 可视化的图片结果过图片保存路径 |
对应项目--SDK_Auto_Label
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--mode | str | ~.model | SDK模型的路径 |
--model_licence | str | ~.txt | SDK模型的licence |
--score | float | 0.5 | 类别置信分数,大于此分数的预测目标才会被保留 |
--image_dir | str | ./images | 需进行添加标注的图片文件夹路径 |
--view_result_dir | str | ./result | 可视化的图片结果过图片保存路径 |
对应项目--SDK_Auto_Label
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--labelme_dir | str | ./images | labelme标注格式数据集路径 |
--save_coco_dir | str | ./coco_dataset | 划分训练集、验证集并转换coco格式数据集保存的路径 |
对应项目--divide_and_convert_to_coco_single_fold
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--anno_dirs | [str] | ./fold1 ./fold2 | 多个文件夹,空格隔开 |
--train_ratio | float | 0.8 | coco格式训练集比例 |
对应项目--merge_and_divide_to_coco_multi_folds
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--anno_dirs | [str] | ./fold1 ./fold2 | 多个存储Labelme导出的json文件夹,空格隔开 |
--train_ratio | int | project_id | 对应到Label_Studio的项目编号 |
对应项目--Labelme_LabelStudio
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--anno_dirs | [str] | ./fold1 ./fold2 | 多个存储Label_Studio导出的json文件夹,空格隔开 |
--train_ratio | str | ./fold3 | 存放Labelme标注格式的json文件夹 |
对应项目--Labelme_LabelStudio
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--font_dir | str | ./eng_fonts | 字体文件目录 |
--text_path | str | ./text/eng_text.txt | 语料库文件路径 |
--save_dir | str | ./font_img_dataset/windows | 生成图片保存路径 |
对应项目--fonts_images_generate
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--start | int | 0 | 生成单句语料的最小长度 |
--end | int | 30 | 生成单句语料的最大长度 |
--step | int | 2 | 单句语料长度的步长 |
--word_num | int | 10 | 单句出现的次数 |
--dict_path | str | ./chn_dict.txt | 文字字典路径 |
--save_path | str | ./text/text.txt | 生成的语料库文件路径 |
对应项目--dictionary_generate
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--img_dir | str | ./images | 图片文件夹路径 |
--save_dir | str | ./imgages_rotated | 生成的旋转的图片保存路径 |
对应项目--text_image_orientation_dataset_generate
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--img_dir | str | ./font_img_dataset/windows | 待划分的图片文件夹路径 |
--train_ratio | float | 0.8 | 训练集所占比例 |
对应项目--classification_dataset_divide
文件名 | 说明 |
---|---|
bgs | 存放背景图 |
fonts | 存放字体文件 |
materials | 存放各个工具中使用的字典、语料文件 |
cut_save.py | 截取文件夹下所有图片的特定区域并保存 |
dict_generate.py | 生成文字识别需要的字典文件 |
divide_rec_train_val.py | 将文字识别数据集划分成为训练集和验证集 |
get_addr.py | 爬虫获取身份证背面的住址 |
idcard_det_rec_generate_back.py | 生成台湾身份证背面图片 |
idcard_det_rec_generate_forward.py | 生成台湾身份证正面图片,并同时制作正面识别数据集 |
info_generate.py | 信息生成,包括台湾身份证正面的姓名、生日、发证时间,id等 |
参数名 | 数据类型 | 默认值 | 说明 |
---|---|---|---|
--img_dir | str | ./font_img_dataset/windows | 待划分的图片文件夹路径 |
--train_ratio | float | 0.8 | 训练集所占比例 |
以上所述的路径,相对路径、绝对路径均可
KDAN MOBILE SOFTWARE LTD. all rights reserved