TG 批量导出多个群组聊天记录后怎么进行数据清理?
1 个回答
TG导出的聊天记录一般为json或csv格式,文件结构可能比较复杂,可以按以下方法处理:
首先,确定导出数据格式,若为json,可使用python处理;若为csv,可使用Excel打开,但部分csv文件可能因编码问题无法打开。
其次,筛选有效信息,如只关心消息内容、发送时间、发送人,可删除其他字段。
再次,统一时间格式,TG导出时间格式较为混乱,建议统一为日期格式,方便后期分析。
最后,合并多个文件,如导出多个群,可按字段拼接,方便对比分析。
推荐使用python的pandas库或Notepad++等工具辅助处理。