我正在针对多种语言的单词训练反向去噪自动编码器。为了创建输入输出,我需要列出Python中所有可能的unicode和ascii字符。我的数据中确实包含诸如“ó”,“é”之类的字符以及不在string.printable中的怪异撇号。我知道我的数据涵盖的语言是俄语,意大利语,荷兰语,捷克语和英语。因此,所有使用英文字母但也要加上英文字母的语言。
到目前为止,我的字典是
[c for c in string.printable] + [chr(i) for i in range(1000, 1100)] + ['’', 'ó']
但这并不涵盖我所有需要的字母。