可能我说的不太清楚,现在我把代码和结果发出来,用的是python3,原始字符串ab可能是任何字符,我要实现的是等号和上面的字符串长度一样
a = '我'
b = 'ab'
ab = '我ab'
print(len(a), len(b), len(ab), len('='))
print(ab)
print('='*len(ab))
print(len(a.encode()), len(b.encode()), len(ab.encode()), len('='.encode()))
print(ab)
print('='*len(ab.encode()))
结果是
1 2 3 1
我ab
===
3 2 5 1
我ab
=====
最后发现了这篇文章
https://lichifeng.com/truncate-strings-by-screen-width-in-python/
看来这个问题是无解了
其实我觉得你的这问题,思路是走错了。为什么我是等号的2个宽度,而ab只有1个宽度,是因为我是2个字节,而等号是1个字节。因此不如调整思路查看它们的字节数。在gbk编码下为2个字节,对于utf8为3个字节,这样应该可以解决你的问题。例如,可以通过如下的代码来实现:
d = u'我我ab'
for x in d:
x = x.encode('gbk')
print x, len(list(x))
>>>
我 2
我 2
a 1
b 1
之前假设你的系统使用的使用GBK编码,而且为python2。现在你已经说明是python3,那么我更新下我的答案:
ab = "我ab"
print '=' * len(list(ab))
>>> '='*len(list('我ab'))
'==='
>>> '='*len(list('ab'))
'=='
>>> '='*len(list('我'))
'='
那么看看这篇文章是否符合你的要求,
可以考虑使用全角的
=
(汉字本来设计就不是为了和英文的半角等宽的吧)
半角对比
我
=
全角
我
=
=
这个跟字体有关了吧,把编辑器换成等宽字体就好了
对比下面两段,length多长就打印多个少=
#coding=gb2312
a = '中文'
b = 'str'
ab = '中文str'
print len(a), len(b), len(ab)
#coding=utf-8
a = u'中文'
b = 'str'
ab = u'中文str'
print len(a.encode('gb2312')), len(b), len(ab.encode('gb2312'))
这个
len
打出的是他的长度,如果在Python3中都变成了Unicode,自然符合你的预期,CJK字符和拉丁字符都是长度为1,对于Python2而言,默认不是Unicode,而是某种编码(取决于你的文档使用的什么编码),而你encode等于是将Unicode编码成了某种编码(我没查看默认值了),所以长度变成了该字符在这个编码下所占字节数,你得到的长度就不符合你的预期了,解决方案是:
在代码文档上标明文档编码,例如
# -*- encoding: utf-8 -*-
一来告诉电脑,二来告诉自己。
在处理字符长度的时候需要decode对应编码,从而得到Unicode的码。这时候长度才满足你的需求。
在Python2上你试试:
# -*- encoding: utf-8 -*-
a = u'我'
b = u'ab'
ab = u'我ab'
print len(a), len(b), len(ab)
应该就符合你的预期了。