我想用脚本帮我过滤,把比较好的域名排序到文本的最上面,然后我可以比较方便找到值得注册的域名
我要的是排序,但不是按首字母排序,而是按用到的字母数量排序
关于长度的问题,不同长度的域名抢注难度差很大,所以我已经事先都处理了,把一样长度的域名都过滤到一起来横向比较,所以每行长度都是一样的
比如我提供的100行测试数据,假设里面其中有1行是“aaaaaaa.com”,这个域名明显要好于另一行的“adkrfid.com”因为前者用到的字母数量是1(只有“a”一个字母被用到),而后者用了6个字母(其中“d”用了2次)
所以在排序方面,我希望按 用到字母的数量 来排序,而不是按首字母排序
排序完的结果类似于
代码: 全选
aaaaaaa.com
ffffdff.com
xsxsxss.com
fieiiee.com
adkrfid.com
因为上面他们用到字母数分别为1,2,2,3,6个字母
我的思路是写一段shell,来分析每一行,并在行首写上出现数比如abcca就变成3abcca,而abaab就变成2abaab
再进行sort排序,最后把开头的数字全部去掉
考虑到会出现10abcdefghjk的情况,所以如果数量大于10,全部标为0abcdefghjk,然后先删掉0开头的所有行再用sort排序
因为域名里出现10个以上的字母的情况基本可以视为垃圾域名了
还有关于计算字母数量,我有个想法,但不会实现,先把字符串排序,然后去除重复的,最后计算字符串长度,如:
ubuntu.com --字符串排序-> bntuuu.com --去除重复-> bntu.com --计算字符串长度-> length(bntu) -> 4
请各位帮我想想有没有更好的方法来实现我的要求,谢谢啦!
提供一段百行代码做测试,长度均为7(不算.com)
代码: 全选
almabon.com
alnawal.com
allowat.com
allenav.com
alkanpc.com
aliumus.com
aliciat.com
albumer.com
alawaar.com
alfrdos.com
alfanix.com
alhejas.com
alaawar.com
akawife.com
aisihua.com
akadeli.com
afducts.com
afannin.com
aerobec.com
aerodeo.com
aepteam.com
aeraces.com
agcgold.com
agapide.com
agetake.com
afrivid.com
ahcards.com
ahtians.com
aifulai.com
agpifer.com
airjoey.com
aijiahm.com
ayocool.com
aypinar.com
aygazsu.com
axitrax.com
ayabadu.com
awarewe.com
awnnews.com
awotomo.com
awpulsa.com
awryday.com
awbyrde.com
avondns.com
avriziv.com
avarasa.com
aucionm.com
attvoip.com
atudoor.com
atlguru.com
atohuna.com
athrock.com
assurey.com
aslikal.com
aspinoy.com
aspocam.com
asproot.com
askcris.com
askcrom.com
askltci.com
askltcr.com
asanitx.com
ashaicg.com
ashivji.com
arwclan.com
artwhit.com
amabrpc.com
artmeco.com
alwafad.com
altlila.com
alrameh.com
alqrarh.com
boulund.com
boshaai.com
boskina.com
bookrec.com
bonggat.com
boobkle.com
bodycea.com
boernuo.com
bogeytv.com
boinged.com
bodfund.com
azamint.com
bsmmove.com
btobink.com
btocall.com
brunosr.com
brklynd.com
brhsoft.com
boxlace.com
bpmsoul.com
cowsoul.com
coutsbk.com
coupare.com
costarj.com
cotelab.com
coreejb.com
corbinm.com
coopnan.com