这是我的句子-:
s1= "my name is Jouy" s2= "my name is 1010$H" 有执行此操作的库,例如textstat,word2vect
我想找到每个单词的索引
(HERE I CAN NOT DO SIMPLE OPERATION , I KNOW THAT WAY) 我不知道该怎么做
如果可能的话请建议我
谢谢
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在Python中,如果你想要获取字符串中每个单词的索引,其实并不需要特定的库如textstat或word2vec,你可以直接使用Python的基本功能来实现。下面是一个简单的方法来获取每个单词的起始索引:
s1 = "my name is Jouy"
s2 = "my name is 1010$H"
def get_word_indices(sentence):
indices = []
start = 0
for word in sentence.split():
indices.append((word, start))
# 更新起始位置到当前单词的末尾
start += len(word) + 1 # +1 是为了考虑单词间的空格
return indices
# 对两个句子应用函数
indices_s1 = get_word_indices(s1)
indices_s2 = get_word_indices(s2)
print("Indices for s1:", indices_s1)
print("Indices for s2:", indices_s2)
这段代码定义了一个get_word_indices
函数,它接收一个字符串作为输入,然后遍历这个字符串(按空格分割成单词),为每个单词记录其在原字符串中的起始位置。注意,这里我们假设单词之间由单个空格分隔,并且没有处理前导或尾随空格的情况。
输出将会是包含每个单词及其起始索引的元组列表,如下所示:
Indices for s1: [('my', 0), ('name', 3), ('is', 8), ('Jouy', 11)]
Indices for s2: [('my', 0), ('name', 3), ('is', 8), ('1010$H', 11)]
这样,你就可以得到每个单词对应的起始索引了。