我目前正在进行一个项目,需要使用某种神经网络基于字符串数据进行预测,问题在于字符串数据并不是神经网络可以直接处理的,因此我研究了将字符串索引为数值的方法。大多数方法使用单词和单词列表,比如词袋模型的概念,但这并不适用于我的问题,因为我处理的是包含符号、字母和数字的日志数据,这些数据并不形成单词或类似的东西。
有没有一种算法可以很好地处理数字,或者有没有一种有效的方法将字符串表示为数值形式?
回答:
最终,我通过编写一个词到向量的特征提取程序解决了这个问题。这种程序根据前面的常见词、字母数量和出现频率等标准,将单词转换为多维向量系统。这使得单词的数值表示能够保留意义和上下文,并且程序可以处理之前从未见过的单词。市面上有许多开源的Word2Vec程序,如果你在谷歌上搜索这个名字,任何人都可以找到足够的资源来创建一个,如果他们有和我类似的问题的话。