information-retrieval

IT技术

理解pytrec_eval中nDCG格式的问题？

xiaolong · 2025年5月31日 · 0 Comment

我正在使用pytrec_eval来计算nDCG分数。例…

IT技术

如何在Python中创建术语文档

xiaolong · 2025年5月22日 · 0 Comment

我有来自IMDB数据集的16000条记录，类似于这样 …

IT技术

词列表聚类

xiaolong · 2025年5月22日 · 0 Comment

假设我有一个词的列表集合，例如 [[‘apple’,’…

IT技术

在tensorflow.metrics中，precision_at_k和precision_at_top_k的区别？

xiaolong · 2025年4月15日 · 0 Comment

在TensorFlow的Python API中，tf….

IT技术

关于DSSM中的词哈希的困惑？

xiaolong · 2025年4月15日 · 0 Comment

在论文Learning Deep Structured…

IT技术

评估无监督点击日志的搜索引擎

xiaolong · 2025年4月13日 · 0 Comment

我有用户在我的网站上进行搜索的日志记录，包括他们输入的…

IT技术

通过机器学习从非结构化文本文件中检索信息

xiaolong · 2025年4月13日 · 0 Comment

我有一堆.txt文件，这些文件是从PDF中提取的字符串…

IT技术

使召回率在调和平均数中的重要性翻倍

xiaolong · 2025年4月12日 · 0 Comment

调和平均数的公式为：(2*Recall*Precisi…

IT技术

用于学习排序算法的好查询-文档数据集？

xiaolong · 2025年4月12日 · 0 Comment

最近我开始研究一个涉及特征提取和排序的学习排序算法。我…

IT技术

如何使用Mallet计算给定查询的topic概率

xiaolong · 2025年4月12日 · 0 Comment

我想在专家查找项目中使用Mallet。我对Mallet…

IT技术

产品价格比较工具：匹配相同商品的难题

xiaolong · 2025年4月12日 · 0 Comment

我正在开发一个电商产品价格比较工具（使用Python）…

IT技术

用于构建信息检索系统的(Query, Document, Relevance)免费数据集

xiaolong · 2025年4月11日 · 0 Comment

我正在寻找类似“英语相关性判断文件列表”的数据集： h…

IT技术

如何正确地对文本分类器进行tfidf变换和“拟合”值？

xiaolong · 2025年4月10日 · 0 Comment

我正在编写一个朴素贝叶斯分类器，因为我有一大组文本文档…

IT技术

如何在有限空间内容纳大型词典，同时尽量减少对准确性的影响？

xiaolong · 2025年4月10日 · 0 Comment

我正在尝试使用一个仅允许30kb数据的微控制器来实现一…

IT技术

如何在文本中单词不经常重复的情况下准备用于文本分类的特征向量？

xiaolong · 2025年4月9日 · 0 Comment

我需要对一组电子邮件进行文本分类。但是，我的文本中的所…

IT技术

高效从文本中提取WikiData实体

xiaolong · 2025年4月8日 · 0 Comment

我有大量的文本（数百万），每个文本的长度在100到40…

IT技术

不同组别规模的精确度和召回率计算

xiaolong · 2025年4月8日 · 0 Comment

我在任何地方都没有找到这个问题的答案，所以我希望这里有…

IT技术

能够找到可视化表达的句子的语义搜索

xiaolong · 2025年4月8日 · 0 Comment

假设我想构建一个搜索引擎，能够遍历文本并找出可以转化为…

IT技术

计算点击数据中的精确度和召回率

xiaolong · 2025年4月7日 · 0 Comment

我正在尝试使用点击数据构建精确度和召回率的图表。我有两…

IT技术

使用同义词的文档相似性

xiaolong · 2025年4月7日 · 0 Comment

我有一堆文档，其中一些文档是其他文档的副本，文本被打乱…

IT技术

从CSV文件中的字符串进行Tf-idf计算

xiaolong · 2025年4月7日 · 0 Comment

我的test.csv文件内容如下（无表头）： very…

IT技术

如何计算单个新文档的TF*IDF以进行分类？

xiaolong · 2025年4月7日 · 0 Comment

我使用文档-词向量来表示一组文档。我使用TF*IDF来…

IT技术

在大型arff数据集文件上运行Weka

xiaolong · 2025年4月7日 · 0 Comment

我有一个arff文件，包含700个条目，每个条目有42…

IT技术

信息提取 – 商业文档

xiaolong · 2025年4月7日 · 0 Comment

我目前正在尝试从商业文档（如账单）中提取信息，例如发件…

IT技术

解析非均匀数据

xiaolong · 2025年4月7日 · 0 Comment

我正在尝试解析一组数据，这些数据包含两部分（或一部分）…