我正在寻找关于使用人工智能技术阅读菜谱的研究(已发表的)。菜谱是一个非常有限的领域,或许可以在自然语言识别引擎中以一定的准确度实现。
我想编写一个程序,允许将网页浏览器中的菜谱复制/粘贴到人工智能程序中,并让它通过“阅读”菜谱来确定标题、作者、配料、说明、营养信息等。我还希望能够处理 PDF 文件(我拥有大量收藏),也许也可以直接使用复制/粘贴。
输出将是某种(标准)基于 XML 的格式,可以被菜谱管理器读取。
我想到了博士或硕士级别的研究。
回答:
你可能会发现人工智能的一个相关子领域是 信息抽取。
信息抽取算法通常使用规则(例如正则表达式)来识别文本中的实体和关系。这些规则可以手动定义(即 Suiseki 算法),也可以使用监督机器学习算法学习(即 RAPIER、Wrapper Induction、条件随机场)。
例如,信息抽取算法可以从招聘信息中获取数据:
Job Title
: Senior DBMS ConsultantLocation
: Dallas,TXResponsibilities
: DBMS Applications consultant works with project teams to define DBMS based solutions that support the enterprise deployment of Electronic Commerce, Sales Force Automation, and Customer Service applications.Desired Requirements
: 3-5 years exp. developing Oracle or SQL Server apps using Visual Basic, C/C++, Powerbuilder, Progress, or similar. Recent experience related to installing and configuring Oracle or SQL Server in both dev. and deployment environments.Desired Skills
: Understanding of UNIX or NT, scripting language. Know principles of structured software engineering and project management
…并将其提炼成此模板:
title
: Senior DBMS Consultantstate
: TXcity
: Dallascountry
: USlanguage
: Powerbuilder, Progress, C, C++, Visual Basicplatform
: UNIX, NTapplication
: SQL Server, Oraclearea
: Electronic Commerce, Customer Servicerequired years of experience
: 3desired years of experience
: 5
@人名 和他在德克萨斯大学奥斯汀分校的团队在信息抽取方面做了一些很棒的工作。 以下是一些可能成为良好起点的参考文献:
- Raymond J. Mooney and Razvan Bunescu, Mining Knowledge from Text Using Information Extraction. SIGKDD Explorations, 7:1 (2005), pp 3-10.
- Stephen Soderland, Learning Information Extraction Rules for Semi-Structured and Free Text. Machine Learning, 34:1 (1999), pp 233-272.
- C. Blaschke and A. Valencia. The frame-based module of the Suiseki information extraction system. IEEE Intelligent Systems, 17:14–20 (2002).