📌  相关文章
📜  使用 Watson Discovery Service 分析文档 – IBM Watson(1)

📅  最后修改于: 2023-12-03 15:22:17.452000             🧑  作者: Mango

使用 Watson Discovery Service 分析文档 – IBM Watson

Watson Discovery Service 是 IBM Watson 的一项强大的工具,可以帮助程序员分析文档并提取有用的信息。它支持多种类型的文件,包括文本、PDF、HTML、JSON 和 XML。

步骤一:创建 Watson Discovery Service 实例

要开始使用 Watson Discovery Service,您需要先创建一个实例,这可以通过在 IBM Cloud 控制台中创建 Watson Discovery 服务来完成。创建完成后,您将获得一个 API 密钥,该密钥将用于配置您的应用程序以访问服务。

步骤二:上传文档

使用 Watson Discovery 服务上传文档以进行分析。您可以上传任意数量的文档,以便将它们与 Discovery 服务进行相关性分析。

Markdown 示例
    curl -X POST -H "Authorization: Basic $AUTHORIZATION" \
    -F file=@filename.pdf \
    -F name=my_document \
    "https://gateway.watsonplatform.net/discovery/api/v1/environments/$ENVIRONMENT_ID/collections/$COLLECTION_ID/documents?version=2017-11-07"
  • filename.pdf 是您要上传的文档的名字。不同类型的文件需要不同的命令来上传。
  • my_document 是您要上传的文档的名称。
  • $AUTHORIZATION 变量是您的 Watson Discovery Service API 密钥和密码的编码值。
  • $ENVIRONMENT_ID 是 Discovery 实例的环境 ID。
  • $COLLECTION_ID 是您要将文档添加到其中的集合 ID。
步骤三:创建查询

创建查询以搜索上传的文档并提取有用的信息。使用 Watson Discovery 服务查询语言来构建查询,并将其发送到服务以获取结果。

Markdown 示例
curl -u "apikey:{apikey}" \
  "https://api.us-south.discovery.watson.cloud.ibm.com/v1/environments/{environment_id}/collections/{collection_id}/query?version=2019-03-25&natural_language_query='identify entities in the document'&passages.count=5&highlight=true&aggregation=filter(EnrichedTitle.entities.type:Company).term(EnrichedTitle.entities.text,count:10)&return=extracted_metadata%2Ctitle%2Curl%2Ctext%2Cenriched_text.sentiment.document.label%2Cenriched_text.emotion.document.emotion&query_type=natural_language_query"
  • {apikey} 是您 Watson Discovery Service API 密钥。
  • {environment_id} 是 Discovery 实例的环境 ID。
  • {collection_id} 是您要搜索的集合 ID。
  • natural_language_query 参数指定要搜索的查询。
  • passages.count 参数指定要返回的摘录数。
  • highlight 参数指定是否在结果中突出显示匹配。
  • aggregation 参数指定要聚合的元素。
  • return 参数指定哪些信息要在结果中返回。
  • query_type 参数指定查询类型。
步骤四:解析结果

一旦您发送了查询并且您得到了响应,下一步就是解析结果以获取您需要的信息。结果以 JSON 格式返回,并且可以使用您选择的编程语言进行解析。

Markdown 示例
[
  {
    "extracted_metadata": {
      "sha1": "2jmj7l5rSw0yVb/vlWAYkK/YBwk=",
      "file_type": "pdf",
      "filename": "sample.pdf",
      "title": "Sample PDF",
      "author": "John Smith",
      "num_pages": 3,
      "created": "2019-03-25T15:33:19Z",
      "last_modified": "2019-03-25T15:33:19Z"
    },
    "title": "Sample PDF",
    "enriched_text": {
      "sentiment": {
        "document": {
          "score": 0.395152,
          "label": "positive"
        }
      },
      "emotion": {
        "document": {
          "emotion": {
            "sadness": 0.040882,
            "joy": 0.674862,
            "fear": 0.045812,
            "disgust": 0.104901,
            "anger": 0.017736
          }
        }
      },
      "entities": [
        {
          "type": "Person",
          "text": "John Smith",
          "relevance": 0.988039,
          "count": 1
        }
      ],
      "categories": [
        {
          "score": 0.238954,
          "label": "/business and industrial/advertising and marketing"
        }
      ]
    }
  }
]
  • extracted_metadata 包含文件元数据,如文件类型、文件名、大小和数页。
  • title 包含文档标题。
  • enriched_text.sentiment 包含文档的情感标签和得分。
  • enriched_text.emotion 包含文档的情感分析,包括快乐、悲伤、恐惧、厌恶和愤怒等参数。
  • enriched_text.entities 包含从文档中提取的命名实体。
  • enriched_text.categories 包含从文档中提取的类别。