📅  最后修改于: 2023-12-03 15:22:17.452000             🧑  作者: Mango
Watson Discovery Service 是 IBM Watson 的一项强大的工具,可以帮助程序员分析文档并提取有用的信息。它支持多种类型的文件,包括文本、PDF、HTML、JSON 和 XML。
要开始使用 Watson Discovery Service,您需要先创建一个实例,这可以通过在 IBM Cloud 控制台中创建 Watson Discovery 服务来完成。创建完成后,您将获得一个 API 密钥,该密钥将用于配置您的应用程序以访问服务。
使用 Watson Discovery 服务上传文档以进行分析。您可以上传任意数量的文档,以便将它们与 Discovery 服务进行相关性分析。
curl -X POST -H "Authorization: Basic $AUTHORIZATION" \
-F file=@filename.pdf \
-F name=my_document \
"https://gateway.watsonplatform.net/discovery/api/v1/environments/$ENVIRONMENT_ID/collections/$COLLECTION_ID/documents?version=2017-11-07"
filename.pdf
是您要上传的文档的名字。不同类型的文件需要不同的命令来上传。my_document
是您要上传的文档的名称。$AUTHORIZATION
变量是您的 Watson Discovery Service API 密钥和密码的编码值。$ENVIRONMENT_ID
是 Discovery 实例的环境 ID。$COLLECTION_ID
是您要将文档添加到其中的集合 ID。创建查询以搜索上传的文档并提取有用的信息。使用 Watson Discovery 服务查询语言来构建查询,并将其发送到服务以获取结果。
curl -u "apikey:{apikey}" \
"https://api.us-south.discovery.watson.cloud.ibm.com/v1/environments/{environment_id}/collections/{collection_id}/query?version=2019-03-25&natural_language_query='identify entities in the document'&passages.count=5&highlight=true&aggregation=filter(EnrichedTitle.entities.type:Company).term(EnrichedTitle.entities.text,count:10)&return=extracted_metadata%2Ctitle%2Curl%2Ctext%2Cenriched_text.sentiment.document.label%2Cenriched_text.emotion.document.emotion&query_type=natural_language_query"
{apikey}
是您 Watson Discovery Service API 密钥。{environment_id}
是 Discovery 实例的环境 ID。{collection_id}
是您要搜索的集合 ID。natural_language_query
参数指定要搜索的查询。passages.count
参数指定要返回的摘录数。highlight
参数指定是否在结果中突出显示匹配。aggregation
参数指定要聚合的元素。return
参数指定哪些信息要在结果中返回。query_type
参数指定查询类型。一旦您发送了查询并且您得到了响应,下一步就是解析结果以获取您需要的信息。结果以 JSON 格式返回,并且可以使用您选择的编程语言进行解析。
[
{
"extracted_metadata": {
"sha1": "2jmj7l5rSw0yVb/vlWAYkK/YBwk=",
"file_type": "pdf",
"filename": "sample.pdf",
"title": "Sample PDF",
"author": "John Smith",
"num_pages": 3,
"created": "2019-03-25T15:33:19Z",
"last_modified": "2019-03-25T15:33:19Z"
},
"title": "Sample PDF",
"enriched_text": {
"sentiment": {
"document": {
"score": 0.395152,
"label": "positive"
}
},
"emotion": {
"document": {
"emotion": {
"sadness": 0.040882,
"joy": 0.674862,
"fear": 0.045812,
"disgust": 0.104901,
"anger": 0.017736
}
}
},
"entities": [
{
"type": "Person",
"text": "John Smith",
"relevance": 0.988039,
"count": 1
}
],
"categories": [
{
"score": 0.238954,
"label": "/business and industrial/advertising and marketing"
}
]
}
}
]
extracted_metadata
包含文件元数据,如文件类型、文件名、大小和数页。title
包含文档标题。enriched_text.sentiment
包含文档的情感标签和得分。enriched_text.emotion
包含文档的情感分析,包括快乐、悲伤、恐惧、厌恶和愤怒等参数。enriched_text.entities
包含从文档中提取的命名实体。enriched_text.categories
包含从文档中提取的类别。