文档章节

在线文本实体抽取能力,助力应用解析海量文本数据

HMS Core
 HMS Core
发布于 06/24 09:23
字数 1158
阅读 3.8K
收藏 1

随着信息化的发展,很多具有重要价值的知识隐藏分布在海量数据中,影响了人们获取知识的效率,如何处理繁杂的非结构化文本数据成为难题。

近日,HMS Core机器学习服务6.5.0版本新增在线文本实体抽取能力,该能力可以检测出文本中是否存在比如日期、姓名、专有名词等实体信息,并将此类实体抽取出来,即自动处理非结构化自然语言文本数据的能力。例如,影视行业的应用中常常会出现大量文字的影评、资讯等内容,使用在线文本实体抽取能力即可快速提取结构信息,帮助搭建知识图谱,便于用户清晰理解。

此外,文本实体抽取能力更多应用于问答系统、信息索引、知识图谱构建等领域。

问答系统

问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题。在问答系统实现过程中,则需要用到文本实体抽取能力识别问题和知识库中的实体信息,再通过多种算法模型匹配出精准回答。

信息索引

使用在线文本实体抽取能力,可命名特定实体信息作为索引和超链接。比如用户在评论时提到的专有名词,可以生成超链接,便于其他用户检索了解相关内容。

知识图谱构建

知识图谱是由实体、关系和属性组成的一种数据结构,即具有有向图结构的一个知识库,文本实体抽取能力作为知识图谱构建过程中的底层能力,有着极其重要的作用。比如构建音乐知识图谱,首先需要大量的文本数据中提取出歌手、歌曲、作词、影视等相关信息,然后再进行知识图谱的搭建。

目前,华为机器学习服务在线文本实体抽取能力共支持人名、金钱、影视名、网页链接在内的16个实体类别,可根据实际语义场景应用于不同类别的App中。

集成步骤

  1. 开发准备

详细准备步骤可参考华为开发者联盟官网

  1. 集成和配置apigateway鉴权

基于apigateway的鉴权机制:

"paths": {
"/entityExtract": { "post": { "operationId": "entityExtract",
"parameters": [{"in": "body",  "name": "req",  "required": true,
"schema": { "$ref": "#/definitions/NerEnterReq"  } },  {
"name": "X-Request-ID", "in": "header",  "required": true,
"type": "string"
}, {"name": "X-Package-Name",  "in": "header", "required": true,
"type": "string"  }, ……],
 "responses": {"200": {   "description": "response of 200",
"schema": { "$ref": "#/definitions/ResponseEntityNerBodyVo"}}}}}
  1. 创建在线文本实体构造器
// 使用自定义的参数配置创建语种检测器。
 MLRemoteNerSetting setting = new MLRemoteNerSetting.Factory()
                .setSourceLangCode("zh")
                .create();
MLRemoteNer ner = MLNerFactory.getInstance().getRemoteNer(setting);
进行文本实体抽取。
  1. 在线获取文本实体抽取

异步方法示例代码:

ner.asyncEntityExtract(input).addOnSuccessListener(new OnSuccessListener<RemoteNerResultItem[]>() {
            @Override
            public void onSuccess(RemoteNerResultItem[] remoteNerResults) {
                // 成功的处理逻辑。
                if(remoteNerResults != null){
                    // 有识别结果
                }else {
                    //  识别结果为空
                }
            }
        }).addOnFailureListener(new OnFailureListener() {
            @Override
            public void onFailure(Exception e) {
                // 识别失败,获取相关异常信息。
                try {
                    MLException mlException = (MLException) e;
                    // 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。
                    int errorCode = mlException.getErrCode();
                    // 获取报错信息,开发者可以结合错误码,快速定位问题。
                    String errorMessage = mlException.getMessage();
                } catch (Exception error) {
                    // 转换错误处理。
                }
            }
        });

同步方法示例代码:

try {
       RemoteNerResultItem[] remoteNerResults = ner.syncEntityExtract(input);
       // 识别成功逻辑
       if(remoteNerResults != null){
       // 有识别结果
       }else {
       //  识别结果为空
        }
   } catch (MLException mlException) {
       // 失败的处理逻辑。
       // 获取错误码,开发者可以对错误码进行处理,根据错误码进行差异化的页面提示。
       int errorCode = mlException.getErrCode();
       // 获取报错信息,开发者可以结合错误码,快速定位问题。
       String errorMessage = mlException.getMessage();
   }
  1. 完成后,释放资源
if (ner != null) {
    ner.stop();
}

了解更多详情>>

访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址:GitHubGitee

关注我们,第一时间了解 HMS Core 最新技术资讯~

HMS Core

HMS Core

粉丝 233
博文 394
码字总数 516721
作品 9
深圳
私信 提问
加载中
点击引领话题?
腾讯云微服务引擎 TSE 7月产品动态

云原生网关 【新功能】Kong 网关支持实例升降配能力:Kong 网关支持在控制台中修改网关实例的节点数量,节点数量支持1-50。 【新功能】Kong 网关提供实时日志服务:Kong 网关默认为您提供网关...

腾讯云中间件
08/11
0
0
溪塔科技入选「2022年中国元宇宙最具创新力企业」领跑元宇宙新赛道

8月10日,「2022年中国元宇宙最具创新力企业」完整榜单正式披露。本次榜单结合声望、投融资、技术、规模、市场占有率等多个评价维度,邀请行业大咖、专家学者、投资机构成立组委会,进行评审...

溪塔科技
08/12
17
0
一块GPU训练TB级推荐模型不是梦,OneEmbedding性能一骑绝尘

来源 | 机器之心 个性化推荐已成为人们获取信息的主要形式。以往,人们更多通过主动搜寻自己感兴趣的信息,而现在,基于算法推荐技术的信息分发平台会自动识别用户兴趣,快速筛选信息,推送用...

OneFlow深度学习框架
08/12
0
0
安全日报(2022.08.11)

赶紧点击上方话题进行订阅吧! 报告编号:B6-2022-081199 报告来源:360CERT 报告作者:360CERT 更新日期:2022-08-11 1 Security Incident|安全事件 Bitter组织正在分发Dracarys安卓间谍软件...

360CERT
08/11
0
0
2022 首期线下 Workshop!面向应用开发者们的数据应用体验日来了 | TiDB Workshop Day

| 来源:TiDB 社区活动 | 责编:钱英宇 | 编辑:罗蕊艳 8 月 27 日(周六),TiDB 社区主办的 2022 第一场线下 Workshop 将在深圳开幕! 本期 Workshop 将有 TiDB 社区开发者生态的 4 名工程...

开源社
08/12
11
0

没有更多内容

加载失败,请刷新页面

加载更多

{{formatHtml(o.title)}}

{{i}}-{{formatHtml(o.content)}}

{{o.author.name}}
{{o.pubDate | formatDate}}
{{o.viewCount | bigNumberTransform}}
{{o.replyCount | bigNumberTransform}}

暂无文章

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部
http://www.vxiaotou.com