搜索​​​​

清除过滤器
文章
Qiao Peng · 十二月 7, 2023

通用TCP业务服务和业务操作

TCP作为OSI 7层的传输层的通信协议,其使用上不像更上层的通信协议那么方便,因为TCP操作的不是数据包,它操作的是数据流。因此有多种将TCP数据流“解释”为数据包(消息)的方法。 InterSystems IRIS提供了多种TCP适配器,用于不同的“解释”,例如EnsLib.TCP.FramedInboundAdapter使用特定的首尾字符做为分隔、EnsLib.TCP.CountedInboundAdapter使用固定的长度进行分隔... 同时,InterSystems IRIS提供了多种开箱即用的TCP业务服务和业务操作,方便接入和发送TCP数据。这里我们介绍常见的使用特定的首尾字符做为分隔的TCP业务服务和业务操作。 1. 通用TCP业务服务和业务操作 EnsLib.TCP.Framed.PassthroughService和EnsLib.TCP.Framed.PassthroughOperation是一组使用特定的首尾字符做为分隔TCP数据流的通用业务服务和业务操作。EnsLib.TCP.Framed.PassthroughService业务服务会将TCP数据封装在Ens.StreamContainer发送给业务流程或业务操作;而EnsLib.TCP.Framed.PassthroughOperation业务操作发送并接收Ens.StreamContainer类型的数据。 2. 使用EnsLib.TCP.Framed.PassthroughService业务服务 2.1 向production中加入通用TCP业务服务 增加通用TCP业务服务,只需要在Production配置页面的服务中添加EnsLib.TCP.Framed.PassthroughService。 建议加入Production时,给业务服务起一个名字,用于代表具体的业务,例如是连接到设备的TCP服务,可以命名为TCPforDevice(可以考虑的命名规则 - 接口方式+业务系统)。如果未命名,默认会使用类名作为业务服务名。 2.2 配置通用TCP业务服务 主要的设置项是以下几个: 1. Port:接收TCP数据的端口,例如图中的65530端口 2. Target Config Names:TCP服务发送消息的目标,可以是业务流程或业务操作 3. Message Frame Start:标记TCP开始的字符或字符串,用10进制ASCII码表示。如果有多个字符,字符ASCII间用逗号分隔。图例中为ASCII 10,也就是“退格符”。 4. Message Frame End:标记TCP结束的字符或字符串,用10进制ASCII码表示。如果有多个字符,字符ASCII间用逗号分隔。图例中为ASCII 28和13,也就是“文件分隔符”和“回车符”。 5. Remove Framing: 是否把标记TCP起止的字符删除后再发送到后续业务组件。建议选中 6. Discard Incorrect Framing:丢弃使用不正确起始字符的TCP数据。建议在调试阶段取消选中,测试完成后再选中 7. Frame Acknowledgement:是否要发送Frame 通知,可以取消选中 启用该业务服务后,既可以接收了TCP请求了。 2.3 测试通用TCP业务服务 可以使用TCP客户端进行发送数据的测试。这里使用Packet Sender向IRIS发布的65530端口,发送以下的数据,注意前后的TCP分段起止字符: 然后就可以到消息可视化追踪的页面查看接收的消息。可以看到它是Ens.StreamContainer类型的消息,而且已经把起止字符去掉了: 3. 使用EnsLib.TCP.Framed.PassthroughOperation业务操作 3.1 向production中加入通用TCP业务操作 同样,可以直接将EnsLib.TCP.Framed.PassthroughOperation加入production。 3.2 配置通用TCP业务操作 主要的设置项是以下几个: 1. IP Address:TCP服务器的IP地址 2. Port:TCP服务器的TCP端口,例如图中的65530端口。这里用65530端口,就是发送到上面我们建立的通用TCP业务服务。 3. Message Frame Start:标记TCP开始的字符或字符串,用10进制ASCII码表示。如果有多个字符,字符ASCII间用逗号分隔。图例中为ASCII 10,也就是“退格符”。业务操作会自动在发送的TCP数据头部加入这些开始字符。 4. Message Frame End:标记TCP结束的字符或字符串,用10进制ASCII码表示。如果有多个字符,字符ASCII间用逗号分隔。图例中为ASCII 28和13,也就是“文件分隔符”和“回车符”。业务操作会自动在发送的TCP数据尾部加入这些开始字符。 5. Remove Framing: 是否把收到的TCP响应数据中标记TCP起止的字符删除。建议选中 6. Discard Incorrect Framing:丢弃使用不正确起始字符的TCP响应数据。建议在调试阶段取消选中,测试完成后再选中 启用该业务操作后,既可以发送TCP请求了。 3.3 测试通用TCP业务操作 因为TCP业务操作的请求消息是Ens.StreamContainer,里面是流数据,为了方便测试,我们建立一个测试用的业务流程,里面组织好数据并调用通用TCP业务操作。 3.3.1 创建一个新的业务流程,设置其请求消息为Ens.StringRequest,用于测试时传入TCP数据。并为其上下文增加一个名为DataBody、类型为%Stream.GlobalCharacter(可持久化的字符流类型)的属性: 3.3.2 在业务流程中增加一个代码流程(<code>),将请求消息的字符串数据写入上下文的DataBody字符流: Do context.DataBody.Write(request.StringValue) 注意行首加空格。 3.3.3 然后在业务流程中再加入一个调用流程(<call>),调用上面已经加入production的业务操作,例如TCPtoWMS,并设置请求和响应消息为Ens.StreamContainer或Ens.StreamContainer。 3.3.4 配置RESTtoLIS业务操作的请求消息(Request) 可以直接点击构建请求消息(Request Builder)按钮,使用图形化拖拽建立请求消息: 将左边上下文context里的DataBody拖拽到callrequest的Stream属性上。 3.3.5 将业务流程编译后加入到Production。 3.3.6 测试这个业务流程,输入测试字符串。然后查看消息追踪,可以看到类似这样的: 这是测试业务流程/业务操作的消息追踪: 因为TCP数据发给了同一个production下的通用业务服务,因此还会看到这样的一笔业务服务的消息追踪:
文章
Qiao Peng · 十月 22, 2022

通用SQL业务服务和业务操作

1. 新的系统SQL业务服务/业务操作 接连SQL数据源和操作SQL数据目标是常见的集成业务场景。使用SQL适配器监控SQL数据源和操作SQL目标库时,我们需要开发自定义BS或BO,写不少代码。例如开发自定义SQL服务需要: 1. 开发响应消息类,用于承接SQL快照数据; 2. 开发自定义业务服务BS类,用于将SQL快照按字段赋值给对应的消息,并将消息发送给目标(业务流程或业务操作)。 而要开发自定义SQL操作,更麻烦些: 1. 开发请求和响应消息类,用于向BO传输数据和接收返回数据; 2. 开发自定义业务服务BO类,设置消息响应表,根据不同请求消息类型编写方法; 3. 在方法中根据请求消息数据拼写SQL语句; 4. 在方法中将SQL执行结果存入响应消息。 虽然很简单,但编程过程枯燥乏味。而且当修改SQL语句时,还要修改对应的消息类和BS/BO类。 从2021.2开始,InterSystems IRIS增加了2套系统通用SQL业务服务和SQL业务操作: BS EnsLib.SQL.Service.GenericService 使用SQL语句 BS EnsLib.SQL.Service.ProcService 使用存储过程 BO EnsLib.SQL.Operation.GenericOperation 使用SQL语句 BO EnsLib.SQL.Operation.ProcOperation 使用存储过程 只要直接将它们加入Production,就可以直接使用了,甚至无需再定义消息,真正实现无代码开发,nice! 2. 如何使用系统SQL业务服务/业务操作 下面我们来看看它们是怎么实现的,以及如何使用它们。 2.1 SQL业务服务 直接将EnsLib.SQL.Service.GenericService或EnsLib.SQL.Service.ProcService加入Production的BS中,并设置数据源、SQL语句和发送目标: 一步搞定,且无需使用IDE开发任何一行代码! 那么SQL业务操作发送给目标业务组件的是什么消息呢? 默认是Ens.StreamContainer,而结果集数据是以JSON表达并放在其Stream属性(流类型)下的,正好用到JSON免schema的特性。类似于: 如果你已经有一个消息类,想让SQL业务服务将结果集记录放在这个消息里?只要设置SQL业务服务的“消息类”即可: 当然,你自己定义的消息属性名要和返回的SQL结果集字段名一致,否则会报错。如果消息是以前定义好的,那么通过SQL语句使用AS来修改字段名最简单,例如SELECT NAME AS Display... 对如何操作JSON不熟? 在InterSystems IRIS/Cache'里,系统类%DynamicObject就是JSON对象,它有方法%FromJSON可以直接将JSON字符串/字符流转为JSON对象。所以可以直接以对象的方式操作JSON,就像下面在业务流程里将Ens.StreamContainer的Stream属性转为JSON对象使用: 2.2 SQL 业务操作 同样,SQL业务操作也无需代码开发。直接将EnsLib.SQL.Operation.GenericOperation或EnsLib.SQL.Operation.ProcOperation加入Production,进行配置即可。 配置项除了SQL数据目标的连接信息外,就是要执行的SQL语句了: 在 查询 中添加SQL语句,如果SQL语句中有任何参数需要传入,用"?" 代表。例如 Insert into QP.Patient(Gender,Name) values(?,?) 如果SQL需要输入参数,在 输入参数 中按顺序添加需要的参数,一般情况下是使用请求消息里的属性,在需要用的属性名前面加 *,说明这个参数来自请求消息。例如*Sex,*Name。 好,配置完成,依然没写一行代码! 但慢着,我们没有对这个BO定义请求消息呀? 我们不需要事先声明任何请求消息类,EnsLib.SQL.Operation.GenericOperation和EnsLib.SQL.Operation.ProcOperation可以接受任何类型的请求消息! 那么像上面的例子中提到的传入参数*Sex,*Name,是不是我必须要事先建一个请求消息类,里面有Sex和Name属性? 完全不必要!你可以直接通过系统请求消息Ens.StreamContainer、Ens.StringContainer、Ens.StringRequest传入JSON字符串/字符流即可,SQL业务操作会自动将JSON实例化为JSON对象。因此上面例子,可以传入Ens.StringRequest,只要JSON字符串里有Sex和Name这2个数据即可。 例如你可以直接测试这个BO: 是不是非常方便! * 注意:当使用Ens.StreamContainer、Ens.StringContainer、Ens.StringRequest 这些请求消息时,数据一定要是JSON格式的字符串/字符流,否则会得到报错信息! 那么SQL执行返回的结果在哪里? BO默认的响应消息是StreamContainer,因此执行结果都以JSON格式在它里面。 如果执行的SQL是INSERT/UPDATE/DELETE,那么返回的只有SQL语句影响的行数,放在NumRowsAffected里,如下: 如果执行的SQL是SELECT,则返回的是结果集如下: 如果你已经有定义过的消息类用于接收返回的SQL结果集,可以设置其“响应类”属性: SQL业务操作会将返回结果集的第一行按字段名对应保存到响应消息的属性上。 *注意:当SQL返回的结果集有多行记录时,这种使用用户自定义响应消息的情况下,会在事件日志中记录一条信息,并只将结果集第一行对应到自定义响应消息中! * 信息更新:在IRIS 2023.1及之后的版本中,配置页面与上面的截图有一点变化: 1. 输入参数改为逐一通过“添加”按钮进行添加,从而避免书写错误 2. 请求消息类可以指定了。如果您有自己定义好的请求消息,可以在下图“RequestClass”中选择。如果你继续想使用Ens.StreamContainer、Ens.StringContainer、Ens.StringRequest 这些系统请求消息时,请保留其为空。 今后连接SQL数据源和数据目标时,使用这2套系统SQL业务服务和业务操作,可以快乐地玩耍了!
文章
姚 鑫 · 四月 20, 2021

第四章 缓存查询(一)

# 第四章 缓存查询(一) 系统自动维护已准备好的SQL语句(“查询”)的缓存。这允许重新执行SQL查询,而无需重复优化查询和开发查询计划的开销。缓存查询是在准备某些SQL语句时创建的。准备查询发生在运行时,而不是在编译包含SQL查询代码的例程时。通常,`PREPARE`紧跟在SQL语句的第一次执行之后,但在动态SQL中,可以准备查询而不执行它。后续执行会忽略`PREPARE`语句,转而访问缓存的查询。要强制对现有查询进行新的准备,必须清除缓存的查询。 所有SQL调用都会创建缓存查询,无论是在ObjectScript例程中调用还是在类方法中调用。 - 动态SQL、ODBC、JDBC和`$SYSTEM.SQL.DDLImport()`方法在准备查询时创建缓存查询。管理门户执行SQL接口、InterSystems SQL Shell和`%SYSTEM.SQL.Execute()`方法使用动态SQL,因此使用准备操作来创建缓存查询。 它们列在命名空间(或指定方案)的Management Portal常规缓存查询列表、每个正在访问的表的Management Portal Catalog Details缓存查询列表以及SQL语句列表中。动态SQL遵循本章中介绍的缓存查询命名约定。 - 类查询在准备(`%PrepareClassQuery()`方法)或第一次执行(调用)时创建缓存查询。 它们列在命名空间的管理门户常规缓存查询列表中。如果类查询是在持久类中定义的,则缓存的查询也会列在该类的Catalog Details缓存查询中。它没有列在正在访问的表的目录详细信息中。它没有列在SQL语句清单中。类查询遵循本章中介绍的缓存查询命名约定。 - 嵌入式SQL在第一次执行SQL代码或通过调用声明游标的`OPEN`命令启动代码执行时创建缓存查询。嵌入式SQL缓存查询列在管理门户缓存查询列表中,查询类型为嵌入式缓存SQL,SQL语句列表。嵌入式SQL缓存查询遵循不同的缓存查询命名约定。 所有清除缓存查询操作都会删除所有类型的缓存查询。 生成缓存查询的SQL查询语句包括: - `SELECT`:`SELECT`缓存查询显示在其表的目录详细资料中。如果查询引用了多个表,则会为每个被引用的表列出相同的缓存查询。从这些表中的任何一个清除缓存的查询都会将其从所有表中清除。从表的目录详细资料中,可以选择缓存的查询名称以显示高速缓存的查询详细资料,包括执行和显示计划选项。由`$SYSTEM.SQL.Schema.ImportDDL(“IRIS”)`方法创建的选择缓存查询不提供`Execute`和`Show Plan`选项。 `SELECT`的`DECLARE NAME CURSOR`创建缓存查询。但是,缓存的查询详细信息不包括执行和显示计划选项。 - `CALL`:为其架构创建缓存查询列表中显示的缓存查询。 - `INSERT`、`UPDATE`、`INSERT`或`UPDATE`、`DELETE`:创建其表的`Catalog Details`中显示的缓存查询。 - `TRUNCATE TABLE`:为其表创建一个缓存查询,该查询显示在目录详细信息中。 注意,`$SYSTEM.SQL.Schema.ImportDDL("IRIS")`不支持截断表。 - `SET TRANSACTION`, `START TRANSACTION`, `%INTRANSACTION, COMMIT`, `ROLLBACK`:为命名空间中的每个模式创建一个缓存查询,显示在缓存查询列表中。 **当准备查询时,将创建一个缓存的查询。 因此,不要将`%Prepare()`方法放入循环结构中是很重要的。 同一个查询的后续`%Prepare()`(仅在指定的文字值上有所不同)使用现有的缓存查询,而不是创建新的缓存查询。** 更改表的`SetMapSelectability()`值将使所有引用该表的现有缓存查询失效。 现有查询的后续准备将创建一个新的缓存查询,并从清单中删除旧的缓存查询。 清除缓存查询时,缓存查询将被删除。修改表定义会自动清除引用该表的所有查询。在更新查询缓存元数据时,发出准备或清除命令会自动请求独占的系统范围锁。系统管理员可以修改缓存查询锁定的超时值。 创建缓存的查询不是事务的一部分。缓存查询的创建不会被记录下来。 # 缓存查询提高了性能 第一次准备查询时,SQL引擎会对其进行优化,并生成将执行该查询的程序(一个或多个InterSystems IRIS®Data Platform例程的集合)。然后将优化的查询文本存储为缓存查询类。如果随后尝试执行相同(或类似)的查询,SQL引擎将找到缓存的查询并直接执行该查询的代码,从而绕过优化和代码生成的需要。 缓存查询提供以下好处: - 频繁使用的查询的后续执行速度更快。更重要的是,无需编写繁琐的存储过程即可自动获得这种性能提升。大多数关系数据库产品建议仅使用存储过程访问数据库。对于IRIS,这不是必需的。 - 单个缓存的查询用于类似的查询,这些查询只是在字面值上有所不同。例如,`SELECT TOP 5 Name FROM Sample.Person WHERE Name %STARTSWITH 'A' and SELECT TOP 1000 Name FROM Sample.Person WHERE Name %STARTSWITH 'Mc'`,只是`top`和`%startswith`条件的文本值不同。为第一查询准备的缓存查询自动用于第二查询。 - 查询缓存在所有数据库用户之间共享;如果用户1准备查询,则用户1023可以利用它。 - 查询优化器可以自由地使用更多的时间为给定的查询找到最佳解决方案,因为这个代价只需要在第一次准备查询时支付。 InterSystems SQL将所有缓存的查询存储在一个位置,即`IRISLOCALDATA`数据库。但是,缓存查询是特定于名称空间的。每个缓存的查询都由准备(生成)它的名称空间标识。只能从准备缓存查询的命名空间中查看或执行缓存查询。可以清除当前命名空间或所有命名空间的缓存查询。 缓存查询不包括注释。但是,它可以在查询文本后面包含注释选项,例如`/*#OPTIONS {"optionName":value} */`。 因为缓存查询使用现有的查询计划,所以它为现有查询提供了操作的连续性。对基础表的更改(如添加索引或重新定义表优化统计信息)不会对现有缓存查询产生任何影响。 # 创建缓存查询 当InterSystems IRIS准备查询时,它会确定: - 如果查询与查询缓存中已有的查询匹配。如果不是,则向查询分配递增计数。 - 如果查询准备成功。如果不是,则不会将递增计数分配给缓存的查询名称。 - 否则,递增计数被分配给缓存的查询名称,并且该查询被缓存。 ## 动态SQL的缓存查询名称 SQL引擎为每个缓存查询分配唯一的类名,格式如下: ```java %sqlcq.namespace.clsnnn ``` 其中,`NAMESPACE`为当前名称空间(大写),`NNN`为连续整数。例如,`%sqlcq.USER.cls16`。 缓存的查询以每个命名空间为基础按顺序编号,从1开始。下一个可用的`nnn`序列号取决于已保留或释放的编号: - 如果查询与现有缓存查询不匹配,则在开始准备查询时会保留一个数字。如果查询与现有的缓存查询仅在文字值上不同,则查询与现有的缓存查询匹配-这取决于某些其他注意事项:隐藏的文本替换、不同的注释选项或“单独的缓存查询”中描述的情况。 - 如果查询准备不成功,则保留但不分配号码。只有准备成功的查询才会被缓存。 - 如果缓存查询准备成功,则会保留一个编号并将其分配给缓存查询。无论是否从该表访问任何数据,都会为查询中引用的每个表列出该缓存查询。如果查询未引用任何表,则会创建缓存查询,但不能按表列出或清除。 - 清除缓存查询时会释放一个数字。该号码将作为下一个`NNN`序列号可用。清除与表关联的单个缓存查询或清除表的所有缓存查询将释放分配给这些缓存查询的编号。清除命名空间中的所有缓存查询会释放分配给缓存查询的所有编号,包括未引用表的缓存查询,以及保留但未分配的编号。 清除缓存查询将重置`nnn`整数。整数会被重复使用,但剩余的缓存查询不会重新编号。例如,缓存查询的部分清除可能会留下`cls1、cls3、cls4和cls7`。后续缓存查询将编号为`cls2、cls5、cls6和cls8`。 一条CALL语句可能会导致多个缓存查询。例如,SQL语句`CALL Sample.PersonSets('A','MA')` 生成以下缓存查询: ```sql %sqlcq.USER.cls1: CALL Sample . PersonSets ( ? , ? ) %sqlcq.USER.cls2: SELECT name , dob , spouse FROM sample . person WHERE name %STARTSWITH ? ORDER BY 1 %sqlcq.USER.cls3: SELECT name , age , home_city , home_state FROM sample . person WHERE home_state = ? ORDER BY 4 , 1 ``` 在动态SQL中,准备SQL查询(使用`%PrepareClassQuery()`或`%PrepareClassQuery()`实例方法)后,可以使用`%display()`实例方法或`%GetImplementationDetails()`实例方法返回缓存的查询名称。查看成功准备的结果。 缓存的查询名称也是由`%SQL.Statement`类的`%Execute()`实例方法(以及`%CurrentResult`属性)返回的结果集`OREF`的一个组件。以下示例显示了这两种确定缓存查询名称的方法: ```java /// w ##class(PHA.TEST.SQL).CacheQuery() ClassMethod CacheQuery(c) { SET randtop=$RANDOM(10)+1 SET randage=$RANDOM(40)+1 SET myquery = "SELECT TOP ? Name,Age FROM Sample.Person WHERE Age < ?" SET tStatement = ##class(%SQL.Statement).%New() SET qStatus = tStatement.%Prepare(myquery) IF qStatus'=1 { WRITE "%Prepare failed:" DO $System.Status.DisplayError(qStatus) QUIT } SET x = tStatement.%GetImplementationDetails(.class,.text,.args) IF x=1 { WRITE "cached query name is: ",class,! } SET rset = tStatement.%Execute(randtop,randage) WRITE "result set OREF: ",rset.%CurrentResult,! DO rset.%Display() WRITE !,"A sample of ",randtop," rows, with age < ",randage } ``` ```java DHC-APP>w ##class(PHA.TEST.SQL).CacheQuery() cached query name is: %sqlcq.DHCdAPP.cls51 result set OREF: 5@%sqlcq.DHCdAPP.cls51 Name Age 姚鑫 7 姚鑫 7 O'Rielly,Chris H. 7 Orwell,John V. 4 Zevon,Heloisa O. 11 Smith,Kyra P. 7 6 Rows(s) Affected A sample of 6 rows, with age < 19 ``` 在本例中,选定的行数(`TOP`子句)和`WHERE`子句谓词值会随着每次查询调用而改变,但缓存的查询名称不会改变。 ## 嵌入式SQL的缓存查询名称 SQL引擎为每个嵌入式SQL缓存查询分配一个唯一的类名,格式如下: ```java %sqlcq.namespace.hash ``` 其中,`NAMESPACE`是当前的名称空间(大写),`HASH`是唯一的哈希值。例如,`%sqlcq.USER.xEM1h5QIeF4l3jhLZrXlnThVJZDh`。 管理门户为每个表列出了嵌入式SQL缓存查询,目录详细信息为每个表列出了具有这个类名的缓存查询,查询类型为嵌入式缓存SQL。 ## 单独的缓存查询 两个不应该影响查询优化的查询之间的差异仍然会生成单独的缓存查询: - 同一函数的不同语法形式会生成单独的缓存查询。因此,`ASCII(‘x’)`和`{fn ASCII(‘x’)}`生成单独的缓存查询,而`{fn CURDATE()}`和`{fn CURDATE}`生成单独的缓存查询。 - 区分大小写的表别名或列别名值以及可选的AS关键字的存在或不存在将生成单独的缓存查询。因此,`ASCII('x')`, `ASCII('x') AChar`, and `ASCII('x') AS AChar`会生成单独的缓存查询。 - 使用不同的`ORDER BY`子句。 - 使用`top all`代替具有整数值的`top`。 # 文字替换 当SQL引擎缓存一个SQL查询时,它会执行文字替换。 查询缓存中的查询用`“?”` 字符,表示输入参数。 这意味着,仅在文字值上不同的查询由单个缓存的查询表示。 例如,两个查询: ```sql SELECT TOP 11 Name FROM Sample.Person WHERE Name %STARTSWITH 'A' ``` ```sql SELECT TOP 5 Name FROM Sample.Person WHERE Name %STARTSWITH 'Mc' ``` 都由单个缓存查询表示: ```sql SELECT TOP ? Name FROM Sample.Person WHERE Name %STARTSWITH ? ``` 这最小化了查询高速缓存的大小,并且意味着不需要对仅在字面值上不同的查询执行查询优化。 使用输入主机变量(例如`:myvar`)和`?` 输入参数也在相应的缓存查询中用`“?”` ”字符。 因此, `SELECT Name FROM t1 WHERE Name='Adam', SELECT Name FROM t1 WHERE Name=?`, and `SELECT Name FROM t1 WHERE Name=:namevar` ,都是匹配查询,并生成单个缓存查询。 可以使用`%GetImplementationDetails()`方法来确定这些实体中的哪些实体由每个“?”特定准备的字符。 以下注意事项适用于文字替换: - 指定为文字一部分的加号和减号将生成单独的缓存查询。因此,`ABS(7)`、`ABS(-7)`和`ABS(+7)`各自生成一个单独的缓存查询。多个符号也会生成单独的缓存查询:`ABS(+?)`。`ABS(++?)`。因此,最好使用无符号变量`ABS(?)`。或`ABS(:Num)`,可以为其提供有符号或无符号数字,而无需生成单独的缓存查询。 - 精度和小数值通常不接受文字替换。因此,`ROUND(567.89,2)`被缓存为`ROUND(?,2)`。但是,`CURRENT_TIME(N)`、`CURRENT_TIMESTAMP(N)`、`GETDATE(N)`和`GETUTCDATE(N)`中的可选精度值不接受文字替换。 - `IS NULL`或`IS NOT NULL`条件中使用的文字不接受文字替换。 - `ORDER BY`子句中使用的任何文字都不接受文字替换。这是因为`ORDER BY`可以使用整数来指定列位置。更改此整数将导致根本不同的查询。 - 字母文字必须用单引号引起来。某些函数允许指定带引号或不带引号的字母格式代码;只有带引号的字母格式代码才接受文字替换。因此,`DATENAME(MONTER,64701)`和`DATENAME(‘MONTER’,64701)`在功能上是相同的,但是对应的缓存查询是`DATENAME(MONTER,?)`。和`DATENAME(?,?)` - 接受可变数量参数的函数会为每个参数计数生成单独的缓存查询。因此,`Coalesce(1,2)`和`Coalesce(1,2,3)`会生成单独的缓存查询。 ## DynamicSQLTypeList Comment Option 当匹配查询时,注释选项被视为查询文本的一部分。 因此,在注释选项中不同于现有缓存查询的查询与现有缓存查询不匹配。 注释选项可以作为查询的一部分由用户指定,也可以由SQL预处理器在准备查询之前生成并插入。 如果SQL查询包含文字值,SQL预处理器将生成`DynamicSQLTypeList`注释选项,并将其附加到缓存的查询文本的末尾。此注释选项为每个文字分配数据类型。数据类型按照文字在查询中出现的顺序列出。只列出实际文字,而不是输入主机变量或?输入参数。下面是一个典型的例子: ```sql SELECT TOP 2 Name,Age FROM Sample.MyTest WHERE Name %STARTSWITH 'B' AND Age > 21.5 ``` 生成缓存的查询文本: ```sql SELECT TOP ? Name , Age FROM Sample . MyTest WHERE Name %STARTSWITH ? AND Age > ? /*#OPTIONS {"DynamicSQLTypeList":"10,1,11"} */ ``` 在本例中,文字2被列为类型10(整数),文字`“B”`被列为类型1(字符串),而文字`21.5`被列为类型11(数字)。 请注意,数据类型分配仅基于文字值本身,而不是关联字段的数据类型。例如,在上面的示例中,`Age`被定义为数据类型`INTEGER`,但是文字值21.5被列为`NUMERIC`。因为InterSystems IRIS将数字转换为规范形式,所以文字值`21.0`将被列为整数,而不是数字。 `DynamicSQLTypeList`返回以下数据类型值: 数字 | 描述 ---|--- 1| 长度为1到32(包括1到32)的字符串 2| 长度为33到128(含)的字符串 3| 长度为129到512(含)的字符串 4| 长度大于512的字符串 10| Integer 11| Numeric 由于`DynamicSQLTypeList`注释选项是查询文本的一部分,因此更改文本以使其产生不同的数据类型会导致创建单独的缓存查询。例如,增加或减少文字字符串的长度,使其落入不同的范围。 ## 文字替换和性能 SQL引擎对`IN`谓词的每个值执行文字替换。大量`IN`谓词值可能会对缓存查询性能产生负面影响。可变数量的`IN`谓词值可能会导致多个缓存查询。将`IN`谓词转换为`%INLIST`谓词会导致谓词只有一个文字替换,而不管列出的值有多少。`%INLIST`还提供了一个数量级大小参数,`SQL`使用该参数来优化性能。 ## 取消文字替换 可以取消这种文字替换。在某些情况下,可能希望对文字值进行优化,并为具有该文字值的查询创建单独的缓存查询。若要取消文字替换,请将文字值括在双圆括号中。下面的示例显示了这一点: ```sql SELECT TOP 11 Name FROM Sample.Person WHERE Name %STARTSWITH (('A')) ``` 指定不同的 `%STARTSWITH`值将生成单独的缓存查询。请注意,对每个文字分别指定禁止文字替换。在上面的示例中,指定不同的`TOP`值不会生成单独的缓存查询。 要取消有符号数字的文字替换,请指定诸如 `ABS(-((7)))`之类的语法。 注意:在某些情况下,不同数量的括号也可能会抑制文字替换。InterSystems建议始终使用双圆括号作为此目的最清晰和最一致的语法。 # 共分注释选项 如果一个SQL查询指定了多个分割表,则SQL预处理器会生成一个共分片注释选项,并将该选项附加到缓存的查询文本的末尾。此共分选项显示是否对指定的表进行共分。 在下面的示例中,所有三个指定的表都进行了编码共享: ``` /*#OPTIONS {"Cosharding":[["T1","T2","T3"]]} */ ``` 在以下示例中,指定的三个表均未进行编码共享: ``` /*#OPTIONS {"Cosharding":[["T1"],["T2"],["T3"]]} */ ``` 在以下示例中,表`T1`未被编分,但表`T2`和`T3`被编分: ``` /*#OPTIONS {"Cosharding":[["T1"],["T2","T3"]]} */ ```
文章
Michael Lei · 五月 24, 2021

将 pButtons 数据提取到 csv 文件以便绘制图表

本帖的目的是回答一个问题。 在本系列的第二篇帖子中,我包括了从 pButtons 提取的性能数据的图表。 有人在线下问我,有没有比剪切/粘贴更快的方法从 pButtons .html文件中提取 `mgstat` 等指标,以便在 Excel 中绘图。 参见:- [第 2 部分 - 研究收集的指标](https://cn.community.intersystems.com/post/intersystems-数据平台和性能-–-第-2篇) pButtons 将其收集的数据编译成一个 html 文件,以便发送给 WRC 和查看整理的数据。 不过,尤其是对于长时间(如 24 小时)进行收集的 pButtons 来说,一些基于时间的数据(如 mgstat、vmstat 等)以图形方式查看更容易查找趋势或模式。 我知道把 pButtons 数据压缩到一个 html 文件再花时间去解压听起来很疯狂,但请记住,pButtons 是 WRC 用来获取许多系统指标的视图以帮助解决性能问题的工具。 系统级指标和 Caché 指标可以单独运行,但对我来说,在这个系列中使用 pButtons 捕获和分析性能指标是很方便的,因为我知道所有 Caché 安装都会有一个副本,或者可以下载副本,而且所有基本指标都可以放在一个文件中供不同的操作系统使用。 能够每天通过一个简单的例程来捕获这些指标也是很方便的,前提是没有以任何其他方式收集数据。 > _**2017 年 2 月。 我用 Python 重写了本文中的脚本,并添加了包括交互式 html 在内的图表。**_我认为 Python 实用工具有用得多。 请参见 [Yape - 另一个 pButtons 提取程序(以及自动创建图表)](https://community.intersystems.com/post/yape-yet-another-pbuttons-extractor-and-automatically-create-charts) ## 将 pButtons 性能指标提取到 csv 文件 由于我使用 Apple 笔记本电脑和 Unix 操作系统,所以很自然地写了一个快速 shell 脚本来提取数据到 csv 文件。 以下脚本从 pButtons .html 文件中提取 mgstat、vmstat 或 Windows 性能监视器数据。 下面的示例使用了大多数 *nix 系统都已安装的 Perl,但也可以使用其他脚本语言或在 Windows 上使用 powershell。 我将展示如何进行提取,有了这些信息,您就可以使用您喜欢的工具来执行同样操作。 关键是 html 文件中有标记来分隔指标。 例如,mgstat 用括号括起: 和 在 mgstat 部分中还有一些其他描述符信息,后面是 mgstat 输出的标题行。 vmstat 和 win_perfmon 的标记类似。 这个简单的脚本只是查找开始标记,然后输出从标题行到结束标记之前的行的所有内容。 #!/usr/bin/perl # extract_pButtons.pl - Simple extractor for pButtons # usage: ./extract_pButtons.pl # pButtons has the following markers in the html source # Metrics Parameters to pass # -------- ------------------- # mgstat mgstat Date # windows performance monitor win_perfmon Time # vmstat vmstat fre # usage example - Search for mgstat and redirect to .csv file # ./extract_pButtons.pl DB1_20160211_0001_24Hour_5Sec.html mgstat Date > myMgstatOutput.csv # usage example - Process a set of html files # for i in $(ls *.html); do ./extract_pButtons.pl ${i} vmstat fre > ${i}.vmstat.csv ; done # usage example - Pipeline to add commas # ./extract_pButtons.pl P570A_CACHE_20150418_0030_day.html vmstat fre | ./make_csv.pl >P570A_CACHE_20150418_0030_day.html.vmstat.csv $filename=$ARGV[0]; $string=$ARGV[1]; $firstLine=$ARGV[2]; $searchBeg="beg_".$string; $search2=$firstLine; $foundEnd="end_".$string; $foundString=0; $printIt=0; $break=0; open HTMLFILEIN, "
文章
姚 鑫 · 六月 21, 2021

第十四章 XML获取当前节点信息

# 第十四章 XML获取当前节点信息 # DOM节点类型 `%XML.Document`和`%XML.Node`类识别以下`DOM`节点类型: - Element (`$$$xmlELEMENTNODE`) 请注意,这些宏在%xml.DOM.inc包含文件中定义。 - Text (`$$$xmlTEXTNODE`) - Whitespace (`$$$xmlWHITESPACENODE`). 其他类型的`DOM`节点被简单地忽略。 请以下XML文档: ```xml Jack O'Neill Samantha Carter Daniel Jackson ``` 当作为DOM查看时,该文档由以下节点组成: 文档节点示例 NodeID| NodeType |LocalName| Notes ---|---|---|--- 0,29| `$$$xmlELEMENTNODE`| team | 1,29| `$$$xmlWHITESPACENODE`| | 该节点是``节点的子节点 1,23| `$$$xmlELEMENTNODE`| member| 该节点是``节点的子节点 2,45| `$$$xmlTEXTNODE`| Jack O'Neill| 该节点是第一个``节点的子节点 1,37| `$$$xmlWHITESPACENODE`| | 该节点是``节点的子节点 1,41| `$$$xmlELEMENTNODE`| member |该节点是``节点的子节点 3,45| `$$$xmlTEXTNODE` |Samantha Carter| 该节点是第二个``节点的子节点 1,45| `$$$xmlWHITESPACENODE`| |该节点是``节点的子节点 1,49| `$$$xmlELEMENTNODE`| member |该节点是``节点的子节点 4,45| `$$$xmlTEXTNODE`| Daniel Jackson| 该节点是第三个``节点的子节点 1,53| `$$$xmlWHITESPACENODE`| |该节点是``节点的子节点 # 获取当前节点信息 `%XML.Node`的以下字符串属性。提供关于当前节点的信息。 在所有情况下,如果没有当前节点,将抛出一个错误。 ### LocalName 当前元素节点的本地名称。如果访问其他类型节点的此属性,则会引发错误。 ### Namespace 当前元素节点的命名空间URI。如果尝试访问其他类型节点的此属性,则会引发错误。 ### NamespaceIndex 当前元素节点的命名空间的索引。 当InterSystems IRIS读取XML文档并创建DOM时,它会标识文档中使用的所有名称空间,并为每个名称空间分配一个索引号。 如果尝试访问其他类型节点的此属性,则会引发错误。 ### Nil 如果`xsi:nil`或`xsi:null`为true,则等于true;如果此元素节点为1,则等于1。否则,此属性等于`False`。 ### NodeData 字符节点的值。 ### NodeId 当前节点ID。 可以设置此属性以导航到另一个节点。 ### NodeType 当前节点的类型,如前一节所述。 ### QName 元素节点的Q名称。仅当前缀对文档有效时才用于输出为XML。 以下方法提供有关当前节点的其他信息: ### GetText() ```java method GetText(ByRef text) as %Boolean ``` 获取元素节点的文本内容。如果返回文本,则此方法返回TRUE;在本例中,实际文本被追加到第一个参数后,该参数通过引用返回。 ### HasChildNodes() ```java method HasChildNodes(skipWhitespace As %Boolean = 0) as %Boolean ``` 如果当前节点有子节点,则返回True;否则返回False。 ### GetNumberAttributes() ```java method GetNumberAttributes() as %Integer ``` 方法`GetNumberAttributes()`为`%Integer` ## 示例 下面的示例方法编写一个报告,提供有关当前节点的信息: ```java ClassMethod ShowNode(node As %XML.Node) { w !,"LocalName=" _ node.LocalName if node.NodeType=$$$xmlELEMENTNODE { w !,"Namespace=" _ node.Namespace } if node.NodeType = $$$xmlELEMENTNODE { w !,"NamespaceIndex=" _ node.NamespaceIndex } w !,"Nil=" _ node.Nil w !,"NodeData=" _ node.NodeData w !,"NodeId=" _ node.NodeId w !,"NodeType=" _ node.NodeType w !,"QName=" _ node.QName w !,"HasChildNodes returns " _ node.HasChildNodes() w !,"GetNumberAttributes returns " _ node.GetNumberAttributes() s status = node.GetText(.text) if status { w !, "该节点的文本为 "_text } else { w !, "GetText不返回文本" } } ``` 示例输出可能如下所示: ```java LocalName=update Namespace= NamespaceIndex= Nil=0 NodeData=update NodeId=0,29 NodeType=0 QName=update HasChildNodes returns 1 GetNumberAttributes returns 0 GetText不返回文本 文档中的命名空间数: 1 Namespace 1 is http://www.w3.org/2001/XMLSchema-instance DHC-APP> ```
文章
Michael Lei · 六月 7, 2022

绕过ODBC使用ObjectScript访问远程系统

绕过ODBC使用ObjectScript访问远程系统 这是一个在 IRIS 2020.1 和 Caché 2018.1.3 上工作的代码示例 不会与新版本保持同步 也不会获得 InterSystems 提供的支持服务! 我们经常会遇到这样的情况,由于各种原因ODBC是访问一个远程系统的唯一选择。如果你只需要检查或改变表,这就足够了。但你不能直接执行一些命令或改变一些Global。 特别感谢@Anna.Golitsyna 启发我发表此文。 这个例子提供了3种 SQLprocedure 方法来实现访问远程系统这个目的,如果其他的访问方式被阻止,通常是被一些防火墙阻止。 SQLprocedure Ping() 返回 Server::Namespace::$ZV 并允许检查连接 SQLprocedure Xcmd(<commandline>,<resultvar>) 执行你提交的命令行,并返回一个存放在你命名的变量中的结果。 SQLprocedure Gset(<global>,<subscript>,<value>,<$data>) 允许你设置或删除一个Global节点 。参数<global> 是远程命名空间中的GlobalName,包括前导符;例如'^MyGlobal' (注意:sql 用单引号!) 。参数<subscript>代表完整的下标,包括括号;例如 '(1,3, "something",3)' (注意:sql 用单引号!)。 参数<$data> 控制你是对Global节点赋值,还是对其执行ZKILL;例如,1,11表示设置,0,10表示ZKILL;正如你可能从名字中猜到的那样,在Global复制过程中,这特别有用。 程序Gset是为了利用前一篇文章的Global扫描而设计的,结合起来用,它们支持在任何ODBC连接中进行Global复制。 安装: - 在远程系统中,你需要我们应用市场OpenExchange中提供的类 - 在本地(源)系统中你需要定义这些程序为连接的SQL Procedures SMP>System>SQL> Wizards>Link Procedure 同时定义你的本地包名称 (在这个例子中我使用zrccEX)- 如果你想运行Global 复制你还需要从我们应用市场安装Global Scanning 类 (只是为了舒服一点) 例子: USER>do $system.SQL.Shell() SQL Command Line Shell [SQL]USER>>select rccEX.Ping() Expression_1 cemper9::CACHE::IRIS for Windows (x86-64) 2020.1 (Build 215U) Mon Mar 30 2020 20:14:33 EDT 检查Global是否存在 ^rcc [SQL]USER>>select rccEX.Xcmd('set %y=$d(^rcc)','%y') ok: 10 赋值 ^rcc4(1,"demo",3,4) [SQL]USER>>select rccEX.Gset('^rcc4','(1,"demo",3,4)','this is a demo',1) Expression_1 ok: ^rcc4(1,"demo",3,4) 从 ^rcc2 到 ^rcc4 进行Global 复制.首先显示 ^rcc2 USER>>select reference,value,"$DATA" from rcc_G.Scan where rcc_G.scan('^rcc2',4)=1 Reference Value $Data ^rcc2 10 (1) 1 1 (2) 2 11 (2,"xx") 10 (2,"xx",1) "XX1" 1 (2,"xx",10) "XX10" 1 (2,"xx",4) "XX4" 1 (2,"xx",7) "XX7" 1 (3) 3 1 (4) 4 11 (4,"xx") 10 (4,"xx",1) "XX1" 1 (4,"xx",10) "XX10" 1 (4,"xx",4) "XX4" 1 (4,"xx",7) "XX7" 1 (5) 5 1 16 Rows(s) Affected 现在执行复制到远程global [SQL]USER>>select rccEX.Gset('^rcc4',reference,value,"$DATA") from rcc_G.Scan where rcc_G.scan('^rcc2',4)=1 Expression_1 ok: ^rcc4 ok: ^rcc4(1) ok: ^rcc4(2) ok: ^rcc4(2,"xx") ok: ^rcc4(2,"xx",1) ok: ^rcc4(2,"xx",10) ok: ^rcc4(2,"xx",4) ok: ^rcc4(2,"xx",7) ok: ^rcc4(3) ok: ^rcc4(4) ok: ^rcc4(4,"xx") ok: ^rcc4(4,"xx",1) ok: ^rcc4(4,"xx",10) ok: ^rcc4(4,"xx",4) ok: ^rcc4(4,"xx",7) ok: ^rcc4(5) 16 Rows(s) Affected
文章
Claire Zheng · 八月 17, 2021

FHIR标准和国际基于FHIR的互联互通实践(4):HL7的互操作标准

在国际上有很多互操作标准的开发组织,在我们医院信息化、医疗信息化领域有40多个标准开发组织,最广为人知的就是HL7国际、IHE,当然SNOMED也是,它开发的是行业术语跟语义的标准。 这些标准开发组织和和政府对于互操作标准有很多的测试和一致性认证,例如说HL7有FHIR连接马拉松(FHIR Connectathons),今年HL7中国也在正在开始做 FHIR连接马拉松测试(FHIR Connectathons)。IHE也有自己的连接马拉松(IHE Connectathons)测试。美国政府的 ONC IT认证计划,都是针对于互操作性的一些测试和认证。 我们来看看FHIR。在 HL7的提供的互操作标准里面,有很多的标准。我们现在提到的 FHIR是它最新的。HL7的标准的历史比较长,有40多年历史的V2,采纳度非常高,红色这张柱子是我们当前所处的 时间段,虽然它的采纳度在下降,但是仍比其他标准的采纳度都高。 V2有问题——V2的问题就是它的结构过于灵活,标准化程度不高,这也是我们使用它的一些问题。在使用V2的时候,我们通常面临的问题就是要使用V2标准的双方要坐下来谈怎么使用V2消息,才能够真正实现互联互通。在上世纪90年代的时候,HL7发布了V3版本的互操作标准,这也是个消息标准。 大家可以看看到上图里V3的采纳度历史最高峰已经过去了,最高峰也大概只到HL7 V2的一半。为什么会有这种低的采纳度?是因为V3虽然方法论很好——大家知道V3可能都知道参考信息模型,但是V3标准非常复杂,即便是非常有经验的集成工程师要使用V3来做一个集成,恐怕也要数周的时间,这也是V3在全球采纳度整体来说不高的一个原因。 此外有CDA,CDA是一个文档的标准,现在我们恰恰处在 CDA实施的这么一个高峰,采纳度的高峰。最近10年美国CDA的采纳度有一个非常快速的提升,原因是美国的市场上关于互联互通需求的提升,造成了这种以文档方式来进行共享交换的CDA标准采纳度的上升。 FHIR是最新的标准,大家可以看到FHIR标准现在其实还处于标准采纳度爬坡的阶段。它目前采纳度并不是很高,差不多刚刚跟V3降下来的采纳度到相同的水平。但是根据HL7组织的预测,FHIR将会成为未来广受欢迎的、或者说采纳度最高的它自己的标准。 注:本文根据InterSystems中国技术总监乔鹏演讲整理而成。
文章
姚 鑫 · 一月 14, 2023

第四十五章 使用 ^SystemPerformance 监视性能 - Abort ^SystemPerformance

# 第四十五章 使用 ^SystemPerformance 监视性能 - Abort ^SystemPerformance # `Abort ^SystemPerformance` 如果要停止正在运行的配置文件,可以中止数据收集,并可选择使用 `$$Stop^SystemPerformance(runid)` 命令删除配置文件的所有 `.log` 文件。例如,要中止由 `runid20111220_1327_12hours` 标识的报告的数据收集并删除到目前为止写入的所有 `.log` 文件,请在终端的 `%SYS` 命名空间中输入以下命令: ``` do Stop^SystemPerformance("20111220_1327_12hours") ``` 要在不删除日志文件的情况下停止作业并从这些日志文件生成 `HTML` 性能报告,请输入: ``` do Stop^SystemPerformance("20111220_1327_12hours",0) ``` 有关此命令的更多信息,请参阅以编程方式运行 `^SystemPerformance` 小节中的 `$$Stop^SystemPerformance("runid")`。 注意:必须有权停止`jobs`和删除文件。 # 以编程方式运行 `^SystemPerformance`。 可以使用启动、收集、预览和停止功能的入口点以编程方式运行 `^SystemPerformance` 实用程序,如下表所述: 注意:可以同时运行多个配置文件。 - `$$run^SystemPerformance("profile")` - 启动指定的配置文件。如果成功,返回runid;如果不成功,则返回 `0`。 - `$$literun^SystemPerformance("profile")` - 与 `$$run^SystemPerformance("profile")` 相同,只是它不包括操作系统数据。 注意:此命令适用于运行多个 `IRIS` 实例的服务器,其中操作系统数据将被复制。 - `$$Collect^SystemPerformance("runid")` - 为指定的 `runid` 生成可读的 HTML 性能报告文件。如果成功,返回 `1` 和报告文件名;如果不成功,返回 `0` 后跟一个克拉和失败的原因。 - `$$Preview^SystemPerformance("runid")` - 为指定的 `runid` 生成可读的 HTML 临时(不完整)性能报告文件。如果成功,则返回 `1`,后跟 `carat` 和文件位置。如果不成功,则返回 `0`,后跟 `carat` 和失败的原因。 - `$$Stop^SystemPerformance("runid",[0])` - 停止(中止)`^SystemPerformance` 收集指定 `runid` 的数据,并默认删除实用程序生成的关联 `.log` 文件。要在不删除 `.log` 文件的情况下停止数据收集并从这些日志文件生成 HTML 性能报告,请在 `runid` 后面包含 `0` 参数。如果不成功,该函数返回 `0`,后跟一个 `carat `和失败的原因;如果成功,它返回:`1:2:3:4_1:2:3:4`。 “成功”状态由下划线分隔的两部分组成:特定于操作系统和特定于 IRIS;在每个部分中,以冒号分隔的值指定:1.成功停止的作业数 2.停止失败的作业数 3.成功删除的文件数 4.未删除的文件数 - `$$waittime^SystemPerformance("runid")` - 报告指定 `runid` 的最终 `HTML` 文件完成之前的时间。如果 `runid` 完成,则返回 `ready now`,否则返回 `XX` 小时 `YY` 分钟 `ZZ` 秒形式的字符串。 在以下示例中,由 `^SystemPerformance` 实用程序创建的 `runid` 以编程方式获取,然后进行测试以确定是否已生成完整报告或临时报告。尚未创建完整报告,因为配置文件尚未完成(返回“`0^not ready`”),但已创建临时报告(“返回 `1`”)。根据这些信息,知道已经生成了一个 `HTML` 文件。 ```java %SYS>set runid=$$run^SystemPerformance("30mins") %SYS>set status=$$Collect^SystemPerformance(runid) SystemPerformance run 20181004_123815_30mins is not yet ready for collection. %SYS>write status 0^not ready %SYS>set status=$$Preview^SystemPerformance(runid) %SYS>write status 1^c:\intersystems\iris\mgr\USER_IRIS_20181004_123815_30mins_P1.html %SYS> ```
文章
姚 鑫 · 一月 7, 2023

第三十七章 使用 ^PROFILE 监控例程性能 - ^PROFILE 示例

# 第三十七章 使用 ^PROFILE 监控例程性能 - Using ^PROFILE - 当显示子例程标签列表(以及每个标签的指标)时,可以指定以下任何一项 Option |Description ---|--- `#` |要更详细地分析的子例程标签(在代码中)的行号。按 `Enter` 后,将显示指定标签的代码。 `B` |显示列表的上一页。 `L`|切换到子程序的行级显示。 `N`| 显示列表的下一页。 `Q`| 退出列表,返回上一级。 `R`| 使用最新指标刷新列表。注:如果列表中显示`*UNKNOWN*`,请输入`R`。 当显示代码行时,系统会提示指定下一步要执行的操作。的选择包括: Option |Description ---|--- `#`|要更详细地分析的代码中的行号。按Enter键后,将显示指定标签的代码。 `B`| 显示列表的上一页。 `C`| 在源代码和中间(`INT/MVI`)代码之间切换代码显示。 `M`| 更改页边距和长度。 `N`| 显示列表的下一页。 `O`| 根据不同的指标对页面进行重新排序。 `Q`| 退出列表,返回到上一级别。 `R`| 使用最新指标刷新列表。 `S`| 切换到例程的子例程级别显示。 # ^PROFILE 示例 以下是在终端中以交互方式运行^配置文件实用程序(从`%sys`命名空间)的示例: 1. 输入以下命令: ``` do ^PROFILE ``` 2. 此时将显示以下消息。 ``` WARNING: This routine will start a system-wide collection of data on routine activity and then display the results. There may be some overhead associated with the initial collection, and it could significantly affect a busy system. The second phase of collecting line level detail activity has high overhead and should ONLY BE RUN ON A TEST SYSTEM! Are you ready to start the collection? Yes => ``` 3. 按`Enter`键开始收集指标。将显示与以下内容类似的指标: ``` Waiting for initial data collection ... RtnLine Time CPU RtnLoad GloRef GloSet 1. 41.48% 12.19% 0.00% 28.97% 10.65% 0.00% %Library.ResultSet.1.INT (IRISLIB) 2. 35.09% 56.16% 65.22% 9.35% 36.77% 42.55% SYS.Database.1.INT (IRISSYS) 3. 10.75% 6.62% 0.00% 43.30% 22.68% 46.81% Config.Databases.1.INT (IRISSYS) 4. 7.13% 3.22% 0.00% 6.23% 0.00% 0.00% %Library.Persistent.1.INT (IRISLIB) 5. 1.26% 0.71% 0.00% 4.36% 4.12% 4.26% PROFILE.INT (IRISSYS) 6. 1.20% 0.00% 0.00% 0.00% 5.15% 6.38% %SYS.WorkQueueMgr.INT (IRISSYS) 7. 0.76% 15.08% 34.78% 0.00% 0.00% 0.00% %SYS.API.INT (IRISSYS) 8. 0.64% 1.05% 0.00% 0.00% 17.18% 0.00% %Library.JournalState.1.INT (IRISLIB) 9. 0.61% 0.31% 0.00% 3.74% 0.00% 0.00% %Library.IResultSet.1.INT (IRISLIB) 10. 0.28% 0.93% 0.00% 0.00% 1.72% 0.00% %Library.Device.1.INT (IRISLIB) 11. 0.24% 0.71% 0.00% 0.62% 0.00% 0.00% Config.CPF.1.INT (IRISSYS) Select routine(s) or '?' for more options N => ``` 4. 输入与要更详细分析的例程相关联的数字。例如,输入`2-3`、`5`、`7`、`10`,然后输入N或B以显示其他页面,以可以选择其他程序。 5. 选择要分析的所有例程后,输入q以显示类似以下内容的消息: ``` There are 2 routines selected for detailed profiling. You may now end the routine level collection and start a detailed profiler collection. WARNING !! This will have each process on the system gather subroutine level and line level activity on these routines. Note that this part of the collection may have a significant effect on performance and should only be run in a test or development instance. Are you ready to start the detailed collection? Yes => ``` 6. 按`Enter`键后,将显示类似以下内容的页面: ``` Stopping the routine level Profile collection ... Loading ^%Library.Persistent.1 in ^^c:\intersystems\iris\mgr\irislib\ Detail level Profile collection started. RtnLine Routine Name (Database) 1. 96.72% %Library.Persistent.1.INT (IRISLIB) 2. 3.28% Config.CPF.1.INT (IRISSYS) Select routine to see details or '?' for more options R => ``` 7. 选择要分析其代码的例程后,该例程将显示一页有关该代码的信息。
文章
姚 鑫 · 三月 14, 2021

第十章 SQL排序(一)

# 第十章 SQL排序 排序规则指定值的排序和比较方式,并且是InterSystems SQL和InterSystemsIRIS®数据平台对象的一部分。有两种基本排序规则:数字和字符串。 - 数值排序规则按以下顺序基于完整数字对数字进行排序:`null`,然后是负数,从最大到最小,零,然后是正数,从最小到最大。这将创建如下序列:`–210,–185,–54,–34,-.02、0、1、2、10、17、100、120`。 - 字符串归类通过对每个顺序字符进行归类来对字符串进行排序。这将创建以下顺序:`null,A,AA,AA,AAA,AAB,AB,B`。对于数字,这将创建以下顺序:`–.02,–185,–210,–34,–54 ,0、1、10、100、120、17、2`。 **默认的字符串排序规则是`SQLUPPER`;为每个名称空间设置此默认值。 `SQLUPPER`排序规则将所有字母都转换为大写(出于排序的目的),并在字符串的开头附加一个空格字符。此转换仅用于整理目的;在InterSystems中,无论所应用的排序规则如何,SQL字符串通常以大写和小写字母显示,并且字符串的长度不包括附加的空格字符。** 时间戳记是一个字符串,因此遵循当前的字符串排序规则。但是,由于时间戳是ODBC格式,因此如果指定了前导零,则字符串排序规则与时间顺序相同。 - 字符串表达式(例如使用标量字符串函数`LEFT`或`SUBSTR`的表达式)使其结果归类为`EXACT`。 - 两个文字的任何比较都使用`EXACT`归类。 可以使用“ObjectScript排序后”运算符来确定两个值的相对排序顺序。 可以按以下方式指定排序规则: - 命名空间默认值 - 表字段/属性定义 - 索引定义查询 - `SELECT`项 - 查询`DISTINCT`和`GROUP BY`子句 # 排序类型 排序规则可以在字段/属性的定义或索引的定义中指定为关键字。 可以通过对查询子句中的字段名应用排序规则函数来指定排序规则。 在指定排序函数时必须使用%前缀。 **排序规则采用升序的ASCII/Unicode序列**,具有以下转换: - **`EXACT` - 强制字符串数据区分大小写。 如果字符串数据包含规范数字格式的值(例如`123`或`-.57`),则不建议使用。** - **`SQLSTRING` - 去除末尾的空格(空格、制表符等),并在字符串的开头添加一个前导空格。 它将任何只包含空格(空格、制表符等)的值作为SQL空字符串进行排序。 `SQLSTRING`支持可选的`maxlen`整数值。** - **`SQLUPPER` - 将所有字母字符转换为大写,去除末尾的空格(空格、制表符等),然后在字符串的开头添加一个前导空格字符。 附加这个空格字符的原因是为了强制将数值作为字符串进行整理(因为空格字符不是有效的数字字符)。 这种转换还导致SQL将SQL空字符串(`"`)值和任何只包含空格(空格、制表符等)的值作为单个空格字符进行整理。 `SQLUPPER`支持可选的`maxlen`整数值。** 注意,`SQLUPPER`转换与SQL函数`UPPER`的结果不同。 - **`TRUNCATE` —增强字符串数据的区分大小写,并且(与`EXACT`不同)允许指定截断该值的长度。当索引比下标支持的数据长的精确数据时,此功能很有用。它采用`%TRUNCATE(string,n)`形式的正整数参数将字符串截断为前`n`个字符,从而改善了对长字符串的索引和排序。如果未为`TRUNCATE`指定长度,则其行为与`EXACT`相同;同时支持此行为。如果仅在定义了长度的情况下使用`TRUNCATE`而在没有定义长度的情况下使用`EXACT`,则定义和代码可能更易于维护。** - **`PLUS` —使值成为数字。非数字字符串值将返回0。** - **`MINUS` — 使数值成为数字并更改其符号。非数字字符串值将返回0。** 注意:还有多种传统排序规则类型,不建议使用。 **在SQL查询中,可以指定不带括号`%SQLUPPER Name`或带括号`%SQLUPPER(Name)`的排序规则函数。如果排序规则函数指定了截断,则必须使用括号`%SQLUPPER(Name,10)`。** **三种排序规则类型:`SQLSTRING`,`SQLUPPER`和`TRUNCATE`支持可选的`maxlen`整数值。如果指定,`maxlen`会将字符串的分析截断为前`n`个字符。在对长字符串进行索引和排序时,可以使用它来提高性能。可以在查询中使用`maxlen`进行排序,分组或返回截断的字符串值。** 还可以使用 `%SYSTEM.Util.Collation()`方法执行排序规则类型转换。 # 命名空间范围的默认排序规则 每个名称空间都有一个当前的字符串排序规则设置。此字符串排序规则是为`%Library.String`中的数据类型定义的。默认值为`SQLUPPER`。此默认值可以更改。 可以基于每个命名空间定义排序规则默认值。默认情况下,名称空间没有分配的排序规则,这意味着它们使用`SQLUPPER`排序规则。可以为命名空间分配其他默认排序规则。此名称空间默认排序规则适用于所有进程,并且在InterSystems上保持不变,IRIS会重新启动,直到明确重置为止。 ```java /// d ##class(PHA.TEST.SQL).Collation() ClassMethod Collation() { SET stat=$$GetEnvironment^%apiOBJ("collation","%Library.String",.collval) WRITE "初始排序 ",$NAMESPACE,! ZWRITE collval SetNamespaceCollation DO SetEnvironment^%apiOBJ("collation","%Library.String","SQLstring") SET stat=$$GetEnvironment^%apiOBJ("collation","%Library.String",.collnew) WRITE "user-assigned排序为 ",$NAMESPACE,! ZWRITE collnew ResetCollationDefault DO SetEnvironment^%apiOBJ("collation","%Library.String",.collval) SET stat=$$GetEnvironment^%apiOBJ("collation","%Library.String",.collreset) WRITE "恢复排序规则的默认值 ",$NAMESPACE,! ZWRITE collreset } ``` ```java DHC-APP>d ##class(PHA.TEST.SQL).Collation() 初始排序 DHC-APP user-assigned排序为 DHC-APP collnew="SQLstring" 恢复排序规则的默认值 DHC-APP ``` 注意,如果从未设置名称空间排序的默认值,那么`$$GetEnvironment`将返回一个未定义的排序变量,例如本例中的`.collval`。 这个未定义的排序规则默认为`SQLUPPER`。 注意:如果数据包含德语文本,大写排序规则可能不是理想的默认设置。 这是因为德语`eszett`字符(`$CHAR(223)`)只有小写形式。 相当于大写的是两个字母`“SS”`。 转换为大写的SQL排序规则不会转换`eszett,` `eszett`保持为单个小写字母不变。 # 表字段/属性定义排序 在SQL中,排序规则可以分配为字段/属性定义的一部分。字段使用的数据类型确定其默认排序规则。字符串数据类型的默认排序规则为`SQLUPPER`。非字符串数据类型不支持排序规则分配。 可以在`CREATE TABLE`和`ALTER TABLE`中为字段指定排序规则: ```SQL CREATE TABLE Sample.MyNames ( LastName CHAR(30), FirstName CHAR(30) COLLATE SQLstring) ``` 注意:使用`CREATE TABLE``和ALTER TABLE`为字段指定排序规则时,`%`前缀是可选的`:COLLATE SQLstring`或`COLLATE %SQLstring`。 在使用持久类定义定义表时,可以为属性指定排序规则: ```java Class Sample.MyNames Extends %Persistent [DdlAllowed] { Property LastName As %String; Property FirstName As %String(COLLATION = "SQLstring"); } ``` 注意:在为类定义和类方法指定排序规则时,请勿将`%`前缀用于排序规则类型名称。 **在这些示例中,`LastName`字段采用默认排序规则(`SQLUPPER`,不区分大小写),`FirstName`字段使用区分大小写的`SQLSTRING`排序规则进行定义。** **如果更改类属性的排序规则,并且已经存储了该类的数据,则该属性上的所有索引都将变为无效。必须基于此属性重建所有索引。** # 索引定义排序 `CREATE INDEX`命令无法指定索引排序规则类型。索引使用与要索引的字段相同的排序规则。 **定义为类定义一部分的索引可以指定排序规则类型。默认情况下,给定一个或多个给定属性的索引使用属性数据的排序规则类型。例如,假设已定义类型为`%String`的属性`Name`:** ```java Class MyApp.Person Extends %Persistent [DdlAllowed] { Property Name As %String; Index NameIDX On Name; } ``` 名称的排序规则为`SQLUPPER`(`%String`的默认值)。假设`“Person”`表包含以下数据: ID| Name ---|--- 1| Jones 2| JOHNSON 3| Smith 4| jones 5| SMITH 然后,`Name`上的索引将包含以下条目: Name| ID(s) ---|--- JOHNSON| 2 JONES| 1, 4 SMITH| 3, 5 SQL引擎可以将此索引直接用于`ORDER BY`或使用`“Name”`字段进行比较操作。 可以通过在索引定义中添加一个`As`子句来覆盖用于索引的默认排序规则: ```java Class MyApp.Person Extends %Persistent [DdlAllowed] { Property Name As %String; Index NameIDX On Name As SQLstring; } ``` 在这种情况下,`NameIDX`索引现在将以`SQLSTRING`(区分大小写)的形式存储值。使用上面示例中的数据: Name| ID(s) ---|--- JOHNSON| 2 Jones| 1 jones| 4 SMITH| 5 Smith| 3 在这种情况下,对于需要区分大小写排序规则的任何查询,SQL Engine都可以利用此索引。 通常,不必更改索引的排序规则。如果要使用其他排序规则,最好在属性级别定义它,然后让属性上的所有索引都采用正确的排序规则。 如果使用索引属性执行属性比较,则在比较中指定的属性应与相应索引具有相同的排序规则类型。例如,`SELECT`的`WHERE`子句或`JOIN`的`ON`子句中的`Name`属性应与为`Name`属性定义的索引具有相同的排序规则。如果属性归类和索引归类之间不匹配,则索引可能无效或根本不使用。 如果将索引定义为使用多个属性,则可以分别指定每个索引的排序规则: ```java Index MyIDX On (Name As SQLstring, Code As Exact); ```
文章
姚 鑫 · 三月 17, 2021

第十二章 使用嵌入式SQL(一)

# 第十二章 使用嵌入式SQL(一) 可以将SQL语句嵌入InterSystemsIRIS®数据平台使用的ObjectScript代码中。这些嵌入式SQL语句在运行时转换为优化的可执行代码。 嵌入式SQL有两种: - 一个简单的嵌入式SQL查询只能返回单行中的值。简单嵌入式SQL还可以用于单行插入,更新和删除以及其他SQL操作。 - 基于游标的嵌入式SQL查询可以遍历查询结果集,并从多行中返回值。基于游标的嵌入式SQL也可以用于多行更新和删除SQL操作。 **注意:嵌入式SQL不能输入到`Terminal`命令行,也不能在`XECUTE`语句中指定。要从命令行执行SQL,请使用`$SYSTEM.SQL.Execute()`方法或SQL Shell接口。** # 编译嵌入式SQL 当包含嵌入式SQL的例程被编译时,嵌入式SQL不会被编译。 相反,嵌入式SQL的编译发生在SQL代码的第一次执行(运行时)。 第一次执行定义了一个可执行的缓存查询。 这与动态SQL的编译类似,在动态SQL中,直到执行SQL Prepare操作才编译SQL代码。 直到第一次执行例程,嵌入式SQL代码才会根据SQL表和其他实体进行验证。 因此,可以编译包含嵌入式SQL的持久化类的例程或方法,这些SQL引用在例程编译时不存在的表或其他SQL实体。 由于这个原因,大多数SQL错误是在运行时执行时返回的,而不是编译时返回的。 **在例程编译时,对嵌入式SQL执行SQL语法检查。 ObjectScript编译器失败,并为嵌入式SQL中的无效SQL语法生成编译错误。** 可以使用Management Portal SQL接口测试嵌入式SQL中指定的SQL实体是否存在,而不需要执行SQL代码。 这在验证嵌入式SQL代码中进行了描述,该代码既验证SQL语法,又检查是否存在SQL实体。 可以选择在运行时执行之前验证嵌入式SQL代码,方法是使用`/compileembedded=1`限定符编译包含嵌入式SQL代码的例程,如验证嵌入式SQL代码中所述。 **成功执行的嵌入式SQL语句将生成一个缓存的查询。该嵌入式SQL的后续执行将使用缓存的查询,而不是重新编译嵌入式SQL源。这提供了对嵌入式SQL的缓存查询的性能优势。** 当首次使用`OPEN`命令打开游标时,会执行基于游标的Embedded SQL语句的运行时执行。在执行的这一点上,将生成优化的缓存查询计划,如管理门户中的“ SQL语句”列表中所示。列出的“ SQL语句”位置是包含嵌入式SQL代码的例程的名称。请注意,执行嵌入式SQL不会在“缓存的查询”列表中生成一个条目。这些清单(带有类名称,例如`%sqlcq.USER.cls1`)是由Dynamic SQL查询创建的。 **注意:较早版本的IRIS中使用的`#SQLCompile Mode`预处理程序语句已被弃用。它已被解析,但不再对大多数嵌入式SQL命令执行任何操作。无论`#SQLCompile Mode`设置如何,大多数嵌入式SQL命令都会在运行时进行编译。但是,设置`#SQLCompile Mode = deferred`对于少量的嵌入式SQL命令仍然有意义,因为它会强制在运行时编译所有类型的嵌入式SQL命令。** ## 嵌入式SQL和宏预处理器 可以在方法内和触发器内(前提是它们已定义为使用ObjectScript)或在ObjectScript MAC例程内使用嵌入式SQL。 MAC例程由InterSystems IRIS宏预处理器处理,并转换为INT(中间)代码,随后将其编译为可执行的OBJ代码。这些操作是在包含嵌入式SQL的例程的编译时执行的,而不是在嵌入式SQL代码本身上执行的,嵌入式SQL代码本身直到运行时才进行编译。 **如果嵌入式SQL语句本身包含InterSystems IRIS宏预处理器语句(#命令,`##函`数或`$$macro`引用),则在编译例程时将编译这些语句,并在运行时将其提供给SQL代码。**这可能会影响包含ObjectScript代码主体的`CREATE PROCEDURE`,`CREATE FUNCTION`,`CREATE METHOD`,`CREATE QUERY`或`CREATE TRIGGER`语句。 ### 在嵌入式SQL中包含文件 嵌入式SQL语句要求它们引用的任何宏包含文件都必须在运行时加载到系统上。 因为嵌入式SQL的编译将推迟到首次引用之前进行,所以嵌入式SQL类的编译上下文将是运行时环境,而不是包含类或例程的编译时环境。如果运行时当前名称空间与包含例程的编译时名称空间不同,则编译时名称空间中的包含文件可能在运行时名称空间中不可见。在这种情况下,将发生以下情况: 1. 如果在运行时名称空间中看不到包含文件,则嵌入式SQL编译将删除所有包含文件。由于SQL编译很少需要包含文件,因此如果没有这些文件,运行时嵌入式SQL编译通常会成功。 2. 如果删除包含文件后编译失败,则InterSystems IRIS错误将报告例程编译时名称空间,嵌入式SQL运行时名称空间以及从运行时名称空间看不到的包含文件列表。 ### #SQLCompile宏指令 宏预处理器提供了三个与嵌入式SQL一起使用的预处理器指令: - `#SQLCompile Select`指定从`Select`语句返回时数据显示的格式,或者指定插入或更新语句时数据输入所需的格式,或者指定Select输入主机变量。 它支持以下6个选项:`Logical(默认值)`、`Display`、`ODBC`、`Runtime`、`Text(与Display相同)`和`FDBMS`(见下文)。 如果`#SQLCompile Select=Runtime`,可以使用`$SYSTEM.SQL.Util.SetOption("SelectMode",n)`方法来更改数据的显示方式。 `n`取值为`0=Logical`、`1=ODBC`、`2=Display`。 无论指定了`#SQLCompile Select`选项,`INSERT`或`UPDATE`都会自动将指定的数据值转换为相应的逻辑格式进行存储。 不管指定了`#SQLCompile Select`选项,`Select`都会自动将输入的主机变量值转换为谓词匹配的相应逻辑格式。 使用`#SQLCompile Select`进行查询显示如下示例所示。 这些示例显示`DOB`(出生日期)值,然后将`SelectMode`更改为`ODBC`格式,然后再次显示`DOB`。 在第一个例子中,改变`SelectMode`对显示没有影响; 在第二个示例中,因为`#SQLCompile Select=Runtime`,更改`SelectMode`将更改显示: ```java /// d ##class(PHA.TEST.SQL).EmbedSQL() ClassMethod EmbedSQL() { #SQLCompile Select=Display &sql(SELECT DOB INTO :a FROM Sample.Person) IF SQLCODEd ##class(PHA.TEST.SQL).EmbedSQL() 1st date of birth is 04/25/1990 2nd date of birth is 04/25/1990 ``` ```java /// d ##class(PHA.TEST.SQL).EmbedSQL1() ClassMethod EmbedSQL1() { #SQLCompile Select=Runtime &sql(SELECT DOB INTO :a FROM Sample.Person) IF SQLCODEd ##class(PHA.TEST.SQL).EmbedSQL1() 1st date of birth is 1990-04-25 2nd date of birth is 1990-04-25 ``` - 提供`#SQLCompile Select=FDBMS`是为了使嵌入式SQL能够以与`FDBMS`相同的方式格式化数据。 如果一个查询在`WHERE`子句中有一个常量值,`FDBMS`模式假定它是一个显示值,并使用`DisplayToLogical`转换对它进行转换。 如果一个查询在`WHERE`子句中有一个变量,`FDBMS`模式使用`FDBMSToLogical conversion`对它进行转换。 应该设计`FDBMS`转换方法来处理三种`FDBMS`变量格式:`Internal`、`Internal_$c(1)_External`和`$c(1)_External`。 如果查询选择一个变量,它将调用`LogicalToFDBMS`转换方法。 这个方法返回`Internal_$c(1)_External`。 - `#SQLCompile Path(或#Import)`指定模式搜索路径,用于解析`SELECT`、`CALL`、`INSERT`、`UPDATE`、`DELETE`和`TRUNCATE`表等数据管理命令中未限定的表、视图和存储过程名称。 如果没有指定模式搜索路径,或者在指定的模式中找不到表,InterSystems IRIS将使用默认模式。 数据定义语句如`ALTER TABLE`、`DROP VIEW`、`CREATE INDEX`或`CREATE TRIGGER`会忽略`#SQLCompile Path`和`#Import`。 数据定义语句使用默认模式来解析非限定名称。 - `#SQLCompile Audit`计是一个布尔开关,指定嵌入式SQL语句的执行是否应该记录在系统事件审计日志中。 # 嵌入式SQL语法 ## `&sql`指令 嵌入式SQL语句由`&sql()`指令与其余代码分开,如以下示例所示: ```java /// d ##class(PHA.TEST.SQL).EmbedSQL2() ClassMethod EmbedSQL2() { NEW SQLCODE,a WRITE "调用嵌入式SQL",! &sql(SELECT Name INTO :a FROM Sample.Person) IF SQLCODEd ##class(PHA.TEST.SQL).EmbedSQL2() 调用嵌入式SQL 名字是 Adams,Diane F. ``` 使用指定一个或多个主机变量的`INTO`子句返回结果。在这种情况下,主机变量名为:`a`。 **`&sql`指令不区分大小写;可以使用`&sql`,`&SQL`,`&Sql`等。 `&sql`指令必须后跟一个开放的括号,并且中间没有空格,换行符或注释。** `&sql`指令可以与标签在同一行上使用,如以下示例所示: ```java /// d ##class(PHA.TEST.SQL).EmbedSQL3() ClassMethod EmbedSQL3() { Mylabel &sql( SELECT Name INTO :a FROM Sample.Person ) } ``` **`&sql`指令的主体应包含一个有效的Embedded SQL语句,并用括号括起来。可以按照自己喜欢的任何方式设置SQL语句的格式:SQL会忽略空格和换行符。 Studio可以识别`&sql`指令,并使用可识别SQL的着色器对SQL代码语句进行语法着色。** **当宏预处理器遇到`&sql`指令时,它将随附的SQL语句交给SQL查询处理器。查询处理器返回执行查询所需的代码(ObjectScript INT格式)。然后,宏预处理器用此代码(或对包含该代码的标签的调用)替换`&sql`指令。在Studio中,可以根据需要查看生成的代码,方法是查看为类或例程生成的INT代码(使用“查看”菜单中的“查看其他代码”选项)。** 如果`&sql`指令包含无效的Embedded SQL语句,则宏预处理器会生成编译错误。无效的SQL语句可能具有语法错误,或者引用了在编译时不存在的表或列。 `&sql`指令可以在括号内的任何位置包含SQL样式的注释,可以不包含SQL代码,或仅包含注释文本。如果`&sql`指令不包含SQL代码或仅包含注释文本,则将该指令解析为无操作,并且未定义`SQLCODE变量`。 ```java NEW SQLCODE WRITE !,"Entering Embedded SQL" &sql() WRITE !,"Leaving Embedded SQL" ``` ```java NEW SQLCODE WRITE !,"Entering Embedded SQL" &sql(/* SELECT Name INTO :a FROM Sample.Person */) WRITE !,"Leaving Embedded SQL" ``` ## &sql替代语法 由于复杂的嵌入式SQL程序可能包含多个`&sql`指令(包括嵌套的`&sql`指令),因此提供了以下替代语法格式: - `## sql(...)`:此指令在功能上等同于`&sql`。它提供了另一种语法来使代码清晰。但是,它不能包含标记语法。 - `&sql (...)`:此伪指令允许指定多个`&sql`伪指令,并使用用户选择的标记字符或字符串标识每个伪伪指令。下一节将介绍此标记语法。 ## &sql标记语法 可以使用用户定义的标记语法来标识特定的`&sql`指令。该语法由在`“&sql”`和右括号之间指定的字符或字符串组成。在嵌入式SQL的结尾处,在右括号后必须立即显示此标记的相反内容。语法如下: ```java &sql( SQL statement ) ``` 请注意,在`&sql`,标记和右括号之间不允许有空格(空格,制表符或行返回),并且在右括号和反向标记之间不允许有空格。 **标记可以是单个字符或一系列字符。标记不能包含以下标点符号:** ```java ( + - / \ | * ) ``` 标记不能包含空格字符(空格,制表符或换行符)。它可能包含所有其他可打印字符和字符组合,包括Unicode字符。标记和反向标记区分大小写。 **相应的反向标记必须包含与反向标记相同的字符。例如:`&sqlABC(...)CBA`。** 如果标记包含[或{字符,则反向标记必须包含相应的]或}字符。以下是有效的`&sql`标记和反向标记对的示例: ```java &sql@@( ... )@@ &sql[( ... )] &sqltest( ... )tset &sql[Aa{( ... )}aA] ``` 选择标记字符或字符串时,请注意以下重要的SQL限制:SQL代码不能在代码中的任何位置(包括文字字符串和注释)包含字符序列`“)”`。例如,如果标记“ABC,则字符串`“)CBA”`不能出现在嵌入式SQL代码中的任何位置。如果发生这种情况,有效标记和有效SQL代码的组合将使编译失败。因此,在选择标记字符或字符串时要格外小心,以防止发生这种冲突,这一点很重要。 ## 嵌入式SQL和行偏移量 嵌入式SQL的存在会影响ObjectScript行偏移量,如下所示: - 嵌入式SQL在例程中的该点处将INT代码行的总数加(至少)2。因此,嵌入式SQL的单行计为3行,嵌入式SQL的两行计为4行,依此类推。调用其他代码的嵌入式SQL可以向INT代码添加更多行。 一个虚拟的嵌入式SQL语句,仅包含一个注释,算作2条INT代码行,如以下示例所示:`&sql(/ *供将来使用* /)`。 - 嵌入式SQL中的所有行都计为行偏移,包括注释和空白行。 可以使用`^ROUTINE`全局显示INT代码行。
文章
Jingwei Wang · 一月 19, 2023

介绍使用嵌入式 Python 进行 Web 抓取

什么是网页抓取: 简单来说,网络抓取、网络收获或网络数据提取是从网站收集大数据(非结构化)的自动化过程。用户可以根据需要提取特定站点上的所有数据或特定数据。收集的数据可以以结构化格式存储以供进一步分析。 网页抓取涉及的步骤: 找到您要抓取的网页的 URL 通过检查选择特定元素 编写代码获取被选元素的内容 以需要的格式存储数据 就这么简单! 用于网络抓取的流行库/工具是: Selenium – 用于测试 Web 应用程序的框架 BeautifulSoup – 用于从 HTML、XML 和其他标记语言中获取数据的 Python 库 Pandas – 用于数据操作和分析的 Python 库 什么是Beautiful Soup? Beautiful Soup 是一个纯 Python 库,用于从网站中提取结构化数据。它允许您解析来自 HTML 和 XML 文件的数据。它充当辅助模块,并以与使用其他可用开发人员工具以网页交互的方式与 HTML 交互。 它通常可以为程序员节省数小时或数天的工作时间,因为它可以与您最喜欢的解析器(如 lxml 和 html5lib)一起使用,以提供 Python organic方式来导航、搜索、并修改解析树。 beautiful soup 的另一个强大而有用的功能是它可以智能地将正在获取的文档转换为 Unicode 并将传出文档转换为 UTF-8。作为一名开发人员,您不必关心这一点,除非文档内在未指定编码或 Beautiful Soup 无法检测到编码。 与其他一般解析或抓取技术相比,它也被认为更快。 在今天的文章中,我们将使用带有对象脚本的嵌入式 Python 来抓取 ae.indeed.com 上的 Python 职位空缺和公司 第 1 步 -找到您要抓取的网页的 URL。 url = https://ae.indeed.com/jobs?q=python&l=Dubai&start=0 我们要从中抓取数据的网页看起来像这样 为了简单和学习目的,我们将提取“职位”和“公司”,输出将类似于下面的屏幕截图。 我们将使用两个 python 库。 requests :Requests 是 Python 编程语言的 HTTP 库。该项目的目标是使 HTTP 请求更简单、更人性化。 bs4 for BeautifulSoup :BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 包。它为已解析的页面创建一个解析树,可用于从 HTML 中提取数据,这对于网络抓取很有用。 让我们安装这个 python 包 (windows) irispip install --target C:\InterSystems\IRISHealth\mgr\python bs4 irispip install --target C:\InterSystems\IRISHealth\mgr\python requests 让我们将 python 库导入到 ObjectScript Class PythonTesting.WebScraper Extends %Persistent { // pUrl = https://ae.indeed.com/jobs?q=python&l=Dubai&start= // pPage = 0 ClassMethod ScrapeWebPage(pUrl, pPage) { // imports the requests python library set requests = ##class ( %SYS.Python ).Import( "requests" ) // import the bs4 python library set soup = ##class ( %SYS.Python ).Import( "bs4" ) // import builtins package which contains all of the built-in identifiers set builtins = ##class ( %SYS.Python ).Import( "builtins" ) } 让我们使用请求收集 html 数据;注意:我们从谷歌搜索“my user agent”中获取的用户代理url为“https://ae.indeed.com/jobs?q=python&l=Dubai&start=”,pPage为页码 我们将使用 requests 对 URL 执行 http get 请求并将响应存储在“req” set headers = { "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" } set url = "https://ae.indeed.com/jobs?q=python&l=Dubai&start=" _pPage set req = requests.get(url, "headers=" _headers) req 对象将具有从网页返回的 html。 让我们通过 BeautifulSoup html 解析器运行它,以便我们可以提取作业数据。 set soupData = soup.BeautifulSoup(req.content, "html.parser" ) set title = soupData.title.text W !,title 标题看起来如下 第二步:通过检查选择需要的元素。 在这种情况下,我们对通常位于 <div> 标记中的作业列表感兴趣,在您的浏览器中,您可以检查该元素以找到 div 类。在我们的例子中,所需的信息存储在 <div class="cardOutline tapItem ... </div> 第三步:编写获取选中元素内容的代码 我们将使用 BeautifulSoup 上的 find_all 功能来查找所有包含类名“cardOutline”的 <div> 标签 //parameters to python would be sent as a python dictionary set divClass = { "class" : "cardOutline" } set divsArr = soupData. "find_all" ( "div" ,divClass...) 这将返回一个列表,我们可以遍历该列表并提取职位和公司 第 4 步:以所需格式存储/显示数据。 在下面的示例中,我们将数据写入终端。 set len = builtins.len(divsArr) W !, "Job Title" , $C ( 9 )_ " --- " _ $C ( 9 ), "Company" for i = 1 : 1 :len { Set item = divsArr. "__getitem__" (i - 1 ) set title = $ZSTRIP (item.find( "a" ).text, "<>W" ) set companyClass = { "class_" : "companyName" } set company = $ZSTRIP (item.find( "span" , companyClass...).text, "<>W" ) W !,title, $C ( 9 ), " --- " , $C ( 9 ),company } 请注意,我们正在使用 builtins.len() 来获取 divsArr 列表的长度 标识符名称:命名标识符的规则在 ObjectScript 和 Python 之间是不同的。例如,Python 方法名中允许使用下划线 (_),实际上广泛用于所谓的“dunder”方法和属性(“dunder”是“双下划线”的缩写),例如 __getitem__ 或 __class__ .要从 ObjectScript 使用此类标识符,请将它们括在双引号中:关于标识符名称的系统间文档 类方法示例 类方法 ScrapeWebPage(pUrl, pPage) // pUrl = https://ae.indeed.com/jobs?q=python&l=Dubai&start= // pPage = 0 ClassMethod ScrapeWebPage(pUrl, pPage) { set requests = ##class ( %SYS.Python ).Import( "requests" ) set soup = ##class ( %SYS.Python ).Import( "bs4" ) set builtins = ##class ( %SYS.Python ).Builtins() set headers = { "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" } set url = pUrl_pPage set req = requests.get(url, "headers=" _headers) set soupData = soup.BeautifulSoup(req.content, "html.parser" ) set title = soupData.title.text W !,title set divClass = { "class_" : "cardOutline" } set divsArr = soupData. "find_all" ( "div" ,divClass...) set len = builtins.len(divsArr) W !, "Job Title" , $C ( 9 )_ " --- " _ $C ( 9 ), "Company" for i = 1 : 1 :len { Set item = divsArr. "__getitem__" (i - 1 ) set title = $ZSTRIP (item.find( "a" ).text, "<>W" ) set companyClass = { "class_" : "companyName" } set company = $ZSTRIP (item.find( "span" , companyClass...).text, "<>W" ) W !,title, $C ( 9 ), " --- " , $C ( 9 ),company } } 下一步.. 使用对象脚本和嵌入式 python 以及几行代码;我们可以很容易地从我们最喜欢的工作网站上抓取数据,收集工作名称、公司、薪水、工作描述和电子邮件/链接。例如,如果您有多个页面,您可以使用页面轻松遍历它们可以将此数据添加到 pandas 数据框并删除重复项,可以根据您感兴趣的特定关键字应用过滤器。通过 numpy 运行此数据,并获得一些线图或者对数据执行 One-Hot 编码,并创建/训练您的 ML 模型,如果有您感兴趣的特定职位空缺,请向自己发送通知。 😉快乐编码! 别忘了按赞按钮😃
文章
Michael Lei · 九月 18, 2023

开发者作品展示--几乎实现的向量支持

如今,关于大语言模型、人工智能等的消息不绝于耳。向量数据库是其中的一部分,并且已经有非IRIS的技术实现了向量数据库。 为什么是向量? 相似性搜索:向量可以进行高效的相似性搜索,例如在数据集中查找最相似的项目或文档。传统的关系数据库是为精确匹配搜索而设计的,不适合图像或文本相似性搜索等任务。 灵活性:向量表示形式用途广泛,可以从各种数据类型派生,例如文本(通过 Word2Vec、BERT 等嵌入)、图像(通过深度学习模型)等。 跨模态搜索:向量可以跨不同数据模态进行搜索。例如,给定图像的向量表示,人们可以在多模式数据库中搜索相似的图像或相关文本。 还有许多其他原因。 因此,对于这次 pyhon 竞赛,我决定尝试实现这种支持。不幸的是我没能及时完成它,下面我将解释原因。 有几件重要的事情必须完成,才能使其充实 使用 SQL 接受并存储向量化数据,简单的示例(本例中的 3 是维度数量,每个字段都是固定的,并且该字段中的所有向量都必须具有精确的维度) create table items(embedding vector( 3 )); insert into items (embedding) values ( '[1,2,3]' ); insert into items (embedding) values ( '[4,5,6]' ); 相似度函数,相似度有不同的算法,适合对少量数据进行简单搜索,不使用索引 -- Euclidean distance select embedding, vector.l2_distance(embedding, '[9,8,7]' ) distance from items order by distance; -- Cosine similarity select embedding, vector.cosine_distance(embedding, '[9,8,7]' ) distance from items order by distance; -- Inner product select embedding, -vector.inner_product(embedding, '[9,8,7]' ) distance from items order by distance; 自定义索引,有助于更快地搜索大量数据,索引可以使用不同的算法,并使用与上面不同的距离函数,以及其他一些选项 新南威尔士州 倒排文件索引 搜索将使用创建的索引,其算法将找到所请求的信息。 插入向量 该向量应该是一个数值数组,可以是整数或浮点数,也可以是有符号的或无符号的。在IRIS中我们可以将其存储为$listbuild,它具有良好的表示性,已经支持,只需要实现从ODBC到逻辑的转换。 然后,可以使用外部驱动程序(例如 ODBC/JDBC)或使用 ObjectScript 从 IRIS 内部以纯文本形式插入值 普通 SQL insert into items (embedding) values ( '[1,2,3]' ); 来自ObjectScript set rs = ##class ( %SQL.Statement ). %ExecDirect (, "insert into test.items (embedding) values ('[1,2,3]')" ) set rs = ##class ( %SQL.Statement ). %ExecDirect (, "insert into test.items (embedding) values (?)" , $listbuild ( 2 , 3 , 4 )) 或者嵌入式 SQL &sql( insert into test.items (embedding ) values ('[ 1 , 2 , 3 ]')) set val = $listbuild ( 2 , 3 , 4 ) &sql( insert into test.items (embedding ) values (:val)) 它将始终存储为 $lb(),并在 ODBC 中以文本格式返回 意外行为 在使用 DBeaver 进行测试期间,我发现连接后的第一行插入正确,但所有其他行均按原样插入,没有任何验证或转换。 然后我发现,JDBC默认使用快速插入,在这种情况下,它将插入的数据直接存储到全局变量中,所以我必须手动将其关闭 在 DBeaver 中,在 FeatureOption 字段中选择 optfastSelect 计算 我们需要向量来支持两个向量之间距离的计算 为了这次比赛,我需要使用嵌入式Python,这就带来了一个问题,如何在嵌入式Python中操作$lb。 %SYS.Class中有一个方法ToList,但Python包IRIS没有内置该方法,需要通过ObjectScript方式调用它 ClassMethod l2DistancePy(v1 As dc.vector.type, v2 As dc.vector.type) As %Decimal (SCALE= 10 ) [ Language = python, SqlName = l2_distance_py, SqlProc ] { import iris import math vector_type = iris.cls('dc.vector.type') v1 = iris.cls(' %SYS.Python ').ToList(vector_type.Normalize(v1)) v2 = iris.cls(' %SYS.Python ').ToList(vector_type.Normalize(v2)) return math.sqrt(sum([(val1 - val2) ** 2 for val1, val2 in zip(v1, v2)])) } 它看起来一点也不正确。我希望 $lb 可以在 python 中即时解释为列表,或者在列表内置函数 to_list 和 from_list 中解释 另一个问题是当我尝试使用不同的方式测试此功能时。使用嵌入式Python中的SQL,使用嵌入式Python编写的SQL函数,它会崩溃。因此,我还必须添加 ObjectScript 的功能。 ModuleNotFoundError: No module named 'dc' SQL Function VECTOR.NORM_PY failed with error: SQLCODE=-400,%msg=ERROR #5002: ObjectScript error: <OBJECT DISPATCH>%0AmBm3l0tudf^%sqlcq.USER.cls37.1 *python object not found 目前在 Python 和 ObjectScript 中实现了计算距离的函数 欧氏距离 [SQL]_system@localhost:USER> select embedding, vector.l2_distance_py(embedding, '[9,8,7]' ) distance from items order by distance; + -----------+----------------------+ | embedding | distance | + -----------+----------------------+ | [4,5,6] | 5.91607978309961613 | | [1,2,3] | 10.77032961426900748 | + -----------+----------------------+ 2 rows in set Time : 0.011 s [ SQL ]_system@localhost: USER > select embedding, vector.l2_distance(embedding, '[9,8,7]' ) distance from items order by distance; + -----------+----------------------+ | embedding | distance | + -----------+----------------------+ | [4,5,6] | 5.916079783099616045 | | [1,2,3] | 10.77032961426900807 | + -----------+----------------------+ 2 rows in set Time : 0.012 s 余弦相似度 [SQL]_system@localhost:USER> select embedding, vector.cosine_distance(embedding, '[9,8,7]' ) distance from items order by distance; + -----------+---------------------+ | embedding | distance | + -----------+---------------------+ | [4,5,6] | .034536677566264152 | | [1,2,3] | .11734101007866331 | + -----------+---------------------+ 2 rows in set Time : 0.034 s [ SQL ]_system@localhost: USER > select embedding, vector.cosine_distance_py(embedding, '[9,8,7]' ) distance from items order by distance; + -----------+-----------------------+ | embedding | distance | + -----------+-----------------------+ | [4,5,6] | .03453667756626421781 | | [1,2,3] | .1173410100786632659 | + -----------+-----------------------+ 2 rows in set Time : 0.025 s 内积 [SQL]_system@localhost:USER> select embedding, vector.inner_product_py(embedding, '[9,8,7]' ) distance from items order by distance; + -----------+----------+ | embedding | distance | + -----------+----------+ | [1,2,3] | 46 | | [4,5,6] | 118 | + -----------+----------+ 2 rows in set Time : 0.035 s [ SQL ]_system@localhost: USER > select embedding, vector.inner_product(embedding, '[9,8,7]' ) distance from items order by distance; + -----------+----------+ | embedding | distance | + -----------+----------+ | [1,2,3] | 46 | | [4,5,6] | 118 | + -----------+----------+ 2 rows in set Time : 0.032 s 另外还实现了数学函数:add、sub、div、mul。 InterSystems 支持创建自己的聚合函数。因此,可以对所有向量求和或求平均值。但不幸的是,InterSystems 不支持使用相同的名称,需要使用自己的名称(和模式)来执行函数。但它不支持聚合函数的非数值结果 简单的 vector_add 函数,返回两个矢量的和 当用作聚合时,它显示 0,而预期矢量也是 建立索引 不幸的是,由于我在实现过程中遇到了一些障碍,我没能完成这一部分。 缺乏内置的 $lb 到 python 列表转换以及当 IRIS 中的矢量存储在 $lb 中时返回,并且所有具有构建索引的逻辑预计都在 Python 中,从 $lb 获取数据并将其设置回全局变量也很重要 缺乏对Global的支持 IRIS 中的 $Order,支持方向,因此可以反向使用,而Python内嵌的 order 实现没有它,因此需要读取所有键并反转它们或将末尾存储在某处 由于对上面提到的从 Python 调用的 Python 的 SQL 函数的不好的体验而产生疑问 在构建索引期间,预计会在图形中存储矢量之间的距离,但在global里保存浮点数时遇到了bug 我在工作中发现了11 个嵌入式 Python 问题,所以大部分时间都是在寻找解决方法来解决问题。在名为iris-dollar-list的 @Guillaume.Rongier7183 项目的帮助下,我成功解决了一些问题。 安装 无论如何,它仍然可用,并且可以与 IPM 一起安装,即使功能有限也可以使用 zpm "install vector" 或者在开发模式下使用 docker-compose git clone https://github.com/caretdev/iris-vector.git cd iris-vector docker-compose up -d
文章
姚 鑫 · 三月 7, 2021

第五章 SQL定义表(二)

# 第五章 SQL定义表(二) # 主键 InterSystems IRIS提供了两种方法来唯一标识表中的行:`RowID`和主键。 可选的主键是一个有意义的值,应用程序可以使用该值唯一地标识表中的行(例如,联接中的行)。主键可以是用户指定的数据字段,也可以是多个数据字段的组合。主键值必须是唯一的,但不必是整数值。 `RowID`是一个内部用于标识表中行的整数值。通常,主键是由应用程序生成的值,而`RowID`是由InterSystems IRIS生成的唯一整数值。 系统会自动创建一个主map,以使用`RowID`字段访问数据行。如果定义主键字段,系统将自动创建并维护主键索引。 显然,具有两个不同的字段和索引来标识行的双重性不一定是一件好事。可以通过以下两种方式之一解析为单个行标识符和索引: - 使用应用程序生成的主键值作为`IDKEY`。 可以通过使用关键字`PrimaryKey`和`IdKey`在类定义中标识主键索引来实现这一点(如果为此目的设置了`PKey is IdKey`标志,也可以在DDL中实现这一点)。 这使得主键索引成为表的主映射。 因此,主键将被用作行的主要内部地址。 如果主键包含多个字段,或者主键值不是整数,那么这种方法的效率会较低。 - 不要使用应用程序生成的主键值,而应在应用程序中使用系统生成的`RowID`整数作为应用程序使用的主键(例如,在`joins`中)。这样做的好处是,整数`RowID`有助于进行更有效的处理,包括使用位图索引。 根据应用程序的性质,可能希望解析为单个行标识符和索引,或者为应用程序生成的主键和系统生成的`RowID`具有单独的索引。 # RowVersion,AutoIncrement和串行计数器字段 InterSystems SQL支持三种专用数据类型,用于自动增加计数器值。这三种数据类型都是扩展`%Library.BigInt`数据类型类的子类。 - `%Library.RowVersion`:计算在命名空间范围内所有`RowVersion`表的插入和更新。只有在包含`ROWVERSION`字段的表中进行插入和更新时,此计数器才会递增。 `ROWVERSION`值是唯一的且不可修改。此名称空间范围的计数器永远不会重置。 - `%Library.Counter`(也称为SERIAL计数器字段):对表中的插入进行计数。默认情况下,此字段接收一个自动递增的整数。但是,用户可以为此字段指定一个非零的整数值。用户可以指定重复值。如果用户提供的值大于系统提供的最高值,则将自动递增计数器设置为从用户指定的值开始递增。 - `%Library.AutoIncrement`:计数插入到表中的次数。默认情况下,此字段接收一个自动递增的整数。但是,用户可以为此字段指定一个非零的整数值。用户可以指定重复值。指定用户值对自动增量计数器无效。 这三个字段以及`IDENTITY`字段均返回`AUTO_INCREMENT = YES`,如以下示例所示: ```java SELECT COLUMN_NAME,AUTO_INCREMENT FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = 'MyTable' ``` ## RowVersion Field `RowVersion`字段是一个可选的用户定义字段,它提供行级版本控制,使可以确定对每个命名空间范围内的行中的数据进行更改的顺序。 InterSystems IRIS维护一个整个命名空间范围的计数器,并在每次修改行数据(插入,更新或`%Save`)时向该字段分配一个唯一的增量正整数。因为此计数器是整个名称空间范围的,所以对具有`ROWVERSION`字段的一个表进行的操作将设置`ROWVERSION`计数器的增量点,该值将用于同一名称空间中具有`ROWVERSION`字段的所有其他表。 通过指定数据类型为`ROWVERSION(%Library.RowVersion)`的字段来创建`RowVersion`字段。每个表只能指定一个`ROWVERSION`数据类型字段。尝试创建具有多个`ROWVERSION`字段的表会导致5320编译错误。 该字段可以具有任何名称,并且可以出现在任何列位置。 `ROWVERSION(%Library.RowVersion)`数据类型映射到`BIGINT(%Library.BigInt)`。 此字段从自动递增计数器接收一个从1开始的正整数。只要通过插入,更新或`%Save`操作修改了任何启用`ROWVERSION`的表中的数据,此计数器就会递增。递增的值记录在已插入或更新的行的`ROWVERSION`字段中。 名称空间可以包含具有`RowVersion`字段的表和不具有该字段的表。仅对具有`RowVersion`字段的表的数据更改会增加整个命名空间范围的计数器。 当用数据填充表时,InterSystems IRIS会为每个插入的行将此字段分配连续的整数。如果使用`ALTER TABLE`将`ROWVERSION`字段添加到已经包含数据的表中,则该字段将被创建为`NULL`以用于预先存在的字段。对该表的任何后续插入或更新都会为该行的`RowVersion`字段分配一个顺序整数。该字段是只读的;尝试修改`RowVersion`值会生成`SQLCODE -138`错误:无法为只读字段插入/更新值。因此,`RowVersion`字段被定义为唯一且不可修改,但不是必需字段或非`null`。 `RowVersion`值始终递增。它们不被重用。因此,插入和更新按时间顺序分配唯一的`RowVersion`值。删除操作从该序列中删除数字。因此,`RowVersion`值可能在数字上不连续。 此计数器永远不会重置。删除所有表数据不会重置`RowVersion`计数器。即使删除名称空间中包含`ROWVERSION`字段的所有表,也不会重置此计数器。 `RowVersion`字段不应包含在唯一键或主键中。 `RowVersion`字段不能是`IDKey`索引的一部分。 分片表不能包含`RowVersion`字段。 `RowVersion`字段未隐藏(通过`SELECT *`显示)。 在同一名称空间中的三个表的以下示例中显示了这一点。 1. 创建`表1`和`表3`,每个都有一个`ROWVERSION`字段,并创建表2没有一个`ROWVERSION`字段。 2. 在`Table1`中插入十行。这些行的`ROWVERSION`值是接下来的十个计数器增量。由于以前未使用过计数器,因此它们是1到10。 3. 在`Table2`中插入十行。由于`Table2`没有`ROWVERSION`字段,因此计数器不会增加。 4. 更新`表1`的行。该行的`ROWVERSION`值将更改为下一个计数器增量(在这种情况下为11)。 5. 在`Table3`中插入十行。这些行的`ROWVERSION`值是接下来的十个计数器增量(12到21)。 6. 更新`表1`的行。该行的`ROWVERSION`值更改为下一个计数器增量(在这种情况下为22)。 7. 删除`表1`的行。 `ROWVERSION`计数器不变。 8. 更新`Table3`的一行。该行的`ROWVERSION`值将更改为下一个计数器增量(在这种情况下为23)。 ## Serial Counter Field 可以使用`SERIAL`数据类型(在持久性类表定义中为`%Library.Counter`)来指定一个或多个可选的整数计数器字段,以记录在表中插入记录的顺序。每个串行计数器字段都维护自己的独立计数器。 每当将一行插入表中时,串行计数器字段都会从其自动增量计数器接收一个正整数,该行没有提供任何值(`NULL`)或值为0。但是,用户可以指定非零整数值插入期间针对此字段的值,将覆盖表计数器的默认值。 - 如果`INSERT`没有为计数器字段指定非零整数值,则计数器字段将自动接收正整数计数器值。计数从1开始。每个连续值都是从为此字段分配的最高计数器值开始的1增量。 - 如果`INSERT`为`counter`字段指定了一个非零的整数值,则该字段将接收该值。它可以是正整数或负整数,可以低于或高于当前计数器值,并且可以是已经分配给该字段的整数。如果该值大于任何分配的计数器值,它将自动增量计数器的增量起始点设置为该值。 尝试更新计数器字段值会导致`SQLCODE -105`错误。 `TRUNCATE TABLE`命令将该计数器重置为1。即使使用`DELETE`命令删除表中的所有行,也不会通过DELETE命令将其重置。 分片表不能包含串行计数器字段。 ## AutoIncrement Field 可以使用`%Library.AutoIncrement`数据类型(或`BIGINT AUTO_INCREMENT`)来指定一个整数计数器字段,以记录在表中插入记录的顺序。每个表只能指定一个`%AutoIncrement`数据类型字段。每当将一行插入表中时,此字段都会从自动增量计数器接收一个正整数,该行没有提供任何值(`NULL`)或值为0。但是,用户可以为此指定非零整数值插入过程中的字段,将覆盖表计数器的默认值。 - 如果`INSERT`没有为计数器字段指定非零整数值,则计数器字段将自动接收正整数计数器值。计数从1开始。每个连续值都是从为此字段分配的最高计数器值开始的1增量。 - 如果`INSERT`为`counter`字段指定了一个非零的整数值,则该字段将接收该值。它可以是正整数或负整数,可以低于或高于当前计数器值,并且可以是已经分配给该字段的整数。用户分配的值对自动增量计数器无效。 尝试更新计数器字段值会导致`SQLCODE -105`错误。 `TRUNCATE TABLE`命令将该计数器重置为1。即使使用`DELETE`命令删除表中的所有行,也不会通过`DELETE`命令将其重置。 分片表可以包含一个`AutoIncrement`字段。 # 通过创建持久性类来定义表 在InterSystems IRIS中定义表的主要方法是使用Studio创建持久性类定义。当这些类在InterSystems IRIS数据库中保存并编译时,它们会自动投影到与类定义相对应的关系表中:每个类代表一个表;每个类代表一个表。每个属性代表一列,依此类推。可为一个类(表)定义的属性(列)的**最大数量为1000**。 例如,以下定义了持久类`MyApp.Person`: ```java Class MyApp.Person Extends %Persistent { Property Name As %String(MAXLEN=50) [Required]; Property SSN As %String(MAXLEN=15) [InitialExpression = "Unknown"]; Property DateOfBirth As %Date; Property Sex As %String(MAXLEN=1); } ``` 编译后,这将在MyApp模式中创建`MyApp.Person`持久类和相应的SQL表`Person`。 在此示例中,指定了程序包名称`MyApp`。定义持久类时,未指定的程序包名称默认为`User`。这对应于默认的SQL模式名称`SQLUser`。例如,将名为`“Students”`的表定义为持久类将创建类`User.Students`,以及相应的`SQL schema.table`名称`SQLUser.Students`。 在此示例中,持久类名称`Person`是默认的SQL表名称。可以使用`SqlTableName`类关键字来提供其他SQL表名称。 可以使用`DDL CREATE TABLE`语句(指定`SQL schema.table`名称)定义相同的`MyApp.Person`表。成功执行此SQL语句会生成一个相应的持久性类,其包名称为MyApp,类名称为Person: ```java CREATE TABLE MyApp.Person ( Name VARCHAR(50) NOT NULL, SSN VARCHAR(15) DEFAULT 'Unknown', DateOfBirth DATE, Sex VARCHAR(1) ) ``` `CREATE TABLE`在相应的类定义中未指定显式的`StorageStrategy`。相反,它将采用已定义的默认存储策略。 默认情况下,`CREATE TABLE`在相应的类定义中指定`Final class`关键字,指示它不能具有子类。 请注意,诸如上图所示的持久性类定义在编译时会创建相应的表,但是无法使用SQL DDL命令(或通过使用Management Portal Drop操作)来修改或删除此表定义,这会向显示消息“未为类'schema.name'启用DDL ...”)。必须在表类定义中指定[DdlAllowed]才能进行以下操作: ```java Class MyApp.Person Extends %Persistent [DdlAllowed] ``` 可以在类定义中指定`%Populate`以启用使用测试数据自动填充表。 ```java Class MyApp.Person Extends (%Persistent,%Populate) [DdlAllowed] ``` 这为该类提供了`Populate()`方法。运行此方法将在表中填充十行测试数据。 ## 定义数据值参数 每个属性(字段)定义都必须指定一个数据类型类,该类指定该属性所基于的类。指定的数据类型将字段的允许数据值限制为该数据类型。定义投影到表的持久类时,必须使用`%Library`包中的类指定此数据类型。可以将此类指定为`%Library.Datatype`或`%Datatype`。 许多数据类型类提供的参数使可以进一步定义允许的数据值。这些参数特定于单个数据类型。以下是一些较常见的数据定义参数: - 数据值物理限制 - 允许的数据值:枚举或模式匹配 - 通过定义唯一索引来唯一数据值 - 通过定义`SqlComputeCode`计算数据值 ### 数据值限制 **对于数字数据类型,可以指定`MAXVAL`和`MINVAL`参数以限制允许值的范围。根据定义,数字数据类型具有最大支持值(正数和负数)。可以使用`MAXVAL`和`MINVAL`进一步限制允许的范围。** 对于字符串数据类型,可以指定`MAXLEN`和`MINLEN`参数以限制允许的长度(以字符为单位)。根据定义,字符串数据类型具有最大支持的长度。可以使用`MAXLEN`和`MINLEN`进一步限制允许的范围。默认情况下,超过`MAXLEN`的数据值会生成字段验证错误:`INSERT`的`SQLCODE -104`或`UPDATE`的`SQLCODE -105`。可以指定`TRUNCATE = 1`以允许超过`MAXLEN`的字符串数据值。指定的字符串将被截断为`MAXLEN`长度。 ### 允许的数据值 可以通过两种方式限制实际数据值: - **允许值的列表(带有`VALUELIST`和`DISPLAYLIST`的枚举值)。** - **允许值的匹配模式(`PATTERN`)。** #### 枚举值 通过将表定义为持久类,可以定义仅包含某些指定值的属性(字段)。这是通过指定`VALUELIST`参数来完成的。 `VALUELIST`(指定逻辑存储值的列表)通常与`DISPLAYLIST`(指定相应的显示值的列表)一起使用。这两个列表都以列表定界符开头。几种数据类型可以指定`VALUELIST`和`DISPLAYLIST`。下面的示例定义两个带有枚举值的属性: ```java Class Sample.Students Extends %Persistent { Property Name As %String(MAXLEN=50) [Required]; Property DateOfBirth As %Date; Property ChoiceStr As %String(VALUELIST=",0,1,2",DISPLAYLIST=",NO,YES,MAYBE"); Property ChoiceODBCStr As %EnumString(VALUELIST=",0,1,2",DISPLAYLIST=",NO,YES,MAYBE"); } ``` 如果指定了`VALUELIST`,则`INSERT`或`UPDATE`只能指定`VALUELIST`中列出的值之一,或者不提供值(`NULL`)。 `VALUELIST`有效值区分大小写。指定与`VALUELIST`值不匹配的数据值会导致字段值验证失败:`INSERT`的`SQLCODE -104`或`UPDATE`的`SQLCODE -105`。 在ODBC模式下显示时,`%String`和`%EnumString`数据类型的行为不同。使用上面的示例,当以逻辑模式显示时,`ChoiceStr`和`ChoiceODBCStr`都显示其`VALUELIST`值。在“显示”模式下显示时,`ChoiceStr`和`ChoiceODBCStr`均显示其DISPLAYLIST值。当以ODBC模式显示时,`ChoiceStr`显示`VALUELIST`值;否则显示`VALUELIST`值。 `ChoiceODBCStr`显示`DISPLAYLIST`值。 #### 值的模式匹配 几种数据类型可以指定`PATTERN`参数。 `PATTERN`将允许的数据值限制为与指定的ObjectScript模式匹配的数据值,指定为带引号的字符串,省略前导问号。以下示例使用模式定义属性: ```java Class Sample.Students Extends %Persistent { Property Name As %String(MAXLEN=50) [Required]; Property DateOfBirth As %Date; Property Telephone As %String(PATTERN = "3N1""-""3N1""-""4N"); } ``` 由于将模式指定为带引号的字符串,因此模式中指定的文字必须将其双引号引起来。请注意,模式匹配是在`MAXLEN`和`TRUNCATE`之前应用的。因此,如果为可能超过`MAXLEN`并被截断的字符串指定了一个模式,则可能希望以“ `.E`”(任何类型的尾随字符数不限)结束该模式。 与`PATTERN`不匹配的数据值会生成字段验证错误:`INSERT`的`SQLCODE -104`或`UPDATE`的`SQLCODE -105`。 ### 唯一值 `CREATE TABLE`允许将字段定义为`UNIQUE`。这意味着每个字段值都是唯一(非重复)值。 将表定义为持久类不支持相应的`uniqueness`属性关键字。相反,必须同时定义属性和该属性的唯一索引。下面的示例为每个记录提供唯一的Num值: ```java Class Sample.CaveDwellers Extends %Persistent [ DdlAllowed ] { Property Num As %Integer; Property Troglodyte As %String(MAXLEN=50); Index UniqueNumIdx On Num [ Type=index,Unique ]; } ``` 索引名称遵循属性的命名约定。可选的`Type`关键字指定索引类型。 `Unique`关键字将属性(字段)定义为唯一。 使用`INSERT`或`UPDATE`语句时,必须具有唯一的值字段。 ### 计算值 下面的类定义示例定义一个表,该表包含一个字段(生日),该字段在最初设置`DateOfBirth`字段值时使用`SqlComputed`来计算其值,而在更新`DateOfBirth`字段值时使用`SqlComputeOnChange`来重新计算其值。 `Birthday`字段值包括当前时间戳,以记录该字段值的计算/重新计算时间: ```java Class Sample.MyStudents Extends %Persistent [DdlAllowed] { Property Name As %String(MAXLEN=50) [Required]; Property DateOfBirth As %Date; Property Birthday As %String [ SqlComputeCode = {SET {Birthday}=$PIECE($ZDATE({DateOfBirth},9),",")_ " changed: "_$ZTIMESTAMP}, SqlComputed, SqlComputeOnChange = DateOfBirth ]; } ```java 请注意,对`DateOfBirth`的`UPDATE`指定现有的`DateOfBirth`值不会重新计算`Birthday`字段值。 ## 嵌入式对象(%SerialObject) 可以通过引用定义属性的嵌入式串行对象类来简化持久表的结构。例如,希望`MyData.Person`包含地址信息,包括街道,城市,州和邮政编码。可以定义一个定义这些属性的串行对象(`%SerialObject`)类,而不是在`MyData.Person`中指定这些属性,然后在`MyData.Person`中指定一个引用该嵌入式对象的`Home`属性。在以下类定义中显示了这一点: ```java Class MyData.Person Extends (%Persistent) [ DdlAllowed ] { Property Name As %String(MAXLEN=50); Property Home As MyData.Address; Property Age As %Integer; } ``` ```java Class MyData.Address Extends (%SerialObject) { Property Street As %String; Property City As %String; Property State As %String; Property PostalCode As %String; } ``` 不能直接访问串行对象属性中的数据,必须通过引用它的持久类/表访问它们: - 要从持久性表中引用单个串行对象属性,请使用下划线。例如,`SELECT名称Home_State FROM MyData.Person`返回状态串行对象属性值作为字符串。串行对象属性值以查询中指定的顺序返回。 - 要引用持久性表中的所有串行对象属性,请指定引用字段。例如,`SELECT Home FROM MyData.Person`以`%List`结构形式返回所有`MyData.Address`属性的值。串行对象属性值以串行对象中指定的顺序返回:`Home_Street,Home_City,Home_State,Home_PostalCode。在Management Portal SQL`界面“目录详细信息”中,此引用字段称为“容器”字段。这是一个Hidden字段,因此`SELECT *`语法不返回。 - 持久类的`SELECT *`单独返回所有串行对象属性,包括嵌套的串行对象。例如,`SELECT * FROM MyData.Person`返回`Age,Name,Home_City,Home_PostalCode,Home_State和Home_Street`值(按此顺序);它不返回`Home%List`结构值。串行对象属性值以排序顺序返回。 `SELECT *`首先按排序顺序(通常按字母顺序)列出持久性类中的所有字段,然后按排序顺序列出嵌套的串行对象属性。 请注意,嵌入式串行对象不必与引用它的持久性表位于同一程序包中。 定义嵌入式对象可以简化持久性表定义: - 持久表可以包含多个属性,这些属性引用同一嵌入式对象中的不同记录。例如,`MyData.Person`表可以包含`Home`和`Office`属性,这两个属性均引用`MyData.Address`串行对象类。 - 多个持久表可以引用同一嵌入式对象的实例。例如,`MyData.Person`表的`Home`属性和`MyData.Employee WorkPlace`属性都可以引用`MyData.Address`串行对象类。 - 一个嵌入式对象可以引用另一个嵌入式对象。例如,`MyData.Address`嵌入式对象包含引用`MyData.Telephone`嵌入式对象的`Phone`属性,其中包含`CountryCode`,`AreaCode`和`PhoneNum`属性。在持久类中,使用多个下划线来引用嵌套的串行对象属性,例如`Home_Phone_AreaCode`。 编译串行对象类会在存储定义中生成数据规范。编译器通过在串行对象类名称后附加单词`“State”`来为该规范分配数据名称。因此,为`MyData.Address`分配了``。如果此名称(在此示例中为`AddressState`)已经用作属性名称,则编译器将附加一个整数以创建唯一的数据名称:``。 ## 类方法 可以将类方法指定为表定义的一部分,如以下示例所示: ```java Class MyApp.Person Extends %Persistent { Property Name As %String(MAXLEN=50) [Required]; Property SSN As %String(MAXLEN=15) [InitialExpression = "Unknown"]; Property DateOfBirth As %Date; Property Sex As %String(MAXLEN=1); ClassMethod Numbers() As %Integer [ SqlName = Numbers, SqlProc ] { QUIT 123 } } ``` 在SELECT查询中,可以按以下方式调用此方法: ```java SELECT Name,SSN,Sample.Numbers() FROM Sample.Person ``` ![image](/sites/default/files/inline/images/tu_pian__4.png) ## 通过创建持久性类来定义分片表 必须先建立分片环境,然后才能定义作为分片表投影的持久性类。 要将持久性类定义为分片,请指定类关键字`Sharded = 1`。 (类关键字`Sharded = 2`保留供生成的类内部使用。) **注意:请勿尝试设置或更改现有类定义的与分片相关的类属性。仅应为不包含数据的新表指定这些属性。这包括设置`Sharded`类关键字和与分片相关的索引关键字。尝试编辑现有类的任何与分片相关的属性都可能导致数据无法访问。** 下例显示了`Sharded = 1`持久类的类定义: ```java Class Sample.MyShardT Extends %Persistent [ ClassType = persistent, DdlAllowed, Final, Sharded = 1] { ... } ``` 如果将一个类定义为分片,则它必须是持久性的`ClassType`。如果未将分片类定义为`ClassType`持久类,则在类编译期间将返回错误,例如:`ERROR#5599:分片类'Sample.Address'必须为ClassType'persistent',而不是ClassType'serial'`。分片类使用的存储类必须为`%Storage.Persistent`或其子类`%Storage.Shard`。如果分片类的存储类不是`%Storage.Persistent`,则在类编译期间将返回以下错误:`错误#5598:分片类'Sample.Vendor'必须使用存储类型%Storage.Persistent,而不是存储类型' %Storage.SQL”`。 定义分片类时,应定义参数`DEFAULTCONCURRENCY = 0`。 然后,可以定义`ShardKey`索引。 创建分片表时,将自动生成抽象的分片键索引。分片键索引的目的是用作确定行所在的分片的键。 ### 分片类方法 分片类(`Sharded = 1`)支持`%Library.Persistent`方法`%Open(),%OpenId(),%Save(),%Delete()和%DeleteId()`具有以下限制:并发`concurrency参数`被忽略;删除将始终使用`并发concurrency= 0`,而不管用户提供的并发值如何。完全支持回调方法`%OnDelete(),%OnAfterDelete(),%OnOpen(),%OnBeforeSave()和%OnAfterSave()`。这些回调方法在分片主机上执行,而不是在分片服务器上执行。分片本地类(`Sharded = 2`)不支持这些方法。 分片类(`Sharded = 1`)不支持`%Library.Persistent`方法`%LockExtent()`和`%UnlockExtent()`。定义并发参数的对象方法中的所有并发参数都要求值`concurrency = 0`;否则,值为0。可以通过设置`DEFAULTCONCURRENCY = 0`来建立默认值 ### 分片类限制 - 分片类不支持的类参数:`CONNECTION`,`DEFAULTGLOBAL`,`DSINTERVAL`,`DSTIME`,`IDENTIFIEDBY`,`OBJJOURNAL`。 - 分片类不支持的类关键字:`language`,`ViewQuery`。 - 分片类不支持的超级类:`%Library.IndexBuilder`,`%DocDB.Document`。 - 分片类不支持的属性数据类型:`%Library.Text`。 - 分片类不支持关系属性。 - 分片类不支持投影。 - 分片类不支持功能索引(无法定义索引`TypeClass`)。 - 分片类不支持使用除`“对象”`以外的语言的任何方法。 - 分片类不支持任何非`%SQLQuery`类型的类查询。 尝试使用任何这些功能来编译分片类都会导致编译时错误。
文章
Claire Zheng · 八月 17, 2021

FHIR标准和国际基于FHIR的互联互通实践(3):常见的互操作范式

实现互通的方式方法有很多种,我们通常会见到4种:消息交换、文档交换、服务和 API。 消息交换是最常见的一种互操作的方式,在医疗用得非常多。消息交换是基于消息引擎的,通常它应用在低业务集成度和跨数据管理域的业务环境里面。通常消息是基于临床事件,描述临床事件发生的上下文,并且能够在临床事件发生的时候,通过消息引擎把它路由给消息的接收方。 消息交换的本质是一个中心化的互操作方式,中心化的方式也能够保证消息的先进先出。我们常见的消息标准有HL7 V2、 HL7 V3的消息。 文档交换是另外一种常见的互操作方式。有别于基于临床事件的消息,文档是一种阶段性的、小结性的、完整的医疗信息的汇总。它的应用场景也是低业务集成度、跨数据管理域的环境,不过通常情况下,文档交换通常都是用在机构之间的,而不是在一家医疗机构内部的不同业务系统之间。可以通过消息引擎,当然也可以使用其他的方式来进行相应的交换。文档的标准,我们最常见的有HL7 CDA。 服务的交换是另外一种。服务是什么?服务是封装好的,并且暴露出来的一组内聚的应用系统的功能。基于服务交互的互操作,需要双方规范互操作的业务流程和角色。服务交互通常是基于面向服务的这种架构、通过服务总线来进行交互的,也是应用在低业务集成度和跨数据管理的业务环境。服务是基于规范的业务流程、角色的,但是在医疗行业并不是所有的医疗流程都已经或者是能够规范的,所以服务交互目前来看还是有一定的适用范围。最常见的国际上的服务标准是IHE。 API是现在最流行的。API在当今的网络经济里已经是无处不在了。它是概述了一组明确定义的规范,允许应用程序能够建立在另一个应用程序已有的数据和功能之上,而且不需要去了解其他的应用系统的系统设计。有别于消息和文档,API可以仅传输必要的信息,效率比较高,不需要传完整的上下文,所以它不需要中心化的消息,本质上是一个去中心化的架构,比较适合于业务集成度更紧密的互操作的场景。 目前面临的是传统的医疗边界被突破了——例如互联网医院这样的使用场景——我们需要扩大互操作性、互操作对象和数据,而这也驱动了医疗API的出现,这也是我这次介绍的一个重点,HL7 FHIR标准。 注:本文根据InterSystems中国技术总监乔鹏演讲整理而成。